[m17n.org]
[
京都大学 人文科学研究所 附属 漢字情報研究センター
]
|
CHISE project
|
---|
Last modified: Tue Jun 11 21:09:44 JST 2002
[English page is here]
CHISE プロジェクトについて
CHISE (CHaracter Information Service Environment)
プロジェクトは世界のさまざまな文字に関する知識をデータベース化するとともに、
そのデータベースをさまざまな形で利用する新しい文字処理アーキテクチャを開発するものです。
なお、このプロジェクトは、2001年度
「未踏ソフトウェア創造事業」の助成を受けました
News
文字知識データベースに基づく文字処理アーキテクチャの開発
外部文字データベースから文字属性を lazy-loading
可能になりました。IA32 アーキテクチャで実行形式の大きさが従来約 30 MB
だったのが約 15 MB になりました。現在、cvs.m17n.org の /cvs/root の
XEmacs モジュールの utf-2000 枝でから anonymous CVS で入手可能です。
TopicMaps
による文字知識データベース・システムの開発
Zope
による TopicMaps
エンジンのプロトタイプを開発しました。
文字に関するさまざまな知識のデータベース化
漢字構造情報データベース
ISO/IEC 10646-1:2000 の IDS
形式に基づく漢字の構造情報データベースを開発中です。
現在、ISO/IEC 10646-1 の基本統合漢字 (Unicode 例示字形),
統合漢字拡張 A, ISO/IEC-10646-2 の統合漢字拡張 B
の約7万字が入力済です。
現在、cvs.m17n.org の /cvs/chise
の ids
モジュールから anonymous CVS で入手可能です。
-
IDS-UCS-Basic.txt
- CJK Unified Ideographs (U+4E00 〜 U+9FA5) of ISO/IEC
10646-1:2000
-
IDS-UCS-Ext-A.txt
- CJK Unified Ideographs Extension A (U+3400 〜 U+4DB5, U+FA1F and
U+FA23) of ISO/IEC 10646-1:2000
-
IDS-UCS-Compat.txt
- CJK Compatibility Ideographs (U+F900 〜 U+FA2D, except U+FA1F
and U+FA23) of ISO/IEC 10646-1:2000
-
IDS-UCS-Ext-B-1.txt
- CJK Unified Ideographs Extension B [part 1] (U-00020000 〜
U-00021FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-2.txt
- CJK Unified Ideographs Extension B [part 2] (U-00022000 〜
U-00023FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-3.txt
- CJK Unified Ideographs Extension B [part 3] (U-00024000 〜
U-00025FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-4.txt
- CJK Unified Ideographs Extension B [part 4] (U-00026000 〜
U-00027FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-5.txt
- CJK Unified Ideographs Extension B [part 5] (U-00028000 〜
U-00029FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-6.txt
- CJK Unified Ideographs Extension B [part 6] (U-0002A000 〜
U-0002A6D6) of ISO/IEC 10646-2:2001
-
IDS-UCS-Compat-Supplement.txt
- CJK Compatibility Ideographs Supplement (U-0002F800 〜
U-0002FA1D) of ISO/IEC 10646-2:2001
文字知識情報の数理的解析と可視化
文書・発表等
- 「次世代多言語処理系の モデルおよび実装の開発」
- 守岡 知彦、「UTF-2000 ―
emacsen における新たな文字表現への取り組み」、
Linux Conference 2000 Spring
- 守岡 知彦、「UTF-2000 ―
汎用文字符号に依存しない文字表現系の展望」、
「アジア情報学のフロンティア」
(全国文献・情報センター人文社会科学学術セミナーシリーズ No.10),
2000年11月
- Christian Wittern, “Non-system characters in XML documents”,
「アジア情報学のフロンティア」
(全国文献・情報センター人文社会科学学術セミナーシリーズ No.10),
2000年11月
- MORIOKA Tomohiko,“知世 project ― beyond the UTF-2000”,
m17n2001: the Fifth International Symposium on Multilingual
Information Processing and Open Source Software
.
- 守岡 知彦、「UTF-2000 プロジェクト」、
「漢字と情報」No.2, 2001年3月
- クリスティアン・ウィッテルン、「電子化とは何か?」、
「漢字と情報」No.3, 2001年10月
- 師 茂樹、「ポスト文字コードの意義」、
「漢字と情報」No.3, 2001年10月
- 錦見美貴子、守岡知彦、戸村哲、半田剣一、高橋直人、
「文書編集系における文字コード」、
bit 別冊「インターネット時代の文字コード」
第9章、2001年4月5日、
共立出版
- MORIOKA Tomohiko, “A Short Introduction to UTF-2000 Project”,
the First TEI Character Set Issues Working Group (October 2001,
University of California, Berkeley, USA).
- Yoshi Fujiwara, Yasuhiro Suzuki, Tomohiko
Morioka, “
Network of Words”,
Artificial Life and Robotics 2002 (
[発表資料].
[
京都大学人文科学研究所附属漢字情報研究センター
関連プロジェクト
]