[m17n.org]
[
京都大学 人文科学研究所 附属 漢字情報研究センター
]
|
CHISE project
|
---|
Last modified: Wed Jun 26 20:44:38 JST 2002
[English page is here]
CHISE プロジェクトについて
CHISE (CHaracter Information Service Environment)
プロジェクトは世界のさまざまな文字に関する知識をデータベース化するとともに、
そのデータベースをさまざまな形で利用する新しい文字処理アーキテクチャを開発するものです。
なお、このプロジェクトは、2001年度
「未踏ソフトウェア創造事業」の助成を受けました
News
文字知識データベースに基づく文字処理アーキテクチャの開発
外部文字データベースから文字属性を lazy-loading
可能になりました。IA32 アーキテクチャで実行形式の大きさが従来約 30 MB
だったのが約 15 MB になりました。現在、cvs.m17n.org の /cvs/root の
XEmacs モジュールの utf-2000 枝でから anonymous CVS で入手可能です。
TopicMaps
による文字知識データベース・システムの開発
2001 年度には
Zope
による TopicMaps
エンジンのプロトタイプを開発しました。
現在、PostgreSQL を用いた実装と XEmacs UTF-2000 上で動作する editor の
開発を計画中です。
文字に関するさまざまな知識のデータベース化
漢字構造情報データベース
ISO/IEC 10646-1:2000 の IDS
形式に基づく漢字の構造情報データベースを開発中です。
現在、ISO/IEC 10646-1 の基本統合漢字 (Unicode 例示字形),
統合漢字拡張 A, ISO/IEC-10646-2 の統合漢字拡張 B
の約7万字が入力済です。
構造情報データベースのサンプル
現在、cvs.m17n.org の /cvs/chise
の ids
モジュールから anonymous CVS で入手可能です。
-
IDS-UCS-Basic.txt
- CJK Unified Ideographs (U+4E00 〜 U+9FA5) of ISO/IEC
10646-1:2000
-
IDS-UCS-Ext-A.txt
- CJK Unified Ideographs Extension A (U+3400 〜 U+4DB5, U+FA1F and
U+FA23) of ISO/IEC 10646-1:2000
-
IDS-UCS-Compat.txt
- CJK Compatibility Ideographs (U+F900 〜 U+FA2D, except U+FA1F
and U+FA23) of ISO/IEC 10646-1:2000
-
IDS-UCS-Ext-B-1.txt
- CJK Unified Ideographs Extension B [part 1] (U-00020000 〜
U-00021FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-2.txt
- CJK Unified Ideographs Extension B [part 2] (U-00022000 〜
U-00023FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-3.txt
- CJK Unified Ideographs Extension B [part 3] (U-00024000 〜
U-00025FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-4.txt
- CJK Unified Ideographs Extension B [part 4] (U-00026000 〜
U-00027FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-5.txt
- CJK Unified Ideographs Extension B [part 5] (U-00028000 〜
U-00029FFF) of ISO/IEC 10646-2:2001
-
IDS-UCS-Ext-B-6.txt
- CJK Unified Ideographs Extension B [part 6] (U-0002A000 〜
U-0002A6D6) of ISO/IEC 10646-2:2001
-
IDS-UCS-Compat-Supplement.txt
- CJK Compatibility Ideographs Supplement (U-0002F800 〜
U-0002FA1D) of ISO/IEC 10646-2:2001
-
IDS-Daikanwa-01.txt
- 諸橋 大漢和辞典 第1巻
-
IDS-Daikanwa-02.txt
- 諸橋 大漢和辞典 第2巻
-
IDS-Daikanwa-03.txt
- 諸橋 大漢和辞典 第3巻
-
IDS-Daikanwa-04.txt
- 諸橋 大漢和辞典 第4巻
-
IDS-Daikanwa-05.txt
- 諸橋 大漢和辞典 第5巻
-
IDS-Daikanwa-06.txt
- 諸橋 大漢和辞典 第6巻
-
IDS-Daikanwa-07.txt
- 諸橋 大漢和辞典 第7巻
-
IDS-Daikanwa-08.txt
- 諸橋 大漢和辞典 第8巻
-
IDS-Daikanwa-09.txt
- 諸橋 大漢和辞典 第9巻
-
IDS-Daikanwa-10.txt
- 諸橋 大漢和辞典 第10巻
-
IDS-Daikanwa-11.txt
- 諸橋 大漢和辞典 第11巻
-
IDS-Daikanwa-12.txt
- 諸橋 大漢和辞典 第12巻
-
IDS-Daikanwa-dx.txt
- 諸橋 大漢和辞典 索引(補遺)
-
IDS-Daikanwa-ho.txt
- 諸橋 大漢和辞典 補巻
-
IDS-CBETA.txt
- CBETA 外字
文書・発表等
-
XEmacs UTF-2000 関連
- 文字知識情報の数理的解析と可視化関連
- その他
-
「次世代多言語処理系の モデルおよび実装の開発」
(1999年10月)
- Christian Wittern, “Non-system characters in XML documents”,
「アジア情報学のフロンティア」
(全国文献・情報センター人文社会科学学術セミナーシリーズ No.10),
2000年11月
- 守岡 知彦、「UTF-2000 プロジェクト」、
「漢字と情報」No.2, 2001年3月
- MORIOKA Tomohiko,“知世 project ― beyond the UTF-2000”,
m17n2001: the Fifth International Symposium on Multilingual
Information Processing and Open Source Software
.
- MORIOKA Tomohiko, “A Short Introduction to UTF-2000 Project”,
the First TEI Character Set Issues Working Group (October 2001,
University of California, Berkeley, USA).
- クリスティアン・ウィッテルン、「電子化とは何か?」、
「漢字と情報」No.3, 2001年10月
- 師 茂樹、「ポスト文字コードの意義」、
「漢字と情報」No.3, 2001年10月
- Christian Wittern, “Some thoughts on the digitization of Kanji”,
「人文社会情報と IT」
(全国文献・情報センター人文社会科学学術セミナーシリーズ No.11),
2001年11月
[
京都大学人文科学研究所附属漢字情報研究センター
関連プロジェクト
]