[m17n.org] [ 京都大学 人文科学研究所 附属 漢字情報研究センター ]
CHISE project |
CHISE (CHaracter Information Service Environment) プロジェクトは世界のさまざまな文字に関する知識をデータベース化するとともに、 そのデータベースをさまざまな形で利用する新しい文字処理アーキテクチャを開発するものです。
外部文字データベースから文字属性を lazy-loading 可能になりました。IA32 アーキテクチャで実行形式の大きさが従来約 30 MB だったのが約 15 MB になりました。現在、 XEmacs UTF-2000 0.19 (郡山) から download 可能です。また、cvs.m17n.org の /cvs/root の XEmacs モジュールの utf-2000 枝でから anonymous CVS でも入手可能です。
2001 年度には Zope による TopicMaps エンジンのプロトタイプを開発しました。 現在、PostgreSQL を用いた実装と XEmacs UTF-2000 上で動作する editor の 開発を計画中です。
ISO/IEC 10646-1:2000 の IDS 形式に基づく漢字の構造情報データベースを開発中です。 現在、ISO/IEC 10646-1 の基本統合漢字 (Unicode 例示字形), 統合漢字拡張 A, ISO/IEC-10646-2 の統合漢字拡張 B の約7万字が入力済です。
現在、cvs.m17n.org の /cvs/chise の ids モジュールから anonymous CVS で入手可能です。
- IDS-UCS-Basic.txt
- CJK Unified Ideographs (U+4E00 〜 U+9FA5) of ISO/IEC 10646-1:2000
- IDS-UCS-Ext-A.txt
- CJK Unified Ideographs Extension A (U+3400 〜 U+4DB5, U+FA1F and U+FA23) of ISO/IEC 10646-1:2000
- IDS-UCS-Compat.txt
- CJK Compatibility Ideographs (U+F900 〜 U+FA2D, except U+FA1F and U+FA23) of ISO/IEC 10646-1:2000
- IDS-UCS-Ext-B-1.txt
- CJK Unified Ideographs Extension B [part 1] (U-00020000 〜 U-00021FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-2.txt
- CJK Unified Ideographs Extension B [part 2] (U-00022000 〜 U-00023FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-3.txt
- CJK Unified Ideographs Extension B [part 3] (U-00024000 〜 U-00025FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-4.txt
- CJK Unified Ideographs Extension B [part 4] (U-00026000 〜 U-00027FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-5.txt
- CJK Unified Ideographs Extension B [part 5] (U-00028000 〜 U-00029FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-6.txt
- CJK Unified Ideographs Extension B [part 6] (U-0002A000 〜 U-0002A6D6) of ISO/IEC 10646-2:2001
- IDS-UCS-Compat-Supplement.txt
- CJK Compatibility Ideographs Supplement (U-0002F800 〜 U-0002FA1D) of ISO/IEC 10646-2:2001
- IDS-Daikanwa-01.txt
- 諸橋 大漢和辞典 第1巻
- IDS-Daikanwa-02.txt
- 諸橋 大漢和辞典 第2巻
- IDS-Daikanwa-03.txt
- 諸橋 大漢和辞典 第3巻
- IDS-Daikanwa-04.txt
- 諸橋 大漢和辞典 第4巻
- IDS-Daikanwa-05.txt
- 諸橋 大漢和辞典 第5巻
- IDS-Daikanwa-06.txt
- 諸橋 大漢和辞典 第6巻
- IDS-Daikanwa-07.txt
- 諸橋 大漢和辞典 第7巻
- IDS-Daikanwa-08.txt
- 諸橋 大漢和辞典 第8巻
- IDS-Daikanwa-09.txt
- 諸橋 大漢和辞典 第9巻
- IDS-Daikanwa-10.txt
- 諸橋 大漢和辞典 第10巻
- IDS-Daikanwa-11.txt
- 諸橋 大漢和辞典 第11巻
- IDS-Daikanwa-12.txt
- 諸橋 大漢和辞典 第12巻
- IDS-Daikanwa-dx.txt
- 諸橋 大漢和辞典 索引(補遺)
- IDS-Daikanwa-ho.txt
- 諸橋 大漢和辞典 補巻
- IDS-CBETA.txt
- CBETA 外字
文字データベースに字形やグリフ(字体)に関する情報を収録し、 文字に関する知識とグリフ・字形を統一的に扱うシステムを実現します。 また、 漢字の構造情報 を利用して 複数の部品からなる漢字の字形情報を合成するシステムを開発します。 これにより、文字の性質と実際に表示される字形のミスマッチが起こらず、 符号化されていない文字・フォントが存在しない文字も含め 定義した文字が正しく表示・印刷可能な環境の実現を目指します。
CHISE Project に関する議論等は CHISE-{ja|en} mailing list で行っています。
CHISE Project の開発に参加したい方、CHISE Project 実装を使ってみたい方、 CHISE Project 実装についての質問・要望、その他 CHISE Project に関する議論に参加したい方をお待ちしています。
CHISE mailing list に参加希望の方は
subscribe あなたの名前の一行を書いた mail をお送りください。 その後、確認の mail を届きますので、その mail の中にある
confirm PASSWORD あなたの名前の1行を本文にして返事を送ってください。
このプロジェクトは、2001年度 「未踏ソフトウェア創造事業」の助成を受けました。
[
京都大学
人文科学研究所
附属漢字情報研究センター
]
[
m17n.org(多言語化機構)
(独立行政法人 産業技術総合研究所)
]
[
花園大学
]
[
独立行政法人 通信技術総合研究所
]
[
東京医科歯科大学
難治疾患研究所
情報医学部門 生命情報学
]