[m17n.org] [ 京都大学 人文科学研究所 附属 漢字情報研究センター ]

DICCS CHISE project

[English page is here]


CHISE プロジェクトについて

CHISE (CHaracter Information Service Environment) プロジェクトは世界のさまざまな文字に関する知識をデータベース化するとともに、 そのデータベースをさまざまな形で利用する新しい文字処理アーキテクチャを開発するものです。

News


文字知識データベースに基づく文字処理アーキテクチャの開発

XEmacs UTF-2000

外部文字データベースから文字属性を lazy-loading 可能になりました。IA32 アーキテクチャで実行形式の大きさが従来約 30 MB だったのが約 15 MB になりました。現在、 XEmacs UTF-2000 0.19 (郡山) から download 可能です。また、cvs.m17n.org の /cvs/root の XEmacs モジュールの utf-2000 枝でから anonymous CVS でも入手可能です。

TopicMaps による文字知識データベース・システムの開発

2001 年度には Zope による TopicMaps エンジンのプロトタイプを開発しました。 現在、PostgreSQL を用いた実装と XEmacs UTF-2000 上で動作する editor の 開発を計画中です。

文字に関するさまざまな知識のデータベース化

漢字構造情報データベース

ISO/IEC 10646-1:2000 の IDS 形式に基づく漢字の構造情報データベースを開発中です。 現在、ISO/IEC 10646-1 の基本統合漢字 (Unicode 例示字形), 統合漢字拡張 A, ISO/IEC-10646-2 の統合漢字拡張 B の約7万字が入力済です。


構造情報データベースのサンプル

現在、cvs.m17n.org/cvs/chiseids モジュールから anonymous CVS で入手可能です。

IDS-UCS-Basic.txt
CJK Unified Ideographs (U+4E00 〜 U+9FA5) of ISO/IEC 10646-1:2000
IDS-UCS-Ext-A.txt
CJK Unified Ideographs Extension A (U+3400 〜 U+4DB5, U+FA1F and U+FA23) of ISO/IEC 10646-1:2000
IDS-UCS-Compat.txt
CJK Compatibility Ideographs (U+F900 〜 U+FA2D, except U+FA1F and U+FA23) of ISO/IEC 10646-1:2000
IDS-UCS-Ext-B-1.txt
CJK Unified Ideographs Extension B [part 1] (U-00020000 〜 U-00021FFF) of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-2.txt
CJK Unified Ideographs Extension B [part 2] (U-00022000 〜 U-00023FFF) of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-3.txt
CJK Unified Ideographs Extension B [part 3] (U-00024000 〜 U-00025FFF) of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-4.txt
CJK Unified Ideographs Extension B [part 4] (U-00026000 〜 U-00027FFF) of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-5.txt
CJK Unified Ideographs Extension B [part 5] (U-00028000 〜 U-00029FFF) of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-6.txt
CJK Unified Ideographs Extension B [part 6] (U-0002A000 〜 U-0002A6D6) of ISO/IEC 10646-2:2001
IDS-UCS-Compat-Supplement.txt
CJK Compatibility Ideographs Supplement (U-0002F800 〜 U-0002FA1D) of ISO/IEC 10646-2:2001
IDS-Daikanwa-01.txt
諸橋 大漢和辞典 第1巻
IDS-Daikanwa-02.txt
諸橋 大漢和辞典 第2巻
IDS-Daikanwa-03.txt
諸橋 大漢和辞典 第3巻
IDS-Daikanwa-04.txt
諸橋 大漢和辞典 第4巻
IDS-Daikanwa-05.txt
諸橋 大漢和辞典 第5巻
IDS-Daikanwa-06.txt
諸橋 大漢和辞典 第6巻
IDS-Daikanwa-07.txt
諸橋 大漢和辞典 第7巻
IDS-Daikanwa-08.txt
諸橋 大漢和辞典 第8巻
IDS-Daikanwa-09.txt
諸橋 大漢和辞典 第9巻
IDS-Daikanwa-10.txt
諸橋 大漢和辞典 第10巻
IDS-Daikanwa-11.txt
諸橋 大漢和辞典 第11巻
IDS-Daikanwa-12.txt
諸橋 大漢和辞典 第12巻
IDS-Daikanwa-dx.txt
諸橋 大漢和辞典 索引(補遺)
IDS-Daikanwa-ho.txt
諸橋 大漢和辞典 補巻
IDS-CBETA.txt
CBETA 外字

グリフ・字形情報の統合と合成

文字データベースに字形やグリフ(字体)に関する情報を収録し、 文字に関する知識とグリフ・字形を統一的に扱うシステムを実現します。 また、 漢字の構造情報 を利用して 複数の部品からなる漢字の字形情報を合成するシステムを開発します。 これにより、文字の性質と実際に表示される字形のミスマッチが起こらず、 符号化されていない文字・フォントが存在しない文字も含め 定義した文字が正しく表示・印刷可能な環境の実現を目指します。

文字知識情報の数理的解析と可視化


Mailing List

CHISE Project に関する議論等は CHISE-{ja|en} mailing list で行っています。

CHISE Project の開発に参加したい方、CHISE Project 実装を使ってみたい方、 CHISE Project 実装についての質問・要望、その他 CHISE Project に関する議論に参加したい方をお待ちしています。

CHISE mailing list に参加希望の方は

日本語
chise-ja-ctl@m17n.org
英語
chise-en-ctl@m17n.org
宛に
subscribe あなたの名前
の一行を書いた mail をお送りください。 その後、確認の mail を届きますので、その mail の中にある
confirm PASSWORD あなたの名前
の1行を本文にして返事を送ってください。

文書・発表等

歴史

このプロジェクトは、2001年度 「未踏ソフトウェア創造事業」の助成を受けました。


[戻る]


[ 京都大学 人文科学研究所 附属漢字情報研究センター ] [ m17n.org(多言語化機構) (独立行政法人 産業技術総合研究所) ]
[ 花園大学 ] [ 独立行政法人 通信技術総合研究所 ] [ 東京医科歯科大学 難治疾患研究所 情報医学部門 生命情報学 ]


Last modified: Wed Aug 21 17:38:48 JST 2002 . counter since Jul 5 2002.