[Mirror Sites]
|
[English page]
|
CHISE (CHaracter Information Service Environment) プロジェクトは世界のさまざまな文字に関する知識をデータベース化するとともに、 そのデータベースをさまざまな形で利用する新しい文字処理アーキテクチャを開発するものです。
外部文字データベースから文字属性を lazy-loading 可能になりました。IA32 アーキテクチャで実行形式の大きさが従来約 30 MB だったのが約 15 MB になりました。現在、 XEmacs UTF-2000 0.19 (郡山) から download 可能です。また、cvs.m17n.org の /cvs/root の XEmacs モジュールの utf-2000 枝から anonymous CVS でも入手可能です。
CHISE 文字データベース(現状では XEmacs UTF-2000 用の Berkeley DB 版文字データベース)を Ruby からアクセスする試みを行っています。
また、Ruby 版 UTF-2000 実装を開発すると良いかも知れません。 (cf. Ruby/UTF-2000の仕様案 (by akr さん)
2001 年度には Zope による TopicMaps エンジンのプロトタイプを開発しました。 現在、PostgreSQL を用いた実装と XEmacs UTF-2000 上で動作する editor の 開発を計画中です。
ISO/IEC 10646-1:2000 の IDS 形式に基づく漢字の構造情報データベースを開発中です。 現在、ISO/IEC 10646-1 の基本統合漢字 (Unicode 例示字形), 統合漢字拡張 A, ISO/IEC-10646-2 の統合漢字拡張 B の約7万字が入力済です。
現在、cvs.m17n.org の /cvs/chise の ids モジュールから anonymous CVS で入手可能です。
- IDS-UCS-Basic.txt
- CJK Unified Ideographs (U+4E00 〜 U+9FA5) of ISO/IEC 10646-1:2000
- IDS-UCS-Ext-A.txt
- CJK Unified Ideographs Extension A (U+3400 〜 U+4DB5, U+FA1F and U+FA23) of ISO/IEC 10646-1:2000
- IDS-UCS-Compat.txt
- CJK Compatibility Ideographs (U+F900 〜 U+FA2D, except U+FA1F and U+FA23) of ISO/IEC 10646-1:2000
- IDS-UCS-Ext-B-1.txt
- CJK Unified Ideographs Extension B [part 1] (U-00020000 〜 U-00021FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-2.txt
- CJK Unified Ideographs Extension B [part 2] (U-00022000 〜 U-00023FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-3.txt
- CJK Unified Ideographs Extension B [part 3] (U-00024000 〜 U-00025FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-4.txt
- CJK Unified Ideographs Extension B [part 4] (U-00026000 〜 U-00027FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-5.txt
- CJK Unified Ideographs Extension B [part 5] (U-00028000 〜 U-00029FFF) of ISO/IEC 10646-2:2001
- IDS-UCS-Ext-B-6.txt
- CJK Unified Ideographs Extension B [part 6] (U-0002A000 〜 U-0002A6D6) of ISO/IEC 10646-2:2001
- IDS-UCS-Compat-Supplement.txt
- CJK Compatibility Ideographs Supplement (U-0002F800 〜 U-0002FA1D) of ISO/IEC 10646-2:2001
- IDS-Daikanwa-01.txt
- 諸橋 大漢和辞典 第1巻
- IDS-Daikanwa-02.txt
- 諸橋 大漢和辞典 第2巻
- IDS-Daikanwa-03.txt
- 諸橋 大漢和辞典 第3巻
- IDS-Daikanwa-04.txt
- 諸橋 大漢和辞典 第4巻
- IDS-Daikanwa-05.txt
- 諸橋 大漢和辞典 第5巻
- IDS-Daikanwa-06.txt
- 諸橋 大漢和辞典 第6巻
- IDS-Daikanwa-07.txt
- 諸橋 大漢和辞典 第7巻
- IDS-Daikanwa-08.txt
- 諸橋 大漢和辞典 第8巻
- IDS-Daikanwa-09.txt
- 諸橋 大漢和辞典 第9巻
- IDS-Daikanwa-10.txt
- 諸橋 大漢和辞典 第10巻
- IDS-Daikanwa-11.txt
- 諸橋 大漢和辞典 第11巻
- IDS-Daikanwa-12.txt
- 諸橋 大漢和辞典 第12巻
- IDS-Daikanwa-dx.txt
- 諸橋 大漢和辞典 索引(補遺)
- IDS-Daikanwa-ho.txt
- 諸橋 大漢和辞典 補巻
- IDS-CBETA.txt
- CBETA 外字
文字データベースに字形やグリフ(字体)に関する情報を収録し、 文字に関する知識とグリフ・字形を統一的に扱うシステムを実現します。 また、 漢字の構造情報 を利用して 複数の部品からなる漢字の字形情報を合成するシステムを開発します。 これにより、文字の性質と実際に表示される字形のミスマッチが起こらず、 符号化されていない文字・フォントが存在しない文字も含め 定義した文字が正しく表示・印刷可能な環境の実現を目指します。
文字符号に制約されることなく一貫して文書処理する上で 重要な部品のひとつは組版・印刷システムだといえます。 このため、現在、CHISE プロジェクトでは苫米地等流氏、宮崎泉氏らが中心となって、 文字データベースより得られる文字オブジェクトの情報に基づいた、 柔軟かつ拡張性の高い組版システムの設計と実装を行っています。
このサブプロジェクトでは組版エンジンとして Ω と呼ばれる TeX に 基づく多言語組版システムのひとつを採用しています。これは Ω が TeX より継承した精密な組版能力に加え、 入出力文字コードを変換する強力な言語ΩTP (Ω Translation Process) を内蔵していることから、多言語・多文字種の文書を処理するにあたって 現時点で最適なツールと考えられるからです。さらに、ΩTP は単に文字コードの変換するだけではなく、 組版規則に従った入出力の変換処理にも利用可能です。 また、外部のプログラム(標準入出力フィルタ)をプラグイン(外部ΩTP) として付加し、極めて複雑な処理を行わせることも容易です。 このようなΩの拡張性は、文字データベースと連携した組版に不可欠なものであり、 符号化文字集合・文字オブジェクト情報の両者を柔軟に組合せた 実用的で強力な組版システムの構築を可能にすると考えられます。
具体的な実装にあたっては、 データベースとΩ のインターフェイスを取るプラグインフィルタの開発を作業の中心としており、 これと並行して LaTeX/Lambda マクロや XSL スタイルファイルの設計を行っています。 また、多様なグリフ表現に必要となるフォントの実装 およびそのシステム中での扱いについても研究・実証を行っています。 入力は LaTeX/Lambda 形式を基本として想定しますが、 プラグインフィルタから XML パーサや XSLT ツールを呼びだすことによる XML 入力への対応も開発の視野に入れています。同じく出力についても、 LaTeX→dvi, XML→dviに加え、LaTeX→XML/FO, XML→XML/FO のような 組み合わせも可能としたいと考えています。
CHISE Project に関する議論等は CHISE-{ja|en} mailing list で行っています。
CHISE Project の開発に参加したい方、CHISE Project 実装を使ってみたい方、 CHISE Project 実装についての質問・要望、その他 CHISE Project に関する議論に参加したい方をお待ちしています。
CHISE mailing list に参加希望の方は
subscribe あなたの名前の一行を書いた mail をお送りください。 その後、確認の mail を届きますので、その mail の中にある
confirm PASSWORD あなたの名前の1行を本文にして返事を送ってください。
このプロジェクトは、2001年度 「未踏ソフトウェア創造事業」の助成を受けました。
[
京都大学
人文科学研究所
附属漢字情報研究センター
]
[
m17n.org(多言語化機構)
(独立行政法人 産業技術総合研究所)
]
[
花園大学
]
[
独立行政法人 通信技術総合研究所
]
[
東京医科歯科大学
難治疾患研究所
情報医学部門 生命情報学
]