|
|
|
|
|
文書のさまざまな構造や属性を適切に表現・処理可能な枠組みの実現 |
|
利用者固有の用途への適合 |
|
インターネットでの情報交換が可能 |
|
|
|
|
|
とにかく文字を計算機で扱えるようになった |
|
いろんな処理の基盤を提供した |
|
作成、加工、転送等が比較的容易 |
|
情報化社会の基盤技術 |
|
|
|
|
|
|
他の文字圏に対する優位性 |
|
文字化けしにくい |
|
十分な表現力 |
|
処理の容易な文字表現 |
|
技術の蓄積 |
|
さまざまな情報の電子化に成功 |
|
|
|
|
|
|
各符号位置の意味の定義を文字符号が引き受ける |
|
文字符号の作成、変更、普及のためのコストが甚大 |
|
文字符号にない文字や適合しない文字を扱うのが困難 |
|
|
|
|
|
|
|
|
章 |
|
節 |
|
文 |
|
句 |
|
語 |
|
字 |
|
字、行、段、頁など見かけ上の単位も |
|
|
|
|
漢字における部首や旁(意符、音符)など |
|
ハングルにおける字母と音節 |
|
タイ文字やラオ文字等における音節(子音)字と母音字の結合 |
|
インド系諸文字における複雑な結合 |
|
ラテン文字におけるアクセント記号の付加 |
|
etc… |
|
|
|
|
|
文字の属性(意味)を扱うための技術 |
|
従来の符号化文字も利用可能 |
|
(符号化)文字以外の情報と符号化文字の格差を減らす |
|
|
|
|
|
|
|
|
|
|
editable entity unit (eeu) |
|
文字を抽象化したもの |
|
文字符号 = eeu の id |
|
各種文字符号や各種属性を持つ |
|
文字符号を持たない eeu を可能にする |
|
文字以外の情報 |
|
符号化されていない文字 |
|
文字符号に合わない文字の用法 |
|
SGML / XML 等の tag 付き文書 |
|
文字データベースの利用や編集 |
|
|
|
|
XEmacs での内部表現変更実験 |
|
任意の文字の部分集合を効率的に扱うためのモデル・実装の開発 |
|
大規模文字データベースを効率的に扱うための技術 |
|
対象に応じた文書表現の最適化 |
|
インターネット等での実証実験 |
|