次世代多言語処理系の
モデルおよび実装の開発
守岡 知彦
多様な構造の情報を自由に編集・交換可能な文書処理系の開発
目標
z
文書のさまざまな構造や属性を適切に表現・処理可能な枠組みの実現
z
利用者固有の用途への適合
z
インターネットでの情報交換が可能
符号化文字の成功
z
とにかく文字を計算機で扱えるようになった
y
いろんな処理の基盤を提供した
z
作成、加工、転送等が比較的容易
z
情報化社会の基盤技術
符号化文字
英語圏の場合
z
他の文字圏に対する優位性
y
文字化けしにくい
y
十分な表現力
y
処理の容易な文字表現
y
技術の蓄積
z
さまざまな情報の電子化に成功
日本語処理における問題点
z
検索
z
置換
z
ソート
z
文字表現
z
表示
符号化文字の問題点
z
各符号位置の意味の定義を文字符号が引き受ける
y
文字符号の作成、変更、普及のためのコストが甚大
z
文字符号にない文字や適合しない文字を扱うのが困難
文書の諸構造
z
章
y
節
x
文
• 句
– 語
字
z
字、行、段、頁など見かけ上の単位も
字も構造を持っている
z
漢字における部首や旁(意符、音符)など
z
ハングルにおける字母と音節
z
タイ文字やラオ文字等における音節(子音)字と母音字の結合
z
インド系諸文字における複雑な結合
z
ラテン文字におけるアクセント記号の付加
z etc…
従来の技術
z
符号化文字の世界
z
イメージ・データの世界
要求される技術
z
文字の属性(意味)を扱うための技術
z
従来の符号化文字も利用可能
z
(符号化)文字以外の情報と符号化文字の格差を減らす
符号化文字から文字オブジェクトへ
文字オブジェクトの拡張
Multiple Coded Scheme
Multiple Coded Scheme
z editable entity unit (eeu)
y
文字を抽象化したもの
x 文字符号 = eeu の id
y
各種文字符号や各種属性を持つ
x
文字符号を持たない eeu を可能にする
• 文字以外の情報
• 符号化されていない文字
• 文字符号に合わない文字の用法
x
SGML /
XML 等の tag 付き文書
x
文字データベースの利用や編集
研究計画
z
XEmacs
での内部表現変更実験
z
任意の文字の部分集合を効率的に扱うためのモデル・実装の開発
z
大規模文字データベースを効率的に扱うための技術
z
対象に応じた文書表現の最適化
z
インターネット等での実証実験