文字データベースに基づく文字表現モデル

従来の文字表現の特徴と問題点

符号化文字モデル

現在、多くの文字処理系では、文字そのものを扱う代わりに、文字に固有の番号を振って、その番号で文字を表す手法を用いている。ここで、文字と番号の対応規則を「符号化文字集合」(Coded Character Set; CCS) もしくは「文字符号」(character code) と呼び、文字に振られた番号を「符号位置」(code point) と呼ぶ。また、このように、有限の文字の集合を定め、各文字に固有の番号を振りその番号で文字を表現する手法のことを、ここでは『符号化文字モデル』と呼ぶことにする。

**Figure 2.1:** 符号化文字モデルの概念図
$\scalebox{0.5}{\includegraphics*[0mm,15mm][300mm,155mm]{char-code.eps}}$

図 2.1.1に示すように、符号化文字モデルでは文字は文字に振られた番号で表現される。文字に関する知識は符号化文字集合の定義の中に存在し、通常、計算機の中には存在しない。このため、計算機は少ない記憶量で文字を表現できる半面、計算機が扱うことができる文字の種類や文字の概念は符号化文字集合の定義に束縛される。

符号化文字モデルに基づいて通信を行なう場合、送信者と受信者は文字と番号の対応規則である文字符号を共有している必要がある。さもなくば文字化けが生じる。ある文字符合で表現できない文字が存在した場合、両者が合意して通信手順で用いる文字符合を拡張しなければならない。しかし、インターネットのような不特定多数が参加しさまざまな種類の機材が存在するような大規模開放システムで用いられる標準的な文字符合を拡張することは極めて困難であるといえる。

このため、現実的な方策として、従来、交換可能性をあきらめて外字を用いる方法や、検索などの符号化文字としての利便性をあきらめて画像を用いる方法が採られてきた。また、国際的な標準符合として ISO/IEC 10646 (UCS)/Unicode を de jure/de fact standard として制定し、これを全世界で共有し、また、これを拡張することによりこの問題を解決しようとする努力が続けられているが、これにも技術的・政治的問題があり容易ではない。

符合拡張法 ― Mule 方式

前述のように、符号化文字モデルでは、「世の中に存在するさまざまな文字」と「符号化され符号位置という番号を振られた文字」の間の関係は、符号化文字集合によって定義されている。この考え方では、文字の持ついろいろな性質は個々の文字ではなく符号化文字集合が持つことを前提としている。また、さらに、それぞれの符号化文字集合が似た性質の文字の集合であり、特定の用字系 (script) や言語で用いる文字の集合であると仮定できるならば、符号化文字集合の種類を特定することにより、用字系や言語を特定できるといえる。

この仮定がなりたっていれば、個々の符号化文字集合は用字系や言語を近似するものとして用いることができ、少ない記憶容量で大量の文字を扱うことができる。UCS/Unicode のような多数の言語を対象に多数の用字系を収録した符号化文字集合が利用されるようになるまでは、単一の言語や用字系を想定して作られていた符号化文字集合が多く、この前提はほぼ満たされていた。

このような仮定を前提に符号化文字集合を追加可能にしたシステムとして Mule [3] が存在する。

しかし、多くの符号化文字集合は通常の文字だけでなく、句読点のような記号を含んでおり、また、JIS X 0208 のように複数の用字系を含むような符号化文字集合や ISO 8859-1 のように複数の言語で利用される符号化文字集合も多く存在したので、当初からこれはあくまで近似に過ぎなかった。逆に、同一の文字でも、符号化文字集合が異なれば違う文字として扱われてしまう。例えば、ISO 8859-1 の「á」と ISO 8859-2 の「á」や JIS X 0208:1978 の「あ」と JIS X 0208:1983 の「あ」は別の文字とされる。これでは、検索や文字の性質を定義する上で問題がおこる。西欧と東欧のように、伝統的には異なる符号化文字集合を使ってきており、近年交流が盛んになりつつあるような環境では、特に不便である。

文字の重なりがほとんどないことを前提としている従来の Mule 型の文字表現方法は、記憶資源が高価であった時代には一種の近似解として効果的であった。しかし記憶資源が比較的豊富になりつつある現在、その利点よりも弊害が多くなってきた。より高度な文字処理やより柔軟な拡張可能性を実現するためにも、また、現在利用されているさまざまな符号化文字集合をより適切に利用するためにも、著者らは従来の Mule の方式に代わる新たな文字表現の仕組みを実現することをめざしている。

符号化文字集合に依存しない文字表現へ

符号化文字モデルに基づかずに文字を表現すること、すなわち、固有の番号で同定することなしに文字を指し示そうとするとしたら、どうすれば良いだろうか？おそらくその一つの方法は指し示したい文字の性質を列挙することだろう。例えば、「あ」を指し示すとするならば

用字系: ひらがな
音価: /a/

のようにすればよいだろう。漢字の場合には、発音だけでは不十分である。例えば、「字」を指し示したい時に

用字系: 漢字
音: /じ/

とすれば、「字」以外にも「時」や「次」など /じ/ という音を持つ全ての漢字が含まれてしまう。総画数を付け

用字系: 漢字
音: /じ/
総画数: 6

とすれば、「時」や「事」などは除外され、「字」や「次」や「耳」などの総画数が６画の /じ/ という音を持つ全ての漢字の集合に限定される。さらに部首「子」を指定すればさらに限定されていくだろうし、文字の構造「『宀』の下に『子』」を指定したり、字義を指定すればさらに限定されるだろう。

このように文字を属性の集合で表現することによって、符号化文字方式に依らずに文字（ないしは文字の集合）を表現することが可能である。また、指定する属性を多くしたり少なくしたりすることによって、表現する文字の包摂規準を細かくしたり粗くしたりすることができる。

このような属性に基づく文字表現においては、文字の性質に関する情報は文字属性として文字表現自体に含まれている。よって、特定の処理に必要な情報は文字属性として文字表現に含めておかなければならない。例えば、表示を行なうには文字の字形を示す情報が必要である。逆に、表示という処理を行なわないことを前提とした文字表現には、字形という属性は不要となる。

このように各文字をその文字が持つ属性の集合によって表現し、こうした文字の属性の集合をデータベース化し、それを参照しながら文字を処理する方式をここでは『UTF-2000 方式』と呼ぶことにする。UTF-2000 方式は文字に関する知識を直接プログラムするのではなく、データベース化してそれを参照する方法であるので、計算機が扱うことができる文字の種類や文字の概念は符号化文字集合の定義に束縛されない。使用する文字データベースを取り換えることによって、容易に文字の種類や概念を変更可能である。このような高度な柔軟性を持つ半面、多数の文字を扱う場合、多量の記憶量が必要となると考えられる。このため、文字データベースを柔軟性を損なうことなく効率的に扱うための機構が必要となる。

ところで、UTF-2000 方式自体は既存の符号化文字技術と対立するものではない。符号化文字集合の種類と符号位置は文字属性の一つと捉えることは可能であり、利用したい符号化文字集合を文字属性に含めることにより、それらの符号化文字集合の世界と情報交換を行なうことは可能である。

MORIOKA Tomohiko 2002-02-15