From: eto Date: Wed, 12 Mar 2003 09:50:00 +0000 (+0000) Subject: add library description at the document, index.html X-Git-Url: http://git.chise.org/gitweb/?a=commitdiff_plain;h=c01f2a118312007f4f085fcec964d26ef2a62f82;p=chise%2Fruby.git add library description at the document, index.html --- diff --git a/doc/index.html b/doc/index.html index 84f3424..e66fafb 100755 --- a/doc/index.html +++ b/doc/index.html @@ -43,14 +43,12 @@ Rubyへ移植することを試みたモジュールである。
  • 2003-0130 IDSの逆変換機能などを追加。
  • 2003-0213 ruby-chise-20030213.tar.bz2
    名称をRuby/UTF-2000からRuby/CHISEへと変更。 +
  • 2003-0312 ruby-chise-20030312.tar.bz2
    +様々なライブラリを追加。
    -

    ■CVS

    -

    CVS access -


    -

    ■libchise version

    -

    libchiseを使用したversionを作成中です。現在はプレアルファ版です。
    -rbchise-20030309.tar.bz2
    +

    ■CVS access

    +

    @@ -83,12 +81,54 @@ IDSのテキストファイルが置かれているディレクトリーを指

    ■Unicode

    現状では、Ruby/CHISEに渡す文字コードはUTF-8のUnicodeにしておくと便利である。 -

    これは望ましいものではなく、将来的にはプログラム自体がSJIS、EUCなどで書かれていても -問題なく処理できるようにする予定である。 -

    WindowsでUnicodeを使えるエディターとして、私はMeadow + Mule-UCSを使っている。 -

    他、Windows付属のメモ帳を使うことができる。 -

    また、見るだけであればIEに落すと表示される。 -

    フリーのUnicode対応エディターとして他にYuditがあるが、まだよく使い方はわからない。 +

    将来的にはプログラム自体がSJIS、EUCなどで書かれていても +問題なく処理できるようにしたい。 +

    WindowsでUnicodeを使えるエディターとして、Meadow + Mule-UCSが使える。 +

    フリーのUnicode対応エディターとして「サクラエディタ」が使える。 +

    他、Windows付属のメモ帳、見るだけであればIEが使える。 +

    + +
    +

    ■付属libraryの説明

    +

    現時点では個々の詳細には立ち入りません。 + +

      + +
    • ext/*
      +libchiseを用いたextensionです。現在はプレアルファ版です。 + +
    • network.rb, makegraph.rb, graphviz.rb, defkanji.rb, kanjilist.rb
      +漢字の部品間の接続関係を計算します。Graphvizによるグラフ化も行います。 +
      +ruby makegraph.rb
      +
      +

      Graphvizが必要です。min.svgが生成されます。 + +

      +ruby defkanji.rb
      +
      +

      漢字の定義を行います。 + +

    • stroke.rb, kage.rb, kageserver.rb, csf.rb
      +StrokeFontを用いるライブラリー群。 +上地宏一氏によるKAGE System(現時点ではまだ非公開), 坂直純氏によるCSFという二つのStrokeFontが使えます。 +別途フォントファイルが必要です。
      +csf.rb中のCSF_FONT_DIR = 'd:/work/chise/csf/'を適切に設定してください。 +

      sglという独自のグラフィックライブラリーが必要ですが、これはまだ非公開です。 + +

      +ruby stroke.rb
      +
      +

      漢字のCodeTableが表れ、その中の文字を表示できます。 + +

      + +
    @@ -116,16 +156,6 @@ p str.inspect_x #各文字の情報が表示される。 p str.inspect_all #各文字の属性情報を全て表示する。 -
    -

    ■様々な用例案

    -

    下記のような文章を入力、表示できるようになることを例として考える。 -

      -
    • 「電話は中国繁体字だと電話と書き、中国簡体字だと電話と書く」 -
    • 「吉野屋の吉は、土吉の吉である。」 -
    • 「高橋さんは高橋さんと表記されるのを嫌う。」 -
    • 「日本語の骨を、中国簡体字だと骨と書く」 -
    -

    が、まだ入力できません。未完成です。

    @@ -136,24 +166,6 @@ p str.inspect_all #各文字の属性情報を全て表示する。 U+2FF0〜U+2FFBで表わされるIDC(Ideographic Description Characters)によって合成方法を指定し、 これに続く二文字から三文字の文字を合成して表示する。 -

    これは元々必要な漢字が文字コードに無い場合にその代替物として表記するために考えられた仕様だ。 -もし文字表示機能が字形合成に対応している場合は、その合成された字を表示する。 -もし字形合成の機能が無い場合は、IDC自体を目に見えるように表示し、 -ユーザーの想像力に任せることになる。 - -

    実際のところ、IDSを使った字形合成機能を持つ文字表示エンジンが存在するとは聞いたことがない。 -そのため現状ではこの仕様は絵に書いた餅になっている。 - -

    ここではその仕様を転用し、漢字の字形を指示するために使っている。 - -

    ちょっと想像してみればわかるが、IDSはまともな実装が存在していないことからもわかる通り、 -普通には使えない仕様である。実際に漢字の字形を合成して表示するといっても、 -縦とか横につらなるなどといった単純な情報だけでは不十分で、もっと多様な情報が必要である。 -部品間の大きさのバランスなど、ついheuristicな方法で対処できるのではないかと考えてしまいがちだが、 -実際に見ておかしくない字を作るためには現状ではまだ人手によってデザインする必要がある。 -ここではその仕様を転じて、字形の成立ちを説明するために使っているが、 -このような使い道なら使えるようだ。 -


    ■IDSを使うための準備

    @@ -176,11 +188,6 @@ password: (何も入れずにただもう一度return) これで、文字属性として新たにids, ids-decomposeが加わった。 それぞれ、IDSの文字列、それを再帰的に分解しきったものを意味する。 -

    実用上は差し支えない範囲だが、IDSテキストファイルにはまだ入力されて -いない字もある。./tools/idscheckintegrity.rbを実行する(かなり時 -間がかかる)と、IDSの木構造の整合性をチェックし、整合性がとれていない字 -を表示する。 -


    ■字形分解

    Stringに、decompose, decompose_allという二つのメソッドがある。 @@ -202,14 +209,23 @@ IDSキャラクターが含まれているため、場合によってはうま


    ■字形合成

    -

    分解の逆に合成することもできる。ことにしようと思っているが、まだできていない。 - +

    字形合成は、composeメソッドで行う。 +

    +p "#x2ff0;木木".compose
    +
    + +

    findメソッドで、ある部品が漢字の一部として含まれている漢字群を探すことができる。 +

    +p "日雲".find
    +
    +

    ここでは、日と雲という部品が含まれている全漢字を出力する。

    ■説明

    まじめなメソッドの説明を書く。(未完) +

    現時点では、test caseを見たほうが使い方はわかりやすいかもしれません。

     class String
     	char	先頭の文字をCharacterに変換したものを返す
    @@ -240,57 +256,7 @@ Windowsでtar.gzを展開するには、newされた時点で問答無用で"+木木"を"林"というCharacter一文字に変換
    -してしまうと、その時点で区別ができなくなってしまう。つまり必要に応じて
    -composeするべきである。しかしその必要に応じてというのはどのように判定
    -すればいいのだろうか? 明示的に指定するしかないということか。
    -
    -
    Unicode対応のeditorはどうとりあつかっているのだろうか? -Unicodeの規定によれば、このIDSによって指定された文字列は、合成された文字そのものを -表すと規定されている。合成された文字を表示可能である場合は、IDS自体を表示してはいけない。 -逆に合成した文字を表示できない場合は、IDS自体を見えるように表示しないといけない。 -とすると、Unicode対応のeditorが適切な文字合成の機能を持っていた場合、 -それは合成された結果の文字を表示するのがいいのか? 合成される前の文字列を -表示するのがいいのか? 結局ユーザーが明示して切り替えられるようにするのがいいのか? - -
    もしエラーが含まれていた場合は? -
    "+木".to_x.compose_ids -とした場合は、オペレータの対象が一文字しか無いので、処理できない。 -これは例外をraiseするか、元の文字列をそのまま返すか、悩みどころ。 - -
    もし文字が存在しなかった場合は? -
    "+林林"とかした場合は、"木"が横に四つ並んでる漢字は存在しない(と思う)ので、 -これも例外とするか、元の文字列をそのまま返すか悩みどころ。 -どの文字コード体系にも存在しないような文字を表示できる字形合成エンジンがあると -仮定して、そのエンジンに手渡されるまでは、情報が失われないように処理 -するべきである。 - -
    また、本来Chaonモデルはこのような「存在しない文字」をとりあつかえるように -するためのモデルなので、こういった文字もシームレスに扱えるようにするべきである。 -しかしどのようにすればいいのかわからない。 - - - -
    +

    ■Ruby/M17Nとの整合性

    Ruby/M17Nとの整合性をどうとればいいか。

      diff --git a/src/defkanji.rb b/src/defkanji.rb index 038c5ab..1897187 100755 --- a/src/defkanji.rb +++ b/src/defkanji.rb @@ -159,4 +159,11 @@ module CHISE end end +if $0 == __FILE__ + ide = IDS_Definition.instance + ide.go + ide.define_all +end + + #----------------------------------------------------------------------end. diff --git a/src/makegraph.rb b/src/makegraph.rb index 3341749..14bcd16 100755 --- a/src/makegraph.rb +++ b/src/makegraph.rb @@ -104,4 +104,9 @@ module CHISE end end +if $0 == __FILE__ + mg = MakeGraph.new + mg.go +end + #----------------------------------------------------------------------end.