+ +

Ruby/CHISE

+ + + +

+ +

â Ruby/CHISEã¨ã¯ãªã«ã

Ruby/CHISEã¯ãXEmacs CHISEã«ãããChaonå®è£ã
+Rubyã¸ç§»æ¤ãããã¨ãè©¦ã¿ãã¢ã¸ã¥ã¼ã«ã§ããã
+ +

â Chaonã¢ãã«ã¨ã¯ãªã«ã

+ +

Ruby/CHISEã§ã¯ãããæ¡å¼µããæåããªãã¸ã§ã¯ãã¨ãã¦æ±ã£ã¦ããã + +

+ +

â download & history

2003-0110 ãã¹ãå¬é +
2003-0112 XStringè¿½å +
2003-0115 IDSã®èªã¿è¾¼ã¿æ©è½Î²ç +
2003-0116 IDSã®èªã¿è¾¼ã¿æ©è½1.0 +
2003-0117 XStringãå»æ¢ããStringã«ä¸æ¬åãIDSã®èªã¿è¾¼ã¿æ©è½ãå¼·åã +
2003-0120 IDS_Treeã®èªã¿è¾¼ã¿æ©è½ãè¿½å ãæ¨æ§é ã®æ´åæ§checkãè¿½å ã +
2003-0130 IDSã®éå¤ææ©è½ãªã©ãè¿½å ã +
2003-0213 ruby-chise-20030213.tar.bz2
+åç§°ãRuby/UTF-2000ããRuby/CHISEã¸ã¨å¤æ´ã +

+ +

â install

å±éãã¦ãmake installããã +

éå¸¸ã/usr/local/lib/ruby/site_ruby/ä»¥ä¸ã«installãããã + +

â config

src/chise.rbå +

DB_DIR = '/usr/local/lib/xemacs-21.4.10/i686-pc-linux/char-db'
+å¿è¦ã«å¿ãã¦å¤æ´ããã +

IDS_DB_DIR = '/home/eto/work/chise/ids/''
+IDSã®ããã¹ããã¡ã¤ã«ãç½®ããã¦ãããã£ã¬ã¯ããªã¼ãæãã(ä¸è¨ã®åå½¢åè§£ã»åæã«ã¤ãã¦ãåç§) + +

â ä¾åé¢ä¿

ä¸è¨ã®ããã±ã¼ã¸ãå¿è¦ã +

db3-3.2.9 +
bdb-0.3.6 (bdb-0.3.8ãªã©ããä»¥ä¸ã§ãå¯) +
uconv-0.4.11 +
ruby 1.6.7 ããã¯Rubyæ¬ä½ã +

+ +

â Unicode

ç¾ç¶ã§ã¯ãRuby/CHISEã«æ¸¡ãæåã³ã¼ãã¯UTF-8ã®Unicodeã«ãã¦ããã¨ä¾¿å©ã§ããã +

Windowsã§Unicodeãä½¿ããã¨ãã£ã¿ã¼ã¨ãã¦ãç§ã¯Meadow + Mule-UCSãä½¿ã£ã¦ããã +

ä»ãWindowsä»å±ã®ã¡ã¢å¸³ãä½¿ããã¨ãã§ããã +

ã¾ããè¦ãã ãã§ããã°IEã«è½ãã¨è¡¨ç¤ºãããã +

+ +

â ä½¿ãæ¹

+ +

â å¨ä½çãªä½¿ãæ¹

+require 'chise'
+include CHISE
+
+str = "å" #Stringãæ¡å¼µãã¦ãããUTF8ã§ä¸ãããã¨ã
+p str.ucs #ã¨ããã¨ããã®æåã®ucsã®å¤ãè¡¨ç¤ºããã
+p str.total_strokes #ç»æ°ãè¡¨ç¤ºããã
+p str.chinese_gb2312 #ãªã©ãªã©
+str.char.alist.each {|a, v| #ãããªæãã§å¨å±æ§ãè¡¨ç¤ºã§ãã
+  print a, ': ', v, "\n"
+}
+p str.inspect_x #Characterã«ã¤ãã¦ã®æå ±ãè¡¨ç¤ºãããã
+p str.inspect_all #æã£ã¦ããå±æ§æå ±ãå¨ã¦è¡¨ç¤ºããã
+
+str = "æåå" #ãã¡ããä¸æåã§ãªãæååãæ±ãããUTF-8ã§ä¸ããã
+p str.inspect_x #åæåã®æå ±ãè¡¨ç¤ºãããã
+p str.inspect_all #åæåã®å±æ§æå ±ãå¨ã¦è¡¨ç¤ºããã
+

+ +

â æ§ããªç¨ä¾æ¡

ãé»è©±ã¯ä¸å½ç¹ä½åã ã¨é»è©±ã¨æ¸ããä¸å½ç°¡ä½åã ã¨é»è©±ã¨æ¸ãã +
ãåéå±ã®åã¯ãååã®åã§ãããã +
ãé«æ©ããã¯é«æ©ããã¨è¡¨è¨ãããã®ãå«ããã +
ãæ¥æ¬èªã®éª¨ããä¸å½ç°¡ä½åã ã¨éª¨ã¨æ¸ãã +

ããã¾ã å¥åã§ãã¾ãããæªå®æã§ãã +

+ +

â åå½¢åè§£ã»åæ

Ruby/CHISEã¯ããã¨ãã¨åå½¢åè§£ã»åæãæ±ãããã«ä½ãããããããã®æ©è½ãå¼·åããã¦ããã + +

åå½¢åè§£ã»åæã¯ãç¾å¨ã¯Unicodeã«ãããIDS(Ideographic Description Structure)ã¨ããä»æ§ã«æºæ ãã¦ããã +U+2FF0ãU+2FFBã§è¡¨ããããIDC(Ideographic Description Characters)ã«ãã£ã¦åææ¹æ³ãæå®ãã +ããã«ç¶ãäºæåããä¸æåã®æåãåæãã¦è¡¨ç¤ºããã + +

â IDSãä½¿ãããã®æºå

+ +

ä¸è¨ã®ããã«ãã¦ãIDSã®ããã¹ããã¡ã¤ã«ç¾¤ãæã£ã¦ããã +

% cd ~/work/chise (ãã®ãã£ã¬ã¯ããªã¼ã¯é©å®å¤æ´ãã)
+% cvs -d :pserver:anonymous@cvs.m17n.org:/cvs/root login
+password: (ä½ãå¥ããã«ãã ããä¸åº¦return)
+
+% cvs -d :pserver:anonymous@cvs.m17n.org:/cvs/chise co -d ids ids
+

+ +

ãã®ããã«ããã¨ãIDSã®ããã¹ããã¡ã¤ã«ç¾¤ãæã£ã¦ãããã¨ãã§ããã + +

ãã®å¾ãsrc/chise.rbå
+IDS_DB_DIR = '/home/eto/work/chise/ids/''
+ããã«ãä¸è¨ã®IDSããã¹ããã¡ã¤ã«ç¾¤ãæã£ã¦ãããã£ã¬ã¯ããªã¼ãå¥ããã +å¿è¦ã§ããã°ãååº¦make installããã +ãã®ããã«ãã¦é©åã«IDS_DB_DIRãè¨å®ãã +./tools/idsdbdumpall.rbãå®è¡ããã(ããªãæéãããã) +ããã§ãæåå±æ§ã¨ãã¦æ°ãã«ids, ids-decomposeãå ãã£ãã +ãããããIDSã®æååããããåå¸°çã«åè§£ããã£ããã®ãæå³ããã + +

å®ç¨ä¸ã¯å·®ãæ¯ããªãç¯å²ã ããIDSããã¹ããã¡ã¤ã«ã«ã¯ã¾ã å¥åããã¦ +ããªãåãããã./tools/idscheckintegrity.rbãå®è¡ãã(ããªãæ +éãããã)ã¨ãIDSã®æ¨æ§é ã®æ´åæ§ããã§ãã¯ããæ´åæ§ãã¨ãã¦ããªãå +ãè¡¨ç¤ºããã + +

â åå½¢åè§£

Stringã«ãdecompose, decompose_allã¨ããäºã¤ã®ã¡ã½ãããããã +decomposeã¯ä¸æ®µéã ãåè§£ãããdecompose_allã¯ãããåå¸°çã«è¡ãã +

+p "å".decompose
+p "å".decompose_all
+p "æ¦".decompose
+p "æ¦".decompose_all
+p "çµäº".decompose
+p "çµäº".decompose_all
+p "é¬±".decompose
+p "é¬±".decompose_all
+

+ +

â åå½¢åæ

åè§£ã®éã«åæãããã¨ãã§ããããã¨ã«ãããã¨æã£ã¦ããããã¾ã ã§ãã¦ããªãã + + +

+ +

â èª¬æ

ã¾ãããªã¡ã½ããã®èª¬æãæ¸ãã(æªå®) +

+class String
+	char	åé ã®æåãCharacterã«å¤æãããã®ãè¿ã
+âmethod_missingã§ãåå¨ããªãmethodãæå®ããã¨ãèªåçã«åé ã®æåã
+Characterã«å¤æãã¦ããã¸ã®methodã¨ãã¦å¼ã¶ã
+
+class Character
+	get	ããæåãgetããã(flyweightãã¿ã¼ã³)
+	[]	ããå±æ§ãgetãããget_char_attributeãä½¿ããã
+		ã¾ãmethod_missingãä½¿ããã
+	[]=	ããå±æ§ãputãããput_char_attributeãä½¿ããã
+		ã¾ãmethod_missingã«ããå¥åãä½¿ããã
+åå¨ããªãå±æ§ãåç§ããã¨ãã¯ãnilãè¿ãã
+

+ +

â tools

dbdumpall.rb, char-dbã®BDBãã¡ã¤ã«ç¾¤ã®ä¸èº«ãããã¹ãã¨ãã¦å±éããã +
idsdumpall.rb, IDSã®ããã¹ããã¡ã¤ã«ç¾¤ãèªã¿ãã¿ãBDBåãããåå¸°çã«å±éããids-decomposeãä½ãã +
idscheckintegrity.rb, IDSã®æ¨æ§é ã®æ´åæ§ããã§ãã¯ããã +
mkdbtarball.rb, UNIXã§ä½ã£ãBDBãã¡ã¤ã«ç¾¤ãWindowsã«æã£ã¦ããã¨ãã«ä½¿ãã +Windowsã§tar.gzãå±éããã«ã¯ãeoãããããã +
trim_bom.rb, Unicodeãã¡ã¤ã«ãä½ã£ãã¨ãã®åé ã«ã¤ãã¦ããBOM(byte order mark)ãåé¤ããã +

+ +

â æ©ã¿ã©ãã

+ +

iso-2022ã¸ã®encodeã¯ã©ãå®ç¾ããã°ããã®ã? +: Characterã¯ã©ãencodeãããã®å±æ§ãæã£ã¦ãã¦ã +XStringã¯ãã®å®éã®encodeã®å¦çãè¡ãã¨ããåé¢ã§ããããªã + +
iso-2022-jpã®å¦çã¯ã©ãããã°ããã®ã? +: iso-2022-jpã¯è¡æ«ã§ã¯ASCIIã«æ»ãã¨ããè¡åä½ã®æ±ããå¿è¦ã«ãªããã +XStringã®ä¸ããã¯ãã®å¤æã¯ã§ããªãã +class IOãæ¡å¼µããã®ãããã®ã? +

+ +

â åå½¢åæ

"+æ¨æ¨"(+ã¯U+2FF0ãæå³ãã)ã¨ããæååã +ããã¨ãã¦ããããããã¯å®ã¯"æ"ã¨ããä¸æåãè¡¨ãã¦ããã +ãã®äºéæ§ãã©ãåãæ±ãã? +: newãããæç¹ã§åçç¡ç¨ã§"+æ¨æ¨"ã"æ"ã¨ããCharacterä¸æåã«å¤æ +ãã¦ãã¾ãã¨ããã®æç¹ã§åºå¥ãã§ããªããªã£ã¦ãã¾ããã¤ã¾ãå¿è¦ã«å¿ãã¦ +composeããã¹ãã§ãããããããã®å¿è¦ã«å¿ãã¦ã¨ããã®ã¯ã©ã®ããã«å¤å® +ããã°ããã®ã ããã? æç¤ºçã«æå®ãããããªãã¨ãããã¨ãã + +; Unicodeå¯¾å¿ã®editorã¯ã©ãã¨ããã¤ãã£ã¦ããã®ã ããã? +Unicodeã®è¦å®ã«ããã°ããã®IDSã«ãã£ã¦æå®ãããæååã¯ãåæãããæåãã®ãã®ã +è¡¨ãã¨è¦å®ããã¦ãããåæãããæåãè¡¨ç¤ºå¯è½ã§ããå ´åã¯ãIDSèªä½ãè¡¨ç¤ºãã¦ã¯ãããªãã +éã«åæããæåãè¡¨ç¤ºã§ããªãå ´åã¯ãIDSèªä½ãè¦ããããã«è¡¨ç¤ºããªãã¨ãããªãã +ã¨ããã¨ãUnicodeå¯¾å¿ã®editorãé©åãªæååæã®æ©è½ãæã£ã¦ããå ´åã +ããã¯åæãããçµæã®æåãè¡¨ç¤ºããã®ãããã®ã? åæãããåã®æååã +è¡¨ç¤ºããã®ãããã®ã? çµå±ã¦ã¼ã¶ã¼ãæç¤ºãã¦åãæ¿ããããããã«ããã®ãããã®ã? + +
ããã¨ã©ã¼ãå«ã¾ãã¦ããå ´åã¯? +: "+æ¨".to_x.compose_ids +ã¨ããå ´åã¯ããªãã¬ã¼ã¿ã®å¯¾è±¡ãä¸æåããç¡ãã®ã§ãå¦çã§ããªãã +ããã¯ä¾å¤ãraiseããããåã®æååããã®ã¾ã¾è¿ãããæ©ã¿ã©ããã + +
ããæåãåå¨ããªãã£ãå ´åã¯? +: "+ææ"ã¨ãããå ´åã¯ã"æ¨"ãæ¨ªã«åã¤ä¸¦ãã§ãæ¼¢åã¯åå¨ããªã(ã¨æã)ã®ã§ã +ãããä¾å¤ã¨ããããåã®æååããã®ã¾ã¾è¿ããæ©ã¿ã©ããã +ã©ã®æåã³ã¼ãä½ç³»ã«ãåå¨ããªããããªæåãè¡¨ç¤ºã§ããåå½¢åæã¨ã³ã¸ã³ãããã¨ +ä»®å®ãã¦ããã®ã¨ã³ã¸ã³ã«ææ¸¡ãããã¾ã§ã¯ãæå ±ãå¤±ãããªãããã«å¦ç +ããã¹ãã§ããã + +; ã¾ããæ¬æ¥Chaonã¢ãã«ã¯ãã®ãããªãåå¨ããªãæåããã¨ããã¤ãããããã« +ããããã®ã¢ãã«ãªã®ã§ããããã£ãæåãã·ã¼ã ã¬ã¹ã«æ±ããããã«ããã¹ãã§ããã +ãããã©ã®ããã«ããã°ããã®ãããããªãã + +

+ +

â Ruby/M17Nã¨ã®æ´åæ§

+ +

ã½ã¼ã¹ã³ã¼ãä¸ã®m17n.c, m17n.hãè©²å½åæã +åé¨çã«ã¯UTF-8ã¨ãã¦æ±ããã®ã§ããããæ¡å¼µããã°ããã? +UTF-8ã®å¦çã¸ã®è¿½å ã¨ããå½¢ã§å®è£ã§ãã? + +

+ +

â links

â CHISE project

+ +

â Ruby

+ +

Kouichirou Eto, 2003 at eto.com

+ + + diff --git a/doc/style.css b/doc/style.css new file mode 100755 index 0000000..56926bd --- /dev/null +++ b/doc/style.css @@ -0,0 +1,153 @@ +/* by eto 2003-0112 */ + +body { + margin: 0em; + padding: 0em; + font-family: Helvetica,sans-self; +/* scrollbar-3d-light-color: #ff0000;*/ + scrollbar-arrow-color: #ff6600; + scrollbar-base-color: #ffffff; +/* scrollbar-dark-shadow-color: #ff0000;*/ + scrollbar-face-color: #ffffff; + scrollbar-highlight-color: #ffffff; + scrollbar-shadow-color: #ff6600; +} +.center { text-align: center;} +/*.e { font-family: Verdana,Helvetica,sans-self;}*/ +.e { font-family: Helvetica,sans-self;} +.w40em { width: 40em; } +.w60em { width: 60em; } + +.box { + margin: 0em 0em 1em 0em; + padding: 0em; + text-align: left; + border: 0.1em solid #ff6600; +} + +h1 { + background-color: #ff6600; + color: #ffffff; +/* margin: 0em 0em 0.5em 0em;*/ + margin: 0em; +/* padding: 0.0em 0.1em 0.1em 0.0em;*/ + padding: 0em; +} +h2 { + color: #ffffff; + background-color: #ff6600; + margin: 0em; + padding: 0em; + font-size: medium; +} +h3 { + color: #ff6600; + margin: 0em 0.5em 0em 0.5em; + padding: 0em; + font-size: small; +/* font-weight: normal;*/ +} +h4 { + color: #ff6600; + margin: 0em 0.5em 0em 0.5em; + padding: 0em; + font-size: small; + font-weight: normal; +} +p { + margin: 0.5em; + padding: 0em; +} +pre { + background-color: #fff8f0; + margin: 0.1em 0.5em 0.5em 0.5em; + padding: 0.5em; + border: 0.01em solid #ff6600; + font-size: small; +} + +a { color:#ff6600; } +a:link { color:#ff7700; } +a:visited { color:#ff8800; } +a:active { color:#ff0000; } +a:hover { color:#ff0000; text-decoration:none; } + +ul { +/* margin: 0em 0em 0em 2.0em; + padding: 1em 0em 1em 0.0em;*/ + margin: 0.5em 0em 0.5em 2.0em; + list-style-type: square; +} +li { +} + +dl { + margin: 0.5em 0em 0.5em 0.5em; +} +dt { +/* margin: 0.5em 0em 0.5em 0.5em;*/ + color: #dd3300; +} +dd { + margin: 0.1em 0em 0.5em 1.5em; +} +hr { + color: #ff6600; + margin: 0em; + padding: 0em; +} +address { + background-color: #ff6600; + color: #ffffff; + padding: 0.1em; +/* font-family: Verdana,Helvetica,sans-self;*/ + font-family: Helvetica,sans-self; + font-style: normal; +} +.white { color: #ffffff; } + +strong { + color: #ff6600; +/* font-family: Verdana,Helvetica,sans-self;*/ + font-family: Helvetica,sans-self; +} +.s { + color: #ff6600; +/* font-family: Verdana,Helvetica,sans-self;*/ + font-family: Helvetica,sans-self; + font-weight: bold; +} + +b { +/* font-family: Verdana,Helvetica,sans-self;*/ + font-family: Helvetica,sans-self; + font-weight: normal; + color: #ff6600; +} +.b { +/* font-family: Verdana,Helvetica,sans-self;*/ + font-family: Helvetica,sans-self; + font-weight: normal; + color: #ff6600; +} + +.linkbox { + background-color: #ff6600; + color: #ffffff; + margin: 0em 0em 1em 0em; + padding: 0em; + text-align: center; +/* font-family: Verdana,Helvetica,sans-self;*/ + font-family: Helvetica,sans-self; +} + +.linkbox a { color:#ffffff; } +.linkbox a:link { color:#ffffff; } +.linkbox a:visited { color:#ffffff; } +.linkbox a:active { color:#ff0000; } +.linkbox a:hover { + background-color: #ffffff; + color:#ff6600; text-decoration:none; +} + +/* ---------------------------------------------------------------------- end. */ diff --git a/install.rb b/install.rb new file mode 100755 index 0000000..3a745b6 --- /dev/null +++ b/install.rb @@ -0,0 +1,20 @@ +#!/usr/bin/env ruby +# by eto 2003-0109 + +def usage() + print "Usage: install.rb \n" + print "% ./install.rb src/chise.rb\n" + exit +end + +usage if ARGV.length < 1 +file = ARGV[0] +usage if ! FileTest.file?(file) + +require 'rbconfig' +ruby_sitedir = Config::CONFIG["sitedir"] +cmd = "cp #{file} #{ruby_sitedir}" +p cmd +system cmd + +#----------------------------------------------------------------------end. diff --git a/src/chise.rb b/src/chise.rb new file mode 100755 index 0000000..4901fa2 --- /dev/null +++ b/src/chise.rb @@ -0,0 +1,1201 @@ +#!c:/ruby/bin/ruby.exe +# Ruby/UTF-2000 module by eto 2002-1114 + +require 'bdb' +require 'uconv' +require 'singleton' + +$KCODE = 'u' #ä»ã®ã¨ããããä»¥å¤ã§ã¯åããªããString.splitãå½±é¿å¤§ãinspectãå½±é¿ã +$debug = true #ããã¯ãã¹ãç¨ +#$stdout.binmode if $debug +$stdout.sync = true if $debug + +class String + def to_a() self.split(//) end #$KCODEãè¨å®ããã¦ããã®ã§ãUTF-8çãªä¸æåã¥ã¤ãchã«ã¯ãã + def each_char() to_a.each {|ch| yield ch } end + def char_length() to_a.length end + def char_at(n) to_a()[n] end + def char() Character.get(to_a[0]) end + def method_missing(mid, *args) char.method_missing(mid, *args) end + def char_id() char.char_id() end + def get_char_attribute(a) char.get_char_attribute(a) end + def ucs() char.ucs() end + def to_utf8() + return to_a.map {|ch| + ch.char.to_utf8 + }.join('') + end + + #puté¢ä¿ã[]é¢ä¿ã¯ç¨æããªããã¨ã«ããã + def de_er!() #EntityReferenceãåãé¤ã + return self unless self =~ Regexp.new(EntityReference::REGEXP_PART) #ãããããã®ãç¡ããã°ä½ãããªã + er = "&"+$1+";" + self.sub!(Regexp.new(Regexp.escape(er)), Character.new(er).mcs_utf8) #å¤æèªä½ã¯Characterã«ã¾ããã + return self.de_er! if self =~ Regexp.new(EntityReference::REGEXP_PART) #ã¾ã ãã£ããåå¸° + return self + end + def de_er() return self.dup.de_er!; end + + def map_char(block = Proc.new) + return unless block_given? + return self.to_a.map {|ch| (block.call(ch)).to_s }.join("") + end + def map_char!(block = Proc.new) + return unless block_given? + self.replace(self.map_char {|ch| block.call(ch)}) + end + def inspect_all() map_char {|ch| ch.char.inspect_all } end + def inspect_x() map_char {|ch| ch.char.inspect_x } end + + def decompose() map_char {|ch| ch.char.decompose } end + def decompose!() self.replace(self.decompose); self; end + def decompose_all(level=nil) + level = 0 if level.nil? + if 10 < level + p ['too many recursive', self] + exit + end + de = self.decompose + return de.decompose_all(level+1) if de != self #ãªã«ãå¤åããã£ãããåå¸° + de #ããããä»¥ä¸å¤åã¯ç¡ãããã ãã¨ã + end + def decompose_all!() self.replace(self.decompose_all); self; end + + def find() #"æ¥é²"â"æ"ã¨ãããæãã®æä½ + ar = [] + length = char_length() + each_char {|ch| + char = ch.char + ar << char.ids_contained #ãã®æåãå«ãã§ããæ¼¢åã®ãªã¹ã + } + h = Hash.new(0) + ar.each {|list| + next if list.nil? + list.each_char {|ch| + h[ch] += 1 + } + } + str = "" + h.each {|k, v| +# p [k, v] + if length == v #å¨é¨ã«é¡ãåºãã¦ããã + str += k + end + } +# p str + str + end + def compose() + db = CodesysDB.instance + composed = db.get('ids', self) + return "" if composed.nil? #ãªãã£ããã¨ã + return "" if composed.char_length == 0 #ãªã«ãã¨? + return composed if composed.char_length == 1 + composed.each_char {|ch| + char = ch.char + return ch if char.has_attribute? #ã¨ããããæåã«ã¿ã¤ãã£ããã®ãè¿ãã¨ãããã«ãä»æ§ + } + end + def nu_compose_sorted() + db = CodesysDB.instance + composed = db.get('ids', self) + return "" if composed.nil? #ãªãã£ããã¨ã + return "" if composed.char_length == 0 #ãªã«ãã¨? + return composed if composed.char_length == 1 + ar = [] + composed.each_char {|ch| + char = ch.char + ar << ch if char.has_attribute? + } + ar2 = [] + ar.each {|ch| + char = ch.char + if char.char_id < 0xfffff #Unicodeã£ã½ã? + ar2 << ch + ar.delete(ch) + end + } + EntityReference.each_codesys{|codesys, er_prefix, keta, numtype| + ar.each {|ch| + char = ch.char + v = char[codesys] + if v #EntityReferenceã®é çªã«æºæ ããã + ar2 << ch + ar.delete(ch) + end + } + } + if 0 < ar.length + p ['yokuwakaran character', ar, ar[0].inspect_all] + end + return ar2.join("") + end + def nu_compose_ar() + ar = [] + CharDB.instance.each_sort('ids'){|k, v| #æå, IDS +# if v =~ self + if v == self + ar << k + end + } + ar + end + def aggregate() +#selfã§ããæååãIDSã ã¨ä»®å®ãããããå®å¨ã«composeããããªãã§ã +#ãã®é¨åéåã ããã¨ãã ãã¦ãcomposeå¯è½ã§ããã°ã§ããã ãcomposeããã + tree = IDS_Tree.new(self) + return self if tree.depth <= 1 #sub_nodesãç¡ãå ´åã¯ããã§ãããªã + tree.sub_nodes.each {|node| + c = node.compose + next if c.nil? || c == "" + n = self.gsub(node, c) + return n.aggregate + } + return self #ããããããããã®ãã¾ã£ãããªãã£ãããèªåããããã + end +end + +module CHISE + def windows?() + (RUBY_PLATFORM =~ /win/ || RUBY_PLATFORM =~ /mingw/) + end + module_function :windows? + if windows?() + DB_DIR = 'd:/work/chise/char-db' #ãã®å¾ã«/sysmtem-char-id/ucsã¨ããæãã«ç¶ã + else + DB_DIR = '/usr/local/lib/xemacs-21.4.10/i686-pc-linux/char-db' #ãã®å¾ã«/sysmtem-char-id/ucsã¨ããæãã«ç¶ã + end + + class EntityReference #====================================================================== + #ç¶æ³ã«ãã£ã¦ã©ã®ERã«å¤æããããç°ãªãå¯è½æ§ãããã®ã§ãæ®éã®classã¨ãã¦å®è£ããã»ãããã? + CODESYS_TABLE = [ + %w( chinese-big5-cdp CDP- 4 X), + %w( ideograph-daikanwa M- 5 d), + %w( ideograph-cbeta CB 5 d), + %w( ideograph-gt GT- 5 d), + %w( ideograph-gt-k GT-K 5 d), + %w( japanese-jisx0208-1990 J90- 4 X), + %w( japanese-jisx0208 J83- 4 X), + %w( japanese-jisx0213-1 JX1- 4 X), + %w( japanese-jisx0213-2 JX2- 4 X), + %w( japanese-jisx0212 JSP- 4 X), + %w( japanese-jisx0208-1978 J78- 4 X), + %w( chinese-cns11643-1 C1- 4 X), + %w( chinese-cns11643-2 C2- 4 X), + %w( chinese-cns11643-3 C3- 4 X), + %w( chinese-cns11643-4 C4- 4 X), + %w( chinese-cns11643-5 C5- 4 X), + %w( chinese-cns11643-6 C6- 4 X), + %w( chinese-cns11643-7 C7- 4 X), + %w( korean-ksc5601 K0- 4 X), + ] + CODESYS_ORDER = %w(japanese chinese korean ideograph) + REGEXP_PART = "&([-+0-9A-Za-z]+);" + REGEXP_ALL = "^#{REGEXP_PART}$" + + def self.match?(er) (er =~ Regexp.new(REGEXP_PART)) != nil end + + def self.parse(er) #char_idãFIXNUMã§è¿ã + return "" unless er =~ Regexp.new(REGEXP_ALL) #ãªãããééã£ã¦ã? + er = $1 #ã¤ãã§ã«ä¸èº«ã®é¨åãåãåºã + return $1.hex if er =~ /^MCS-([0-9A-Fa-f]+)/ #MCS + return $1.hex if er =~ /^U[-+]([0-9A-Fa-f]+)/ #Unicodeç´æã¡ + + er.sub!(/^I-/, '') if er =~ /^I-/ #I-ãã¤ãã¦ãã¨ã©ãéãã®ãã¯ããããããªã + each_codesys {|codesys, er_prefix, keta, numtype| #p [codesys, er_prefix, keta, numtype] + numtyperegex = '\d' #if numtype == 'd' + numtyperegex = '[0-9A-Fa-f]' if numtype == 'X' + regexpstr = "^#{er_prefix}(#{numtyperegex}{#{keta},#{keta}})$" #p regexpstr + if er =~ Regexp.new(regexpstr) + codestr = $1 + code = codestr.to_i #if numtype == 'd' + code = codestr.hex if numtype == 'X' + char_id_u8 = EntityReference.get_database(codesys, code) + char_id_num = Character.parse_char_id(char_id_u8) + return char_id_num + end + } + return "" + end + def self.each_codesys() + CODESYS_ORDER.each {|lang| + CODESYS_TABLE.each {|codesys, er_prefix, keta, numtype| #æ®éããããæ¸ãæ¹ã¯ããªããã«ã¼ãä¸åã«ããã + next unless codesys =~ lang + yield(codesys, er_prefix, keta, numtype) + } + } + end + def self.get_database(codesys, code) + c = CodesysDB.instance.get(codesys, code) + return c if c != nil + if codesys =~ /-jisx0208/ + #return self.get_database("=jis-x0208", code) #åå¸°ã§ã©ãã ? + c = CodesysDB.instance.get("=jis-x0208", code) + return c + end + return nil + end + end + + class CharacterFactory #============================================æåãªãã¸ã§ã¯ãã®çæãcache + include Singleton + MAX = 10000 + def initialize + @max = MAX + reset() + end + def get(char_id) + check_max() + n = Character.parse_char_id(char_id) + c = @chars[n] + @chars[n] = Character.new(n) if @chars[n] == nil + return @chars[n] + end + def reset() + @chars = nil + @chars = Hash.new + GC.start #ã¬ã¼ãã¼ã¸ã³ã¬ã¯ã·ã§ã³ + end + def length() @chars.length; end + def check_max() + reset if @max < @chars.length #MAXãè¶ãããresetãã¦ãã¾ããä¹±æ´ãããcacheãªã®ã§ããã§ããã®ã ã + end + end + + class Character #=============================================================== æåãªãã¸ã§ã¯ã + def initialize(char_id=nil) + @char_id = Character.parse_char_id(char_id) + @attributes = Hash.new + @check_all_database = false + end + attr_reader :char_id + def mcs_utf8() Character.u4itou8(@char_id) end + + #---------------------------------------------------------------------- + def self.get(char_id) CharacterFactory.instance.get(char_id) end #flyweightãã¿ã¼ã³ + + #---------------------------------------------------------------------- + def get_char_attribute(a) # XEmacs UTF-2000äºæAPIç¾¤ + a.gsub!(/_/, '-') #underlineã¯-ã«ç½®æ + atr = @attributes[a] + return atr if atr != nil + atr = check_database(a) + @attributes[a] = atr if atr != nil + return get_char_attribute("=jis-x0208") if a =~ /jisx0208/ + return @attributes[a] + end + def put_char_attribute(a,v) + a.gsub!(/_/, '-') #underlineã¯-ã«ç½®æ + @attributes[a] = v; + CharDB.instance.put(a, mcs_utf8(), v) + end + def char_attribute_alist() check_all_database(); @attributes; end + def char_attribute_list() check_all_database(); @attributes.keys; end + alias [] get_char_attribute #ãã®ç¥ç§° + alias []= put_char_attribute + alias alist char_attribute_alist + alias list char_attribute_list + + def method_missing(mid, *args) #åè:ostruct.rb + mname = mid.id2name + return get_char_attribute(mname) if args.length == 0 + put_char_attribute(mname.chop, args[0]) if mname =~ /=$/ #ä»£å¥ + end + + def has_attribute?() #æå³ã®ããattributeãæã£ã¦ã¾ãã? + keys = list + keys.delete_if {|k| + k =~ /ids/ + } + return (keys.length != 0) + end + + #---------------------------------------------------------------------- + def ==(ch) + return false if ch == nil + return false unless ch.is_a? Character + self.char_id == ch.char_id + end + + #---------------------------------------------------------------------- + def self.parse_char_id(char_id) #FIXNUMãè¿ã + return nil if char_id == nil + if char_id.is_a?(Numeric) #p [char_id] + char_id = 0x80000000 + char_id if char_id < 0 #è£æ°è¡¨ç¾ + return char_id.to_i + elsif char_id.is_a?(String) + return char_id.to_i if char_id =~ /^\d+$/ #æååã«ããæ°åã ã£ããæ°å¤åãã¦return + return EntityReference.parse(char_id) if char_id =~ Regexp.new(EntityReference::REGEXP_ALL) #å®ä½åç§? + char_id.sub!(/^\?/, '') if char_id =~ /^\?/ #ããåé ã«?ãã¤ãã¦ãããåé¤ + #ãã®ã¸ãæ¬å½ã¯ãã£ã¨ã¡ããã¨ãã§ãã¯ããã¹ã + u4 = Uconv.u8tou4(char_id) #UCS-4æååã«å¤æ + return Character.u4tou4i(u4) #UCS-4æ°å¤ã«ãã¦return + else + raise ArgumentError, "unknown object for char_id", caller(1) + end + end + def self.u4tou4i(u4) + return 0 if u4 == nil || u4 == "" + return (u4[3] << 24 | u4[2] << 16 | u4[1] << 8 | u4[0]) #UCS-4æ°å¤ã«ãã¦return + end + def self.u4itou4(num) + return "" if num == nil + return sprintf("%c%c%c%c", num&0xff, (num >> 8)&0xff, (num >> 16)&0xff, (num >> 24)&0xff) #UCS-4æ°å¤ãæååã«ãã¦return + end + def self.u4itou8(char_id) #ucsã®æ°å¤ãåãã¨ããUTF-8ã®æåä¸æåãè¿ã + begin + u4 = Character.u4itou4(char_id) + u8 = Uconv.u4tou8(u4) + return u8 + rescue + #raise ArgumentError, "invalid char_id (#{char_id})", caller(1) + #print "error\n" + return "" + end + end + + #---------------------------------------------------------------------- + def check_database(a) + db = CharDB.instance + u8 = mcs_utf8() + v = db.get(a, u8) #u8ã§è¡¨ãããæåã®aã¢ããªãã¥ã¼ããèª¿ã¹ãã + return v + end + def check_all_database() #ç¾å¨ã®@char_idãããæåãã¼ã¿ãã¼ã¹ãåç§ãã + return if @check_all_database + return if @char_id == nil + db = CharDB.instance + u8 = mcs_utf8() + atrs = db.get_all(u8) #u8ã§è¡¨ãããæåã®ã¢ããªãã¥ã¼ããå¨é¨æã£ã¦ãã + atrs.each {|a,v| + @attributes[a] = v #ã¨ãããæãã§ä»£å¥ããã®ã§ããããª? + } + @check_all_database = true #éãå¦çãªã®ã§ä¸å¿checkãã + end + + #---------------------------------------------------------------------- + def ucs() #p 'ucs' + #ar = %w{ucs ucs-big5 ucs-cdp ucs-cns ucs-jis ucs-ks =>ucs =>ucs* =>ucs-jis} + ar = %w{ucs ucs-jis ucs-big5 ucs-cdp ucs-cns ucs-ks =>ucs =>ucs* =>ucs-jis} + #ä¸¦ã³é ã¯æ£æçã§ãucs-jisãåã«åºãã¦ãããæ¬æ¥ã¯ãããæå®ã§ããããã«ããã¹ãã + ar.each {|a| #p [a] + u = get_char_attribute(a) + return u if u != nil + } + return nil + end + + #----------------------------------------------------------------------CCSé¢ä¿ + def to_utf8() Uconv.u4tou8(Character.u4itou4(ucs())) end #UTF8æååãè¿ã + #alias to_s to_utf8 + alias to_s mcs_utf8 + + #---------------------------------------------------------------------- + def to_er(codesys=nil) #å®ä½åç§ãè¿ããå¸æããcodesysãå¼æ°(æªå®è£) + return "" if @char_id == nil + return sprintf("&U+%04X;", @char_id) if @char_id <= 0xffff + return sprintf("&U-%05X;", @char_id) if @char_id <= 0xfffff + EntityReference.each_codesys {|codesys, er_prefix, keta, numtype| + code = self[codesys] + next if code == nil + return sprintf("&#{er_prefix}%0#{keta}#{numtype};", code) + } + return sprintf("&MCS-%08X;", @char_id) #æ¬å½ã¯ããã¯ç¡ãã«ããã + end + def to_er_list() + ar = [] + EntityReference.each_codesys {|codesys, er_prefix, keta, numtype| + er = to_er(codesys) + ar << er if er != nil + } + ar + end + + def inspect_x() + return "<>" if @char_id == nil + ar = [to_utf8(), to_er().sub(/^&/,'').chop] + "<"+ar.join(',')+">" + end + alias inspect inspect_x + def inspect_all_codesys() + #to_erãå¨ã¦ã®codesysã«ããã¦å®è¡ããããã®çµæãã³ã³ãã¯ãã«ã¾ã¨ãã + end + def inspect_all() + ar = [inspect.chop] + alist.to_a.sort.each {|a, v| ar << "#{a}:#{v}" } + return ar.join(',')+">" + end + def get_attributes() + str = "" + alist.to_a.sort.each {|a, v| + str += "#{a}: #{v}\n" + } + str + end + + #----------------------------------------------------------------------IDSé¢ä¿ + def decompose + k = self.to_s +# idss = self['ids'] +# return idss if idss + idss = self['ids-aggregated'] + return idss if idss != nil && 0 < idss.length && k != idss + idss = self['ids'] + return idss if idss != nil && 0 < idss.length && k != idss + return k +# return k if idss.nil? || idss.length == 0 || k == idss +# if idss.char_length == 2 +# p ['What???', k, idss, k.inspect_all] +# #return idssx[1] #äºåç®ã ãè¿ãã¨ã? +# return k #IDSã«å±éããæ¹æ³ãç¡ãã¨ã +# end +# return k if k == idss +# if idss.include?(k) #

ãã®äºæåã®BUGå¯¾ç +# #return idss.sub(k, '') +# return k #IDSã«å±éããæ¹æ³ãç¡ãã¨ã +# end +# return idss + end + def is_ids?() 0x2ff0 <= @char_id && @char_id <= 0x2fff end + def ids_operator_argc() + return 0 unless is_ids? + return 3 if @char_id == 0x2ff2 || @char_id == 0x2ff3 + return 2 + end + end + + class DBS #======================================================================è¤æ°ã®DBãéããclass + end + + class ADB < BDB::Hash #======================================================================ä¸ã¤ã®DB + def initialize(*args) + super + @modified = false + at_exit { + if @modified + self.close #ããããªãã¨ããã¾ããã¼ã¿ãã¼ã¹ãã»ã¼ããããªãã®ã§ãã + end + } + end + def self.open_create(filename) + ADB.open(filename, nil, BDB::CREATE | BDB::EXCL) #ä¸æ¸ãã¯ããªã + end + def mykey(key) + if key.is_a?(String) + if key.char_length == 1 + return '?'+key #Stringã ã£ããå¼ãåã«?ãè¶³ã + end + end + #key = key.to_s if key.is_a?(Numeric) #Numberã ã£ããStringã«ããã + #ããã§ && key ! =~ /^\?/ ããããã¨ã?èªèº«ãæ¤ç´¢ã§ããªããªã£ã¦ãã¾ãã + return key + end + def myvalue(v) + return v if v == nil + return v.to_i if v =~ /^\d+$/ #æ°åã ã£ããããã§å¤æãã¦ãã + return v.sub(/^\?/, '') if v =~ /^\?/ #åé ã®?ã¯åãé¤ã + return $1 if v =~ /^"(.+)"$/ #æåã¨æå¾ã«"ãã¤ãã¦ããããåãé¤ã + #p ['get', v, t, key, db] + #return parse_sexp(v) if v =~ /^$.+$$/ #æåã¨æå¾ã()ã®æã¯ãSå¼ã«parseãã + return v #ããä»¥å¤ã£ã¦ä½? + end + def myget(key) #keyãã¼ãå¼ãã¦è¿ã + key = mykey(key) + v = get(key) #åå¨ããªãã£ããnilãè¿ããã¨ã«ãªã + return myvalue(v) + end + def myput(key, v) #keyã«vãããã + key = mykey(key) + put(key, v) #putãã + @modified = true + end + end + + class DB #======================================================= ãã¼ã¿ãã¼ã¹ç¾¤ã®abstract class + def self.unix_to_win(unix) #Windowsãã¡ã¤ã«åå¶éã®ãããå¤æãã + win = unix.gsub(//, ')') + win.gsub!(/\*/, '+') + win.gsub!(/\?/, '!') + return win + end + def self.win_to_unix(win) + unix = win.gsub(%r|\)|, '>') + unix.gsub!(%r|\(|, '<') + unix.gsub!(%r|!|, '?') + unix.gsub!(%r|\+|, '*') + return unix + end +# def windows?() DB.windows?() end + def get_filename(t) + return @pre + DB.unix_to_win(t) + @post if windows? + return @pre + t + @post + end + def get_dirname(t) File.dirname(get_filename(t)) end + def open_dbs() + @dbs = Hash.new + keys = find_keys() + keys.each {|key| open_db(key) } + end + def find_keys() + files = [] + Dir.glob(@glob){|f| + next if ! File.file?(f) + next if f =~ /.txt$/ + files << f + } + keys = [] + files.each {|f| + t = DB.win_to_unix(f) + t.sub!(%r|^#{@pre}|, '') + t.sub!(%r|#{@post}$|, '') if @post != "" + keys << t + } + return keys + #return keys.sort + end + def close_db(t) + db = get(t) + return nil if db.nil? + db.close + @dbs.delete(t) + end + def open_db(t) + return nil if get(t) #ãã§ã«openãã¦ãããåopenã¯ããªãã + begin + bdb = ADB.open(get_filename(t), nil, 0) + @dbs[t] = bdb if bdb != nil + rescue + p ["open error", get_filename(t)]; return nil + end + return true + end + def make_db(t, h=nil) #tã¨ããååã§hã¨ããä¸èº«ã®ãã¼ã¿ãã¼ã¹ãä½ã + return nil if get(t) #ãã§ã«ããå ´åã¯return + Dir.mkdir(get_dirname(t)) unless FileTest.exist?(get_dirname(t)) + db = nil + begin + db = ADB.open_create(get_filename(t)) #ä¸æ¸ãã¯ããªã + if h != nil + h.each {|k, v| + k = '?'+k if k.is_a?(String) + db[k] = v + } + end + db.close + rescue + p ["make error", get_filename(t)]; return nil + end + return true + end + def make_db_no_question_mark(t, h=nil) #tã¨ããååã§hã¨ããä¸èº«ã®ãã¼ã¿ãã¼ã¹ãä½ã + return nil if get(t) #ãã§ã«ããå ´åã¯return + Dir.mkdir(get_dirname(t)) unless FileTest.exist?(get_dirname(t)) + db = nil + begin + db = ADB.open_create(get_filename(t)) #ä¸æ¸ãã¯ããªã + if h != nil + h.each {|k, v| +# k = '?'+k if k.is_a?(String) + db[k] = v + } + end + db.close + rescue + p ["make error", get_filename(t)]; return nil + end + return true + end + def remove_db(t) #tã¨ããååã®ãã¼ã¿ãã¼ã¹ãæ¶å»ãã + db = get(t) + if db + db.close + @dbs.delete(t) + end + begin + File.unlink(get_filename(t)) if FileTest.file?(get_filename(t)) + rescue + p ["unlink error", get_filename(t)]; return nil + end + dn = get_dirname(t) + Dir.rmdir(dn) if FileTest.directory?(dn) && Dir.entries(dn).length <= 2 #ç©ºdirectoryã ã£ããæ¶ã + return true + end + def to_num(s) + return s.to_i if s =~ /^\d+$/ + return s + end + def dump_db(t) + db = get(t) + return nil unless db + file = get_filename(t) + open("#{file}.txt", "w"){|out| +# out.binmode.sync = true + ar = db.to_a + ar.map! {|k, v| [to_num(k), to_num(v)] } + ar.sort.each {|k, v| + out.printf("%s\t%s\n", k, v) + } + } + return true + end + def each_db() @dbs.to_a.sort.each {|t, db| yield(t, db) } end + def dump_all() each_db {|t, db| dump_db(t) } end + def close_all() each_db {|t, db| db.close } end + def keys() @dbs.keys end + def each(t) + return unless block_given? + db = @dbs[t] + return nil unless db + db.each {|k, v| + k = to_num(k) + v = to_num(v) + k.sub!(/^\?/, '') if k =~ /^\?/ #åé ã®?ã¯åãé¤ã + vv = get(t, k) #p ['each', t, k, v, vv] + yield(k, vv) + } + end + def each_sort(t) + return unless block_given? + db = @dbs[t] + return nil unless db + ar = db.to_a + ar.map! {|k, v| [to_num(k), to_num(v)] } + ar.sort.each {|k, v| + k.sub!(/^\?/, '') if k =~ /^\?/ #åé ã®?ã¯åãé¤ã + vv = get(t, k) #p ['each', t, k, v, vv] + yield(k, vv) + } + end + #---------------------------------------------------------------------- + def get(t, key=nil) #tã¨ãããã¼ã¿ãã¼ã¹ã®keyãã¼ãå¼ãã¦è¿ã + db = @dbs[t] + return db if key.nil? + return nil unless db + return db.myget(key) + end + def put(t, key, v) #tã¨ãããã¼ã¿ãã¼ã¹ã®keyã«vãããã + db = @dbs[t] + if db == nil + db = make_db(t) + db = open_db(t) + db = @dbs[t] + end + db.myput(key, v) #putãã + end + end + + class CharDB < DB #------------------------------------ MCS-UTF8ããã¼ã¨ããå±æ§ã¸ã®ãã¼ã¿ãã¼ã¹ + include Singleton + def initialize() + super + @glob, @pre, @post = "#{DB_DIR}/system-char-id/*", "#{DB_DIR}/system-char-id/", "" + open_dbs() + end + def get_all(u8) #å¨ãã¼ã¿ãã¼ã¹ã®u8ãã¼ãå¼ãã¦Hashã«ã¾ã¨ãã¦è¿ã + atrs = Hash.new + @dbs.each {|t, db| + v = get(t, u8) + atrs[t] = v if v != nil + } + return atrs + end + end + + class CodesysDB < DB #---------------------------------------------------------------------- + include Singleton + def initialize() + super + @glob, @pre, @post = "#{DB_DIR}/*/system-char-id", "#{DB_DIR}/", "/system-char-id" + open_dbs() + end + #def keys() @dbs.keys.sort end #ã©ããªCodesysã®æå ±ãæã£ã¦ãããã®ä¸è¦§ + def keys() @dbs.keys end #ã©ããªCodesysã®æå ±ãæã£ã¦ãããã®ä¸è¦§ + def get_codesys(t) + db = get(t) + return nil unless db + return Codesys.new(t) + end + end + + class Codesys < DB #====================================================================== + def initialize(name) +# super + @name = name + @dbs = CodesysDB.instance + end + def keys() #ã©ããªã³ã¼ããã¤ã³ãã®æå ±ãæã£ã¦ãããã®ä¸è¦§ + ks = @dbs.get(@name).keys + if @name =~ /jisx0208/ #ç¹å¥å¦ç + n = @dbs.get('=jis-x0208').keys + # p ['keys', @name, ks, n] + ks += n + end + ks.map! {|k| to_num(k) } + ks + end + def get(key) + v = @dbs.get(@name, key) + return v if v + if @name =~ /jisx0208/ #jisx0208ãå«ã¾ãã¦ããå ´åã ãç¹å¥å¦çãã + return @dbs.get('=jis-x0208', key) + end + return nil + end + def each() + return unless block_given? + db = @dbs.get(@name) + return nil unless db + db.each {|k, v| + k = to_num(k) + v = to_num(v) + k.sub!(/^\?/, '') if k =~ /^\?/ #åé ã®?ã¯åãé¤ã + vv = @dbs.get(@name, k) #p ['each', t, k, v, vv] + yield(k, vv) + } + end + def each_sort() + return unless block_given? + db = @dbs.get(@name) + return nil unless db + ar = db.to_a + ar.map! {|k, v| [to_num(k), to_num(v)] } + ar.sort.each {|k, v| + k.sub!(/^\?/, '') if k =~ /^\?/ #åé ã®?ã¯åãé¤ã + vv = @dbs.get(@name, k) #p ['each', t, k, v, vv] + yield(k, vv) + } + end + end + + class IDS_TEXT_DB < DB #====================================================================== + include Singleton + if CHISE.windows?() + IDS_DB_DIR = 'd:/work/chise/ids/' #ãã®å¾ã«IDS-JIS-X0208-1990.txtã¨ããæãã«ç¶ã + else + IDS_DB_DIR = '/home/eto/work/chise/ids/' #ãã®å¾ã«IDS-JIS-X0208-1990.txtã¨ããæãã«ç¶ã + end + IDS_LIST = " +IDS-JIS-X0208-1990.txt +IDS-CBETA.txt +IDS-Daikanwa-01.txt +IDS-Daikanwa-02.txt +IDS-Daikanwa-03.txt +IDS-Daikanwa-04.txt +IDS-Daikanwa-05.txt +IDS-Daikanwa-06.txt +IDS-Daikanwa-07.txt +IDS-Daikanwa-08.txt +IDS-Daikanwa-09.txt +IDS-Daikanwa-10.txt +IDS-Daikanwa-11.txt +IDS-Daikanwa-12.txt +IDS-Daikanwa-dx.txt +IDS-Daikanwa-ho.txt +IDS-UCS-Basic.txt +#IDS-UCS-Compat-Supplement.txt +#IDS-UCS-Compat.txt +IDS-UCS-Ext-A.txt +IDS-UCS-Ext-B-1.txt +IDS-UCS-Ext-B-2.txt +IDS-UCS-Ext-B-3.txt +IDS-UCS-Ext-B-4.txt +IDS-UCS-Ext-B-5.txt +IDS-UCS-Ext-B-6.txt +".split + def initialize() + super + @ids_list = IDS_LIST + @chars = [] + @glob, @pre, @post = "#{IDS_DB_DIR}/db/*", "#{IDS_DB_DIR}/db/", "" + dir = File.dirname(@pre) + Dir.mkdir(dir) unless FileTest.exist?(dir) + open_dbs() + end + def each_file() + return unless block_given? + @ids_list.each {|file| + next if file =~ /^#/ + yield(IDS_DB_DIR+file) + } + end + def each_line(file) + open(file){|f| + while line = f.gets + next if line =~ /^;/ #ã³ã¡ã³ãã¯ã¨ã°ã + line.chomp! + code, char, ids = line.split + yield(code, char, ids) + end + } + end + def dump_text_all + each_file {|file| + dir = File.dirname(file) + '/../ids-new/' + Dir.mkdir(dir) if ! FileTest.directory?(dir) + newfile = dir + File.basename(file) + p [file, newfile] + open(newfile, "w"){|out| + out.binmode.sync = true + each_line(file){|code, ch, ids| + char = Character.get(ch) + ids = char.decompose + out.print "#{code} #{ch} #{ids}\n" + } + } + } + end + def make_ids_error + each_file {|file| + dir = File.dirname(file) + '/../ids-error' + Dir.mkdir(dir) unless FileTest.exist?(dir) + errfile = dir + '/' + File.basename(file) +# p [file, errfile] + open(errfile, "w"){|out| + out.binmode.sync = true + each_line(file){|code, ch, ids| + char = Character.get(ch) + ids_error = char['ids-error'] + next if ids_error.nil? + out.print "#{code} #{ch} #{ids} #{ids_error}\n" + } + } + } + end + end + + class IDS_DB < DB #======================================================================BDBåããIDS DBãæ±ã + include Singleton + def initialize + @dbs = CharDB.instance + end + def make_ids_db + db = IDS_TEXT_DB.instance + db.each_file {|file| + db.each_line(file){|code, ch, ids| + char = Character.get(ch) #å®ä½åç§ã§ãã + ids = "" if ids == nil + ids.de_er! #å®ä½åç§ãè§£é¤ãã + char['ids-text'] = ids + } + p [file, CharacterFactory.instance.length] + CharacterFactory.instance.reset() + } + @dbs.dump_db('ids-text') #ããã¹ãåãã + end + def make_ids_error_check + @dbs.each('ids-text') {|k, ids| + next if k.nil? || k == "" || ids.nil? || ids == "" #ç¡è¦ãã¾ã + next if k == ids #åé¡ç¡ããªã®ã§ + char = k.char + idstree = IDS_Tree.new(ids) + c = idstree.check_integrity + c = "contains self" if ids.include?(k) + c = "no attribute" if !char.has_attribute? #isolated characterã¯ã¾ãããã¾ããªãã + if c + char['ids-error'] = c + else + char['ids'] = ids + end +# print c,"\t", k.char.to_er,"\t", k,"\t", v,"\n" + } + @dbs.dump_db('ids-error') #ããã¹ãåãã + @dbs.dump_db('ids') #ããã¹ãåãã + end + def make_ids_reverse + h = Hash.new + @dbs.each('ids') {|k, v| + char = k.char + ids = char.decompose + h[ids] = "" if h[ids].nil? + h[ids] += k #è¿½å ãã + } + h.each {|k, v| + h[k] = char_sort(v) #æåã®é çªããããä½¿ãã£ã½ããã®ããã®é çªã«ãã + } + h.delete_if {|k, v| #h[k]ã""ã«ãªãå¯è½æ§ãããããããã¯keyã¨ãã¦å¥ããªããã¨ã«ããã + v == "" + } + p ['length', h.length] + cdb = CodesysDB.instance + cdb.make_db_no_question_mark('ids', h) + cdb.dump_db('ids') + end + def char_sort(composed) + return composed if composed.char_length == 1 + ar = composed.to_a + arorg = ar.dup + ar2 = [] + ar.dup.each {|ch| + char = ch.char + if char.char_id < 0xfffff #Unicodeã£ã½ã? + ar2 << ch + ar.delete(ch) + end + } + if 0 < ar.length + EntityReference.each_codesys{|codesys, er_prefix, keta, numtype| + ar.each {|ch| + char = ch.char + v = char[codesys] +# p [codesys, v] if v + if v #EntityReferenceã®é çªã«æºæ ããã + ar2 << ch + ar.delete(ch) + end + } + } + end + if 0 < ar.length +# p ['yokuwakaran character', ar, ar[0].inspect_all, arorg] + EntityReference.each_codesys{|codesys, er_prefix, keta, numtype| + ar.dup.each {|ch| + char = ch.char + v = char[codesys] +# p [codesys, v] if v + } + } + end + return ar2.join("") + end + def dump_ids_duplicated + open('ids-duplicated.txt', 'w'){|out| + #out.binmode + CodesysDB.instance.each('ids') {|k, v| + if v.nil? + out.print "nil #{k} #{v}\n" + next + end + n = v.char_length + next if n == 1 + out.print "#{n} #{k} #{v}" + v.each_char {|ch| + char = ch.char + out.print " #{char.inspect}" + } + out.print "\n" + } + } + end + def make_ids_aggregated + @dbs.each('ids') {|k, v| + char = k.char + ids = char.decompose + ag = ids.aggregate + char['ids-aggregated'] = ag + } + @dbs.dump_db('ids-aggregated') + end + def dump_ids_aggregated + open('ids-aggregated.txt', 'w'){|out| + #out.binmode + @dbs.each('ids') {|k, v| + char = k.char + ids = char['ids'] + ag = char['ids-aggregated'] + out.print "#{char.to_s} #{ag} #{ids}\n" if ids != ag + } + } + end + def make_ids_parts + @dbs.each('ids') {|k, v| + char = k.char + pids = char.to_s + ar = [] + counter = 0 + loop { + ids = pids.decompose + break if ids == pids #ããä»¥ä¸åå²ã§ããªãããã ã£ããçµäºãã + ar += ids.to_a + counter += 1 + p [char.to_s, pids, ids, ar] if 10 < counter #ããã¯ä½ããããããã¨ + pids = ids + } + ar.sort! + ar.uniq! +#ãã£ã±ãIDSæåãå ãããã¨ã«ãã. by eto 2003-02-05 +# ar.delete_if {|ch| +# ch.char.is_ids? #IDSæåã¯ã¾ãããã¾ããªãã +# } + str = ar.join('') + char['ids-parts'] = str + } + @dbs.dump_db('ids-parts') + end + def make_ids_contained + h = Hash.new + @dbs.each('ids-parts') {|k, v| + char = k.char + parts = char.ids_parts + parts.each_char {|ch| +# part = ch.char + h[ch] = [] if h[ch].nil? + h[ch] << k +# h[ch] += k +# part['ids-contained'] = "" if part['ids-contained'].nil? +# part['ids-contained'] += k + } + } + h.each {|k, v| + char = k.char + v.sort! + char['ids-contained'] = v.join('') + + } + @dbs.dump_db('ids-contained') + end + def make_ids_decomposed + @dbs.each('ids') {|k, v| + char = k.char + de= char.decompose_all + char['ids-decomposed'] = de + } + @dbs.dump_db('ids-decomposed') + end + end + + class Node < Array #=======================================================æ¨æ§é ã®ä¸ã®ä¸ã¤ã®æ + def initialize(nodeleaf=nil, nodenum=nil) + super() + @nodeleaf = nodeleaf + @nodenum = nodenum + if @nodeleaf + original_add(@nodeleaf) + end + end + attr_reader :nodenum + alias original_add << + private :original_add + def <<(obj) + original_add(obj) + @nodenum -= 1 if @nodenum + end + def nodes + ar = [] + ar << self.to_s + self.each {|n| + ar += n.nodes if n.is_a? Node + } + return ar + end + end + + class Tree #======================================================================æ¨æ§é ãæ±ã + def initialize() + @root = Node.new() + @stack = [@root] + @leafnum = 0 + @depth = 1 #stackã®æ·±ããæå¤§ã«ãªã£ãã¨ããã®å¤ãæ¨æ§é ãç¡ãã¨ãã¯1ã¨ãªã + end + def depth() @depth - 1 end + def add_node(nodeleaf=nil, nodenum=nil) #æãè¿½å + new_node = Node.new(nodeleaf, nodenum) + @stack.last << new_node + @stack << new_node + if @depth < @stack.length + @depth = @stack.length + end + self + end + def end_node() #ãã®æã¯çµã + @stack.pop + self + end + def add_leaf(a) #èãè¿½å + @stack.last << a + end_check() + self + end + def end_check() + n = @stack.last.nodenum + if n && n == 0 + end_node() + end_check() #åå¸° + end + end + def check_integrity + n = @stack.last.nodenum + return nil if @root.length == 0 #no tree is good tree + return "unmatch leaves" if n && n != 0 + return "extra nodes" if @root.first.is_a?(Node) && @root.length != 1 + return "extra leaves" if @root.length != 1 + return nil + end + def nodes + r = @root.nodes + r.shift + r + end + def sub_nodes + r = nodes + r.shift + r + end + def to_s() @root.to_s end + def inspect() @root.inspect end + end + + class IDS_Tree < Tree #====================================================================== + def initialize(str) + @str = str + super() + parse() + end + def parse() + @str.each_char {|ch| + char = Character.new(ch) + if is_ids?(char) + add_node(char, ids_operator_argc(char)) + else + add_leaf(char) + end + } + end + def is_ids?(obj) + return true if "+*".include?(obj.to_s) #ãã¹ãç¨ã§ããã + return true if obj.is_ids? + return false + end + def ids_operator_argc(obj) + return obj.ids_operator_argc if 0 < obj.ids_operator_argc + return 2 #ãã¹ãç¨ã£ã¦ãã¨ã§ + end + def check_integrity + r = super + return r if r #ä¸å®å¨ããã§ã«ããã£ã¦ãããªãreturn + return "contains ques" if @str =~ /\?/ #?ãå«ã¾ãã¦ãã? + return nil + end + + end + + class IDS #======================================================================IDSãã®ãã®ãæ±ãclass + def initialize(str) #IDSæååãããã¨ãã + @str = str + end + def parse + end + def parse_x #æè»åã®Parse. IDSãã£ã©ã¯ã¿ã¼ãåã«ãã¦ãªãã¦ãããããªã©ãªã©ã + end + end + + class Counter #====================================================================== + #ä½¿ãæ¹ + #counter = Counter.new(50) { exit } + #counter.count + def initialize(max) + @max = max + @count = 0 + @proc = proc + end + def count + @count += 1 + if @max <= @count + @proc.call + end + end + end + +end + +#----------------------------------------------------------------------çµäº diff --git a/t/Makefile b/t/Makefile new file mode 100755 index 0000000..c21bfc4 --- /dev/null +++ b/t/Makefile @@ -0,0 +1,6 @@ +# by eto 2003-0112 + +test: + ./ts_chise.rb + +#----------------------------------------------------------------------end. diff --git a/t/tc_char.rb b/t/tc_char.rb new file mode 100755 index 0000000..364ad2d --- /dev/null +++ b/t/tc_char.rb @@ -0,0 +1,121 @@ +#!/usr/bin/env ruby +# by eto 2003-0112 + +require 'test/unit' +$LOAD_PATH << '../src' +require 'chise' +include CHISE + +class TC_Character < Test::Unit::TestCase + def setup() @char = Character.get("å") end #UTF8ã§ä¸ãããã¨ + def test_char(char) + assert_equal(23383, char.char_id, "translate to char_id") + assert_equal(6, char.get_char_attribute('total_strokes'), "get total strokes by XEmacs UTF-2000 like method") + assert_equal(6, char['total_strokes'], "get total strokes by Hash like method") if char.is_a? Character + assert_equal(6, char.total_strokes, "get total strokes by method") + assert_equal(23383, char.ucs, "translate to ucs") + assert_equal(22358, char.chinese_gb2312, "get character code in chinese GB2312") + assert_equal(1777, char.shinjigen_2, "get shinjigen 2") + assert_equal(3, char.ideographic_strokes, "get") + assert_equal(39, char.ideographic_radical, "get") + end + def test_chars + test_char(Character.get("å")) + test_char(Character.new("å")) + test_char("å") + end + def test_create + assert_equal(23383, Character.parse_char_id("å")) + end + def test_put_attributes + @char.put_char_attribute('test_attribute', 'test') + assert_equal('test', @char.get_char_attribute('test_attribute'), "put, get") + @char['test_attribute'] = 'test' + assert_equal('test', @char['test_attribute'], "[]=, []") + end + def test_method + assert_instance_of(Hash, @char.char_attribute_alist, "returns Hash") + assert_instance_of(Hash, @char.alist, ".alist returns Hash") + assert_instance_of(Array, @char.char_attribute_list, "returns Array") + assert_instance_of(Array, @char.list, ".list returns Array") + assert_instance_of(String, @char.inspect) + end + def test_er + assert_equal(Character.get("&J90-3B7A;"), @char, "jisx0208") +# assert_equal("&J90-3B7A;", @char.to_er, "jisx0208") + assert_equal(Character.get("&MCS-00005B57;"), @char, "mcs") + assert_equal(Character.get("&M-06942;"), @char, "ideograph-daikanwa, Morohashi") + end + def test_latin + char = Character.get("A") + assert_equal(char.ascii, 65, "ascii") + assert_equal(char.bidi_category, "L", "bidi") + assert_equal(char.name, "LATIN CAPITAL LETTER A", "name") + assert_equal(char.ucs, 65, "ucs") + assert_equal(char.latin_jisx0201, 65, "jisx0201") + assert_equal(char.latin_viscii, 65, "viscii") #ã£ã¦ä½? +#->fullwidth: (((name . "FULLWIDTH LATIN CAPITAL LETTER A") (ucs . 65313))) +#->lowercase: (((name . "LATIN SMALL LETTER A") (ucs . 97))) +#general-category: (letter uppercase) +#ãã®ã¸ãã®Så¼ã®å±éãå¿è¦ãªãã®ã¯ãã¾ãå¾ç¨æ±ãã¹ãã + end + def test_ids + char = Character.get("â¿°") + assert_equal(char.name, "IDEOGRAPHIC DESCRIPTION CHARACTER LEFT TO RIGHT", "ids name") + assert_equal(char.to_er, "&U+2FF0;", "ids er") + assert_equal(char.bidi_category, "ON", "ids bidi") + end + def test_jis + char = Character.get("é¢") + assert_instance_of(String, char.get_attributes) + char = Character.get("å¦") + assert_instance_of(String, char.get_attributes) + end + def test_flyweight + char1 = Character.new("å") + char2 = Character.new("å") #.newã§çæããå ´åã¯å¥ãã®instanceã«ãªãã®ã + assert_equal(char1, char2) #==ã§ã¯ãã + assert_not_same(char1, char2) #equal?ãã¨ããã¨éã + + cf = CharacterFactory.instance + char1 = cf.get("å") + char2 = cf.get("å") + assert_equal(char1, char2, "factory") #==ã§ãã + assert_same(char1, char2, "factory") #ãã¤åãinstanceã§ãããã¨ãä¿è¨¼ããã + + char1 = Character.get("å") #Character.newã®ä»£ãã«Character.getãä½¿ãã¨CharacterFactoryãä½¿ã£ãã®ã¨åãå¹æãããã + char2 = Character.get("å") + assert_equal(char1, char2) #==ã§ã¯ãã + assert_same(char1, char2) #equal?ãã¨ããã¨éã + end + def p_er(er) + p er.de_er.char.inspect_all + end + def nu_test_has_attribute + assert("&J90-4833;".de_er.char.has_attribute?) #ç½ª + assert(! "&MCS-00E06E9B;;".de_er.char.has_attribute?) #ç½ªã®isolated character, attributeãæã£ã¦ãªã + assert("&C1-602E;".de_er.char.has_attribute?) #æ¸¡ + assert("&J90-454F;".de_er.char.has_attribute?) #æ¸¡ + p_er("&C1-602E;") #æ¸¡ + p_er("&J90-454F;") + p_er("&J83-4D63;") #ç¿¼ + p_er("&J90-4D63;") + p_er("&J83-3958;") #è³¼ + p_er("&J90-3958;") + end + def teardown() @char = nil end +end + +#===== PRINT_ALL [å] MCS-00005B57 &J90-3B7A; ===== +#chinese-gb2312: 0x5756 +#chinese-isoir165: 0x5756 +#korean-ksc5601: 0x6D2E +#ucs: 0x5B57 +#chinese-cns11643-1: 0x4773 +#chinese-big5: 0xA672 + +# test_print(Character.get("&CDP-8B42;")) +# test_print(Character.get("&I-CDP-8AF6;")) +#===== PRINT_ALL [è] MCS-00ECA524 &K0-743F; ===== + +#----------------------------------------------------------------------end. diff --git a/t/tc_db.rb b/t/tc_db.rb new file mode 100755 index 0000000..3fe679e --- /dev/null +++ b/t/tc_db.rb @@ -0,0 +1,96 @@ +#!/usr/bin/env ruby +# by eto 2003-0112 + +require 'test/unit' +$LOAD_PATH << '../src' +require 'chise' +include CHISE + +class TC_DB < Test::Unit::TestCase + def setup + @cdb = CharDB.instance + @sdb = CodesysDB.instance + end + def test_db + assert_equal("()+!", DB.unix_to_win("<>*?")) + assert_equal("<>*?", DB.win_to_unix("()+!")) + end + def test_each_db(db) + assert_instance_of(Array, db.keys) + end + def test_make_db(db) + h = {'a' => 1, 'b' => 2, 'c' => 3} + db.remove_db('test-db') #ã¾ãæåã«æ¶ãã¦ãã + assert_not_nil(db.make_db('test-db', h)) + assert_not_nil(db.open_db('test-db')) + assert_equal(1, db.get('test-db', 'a')) + assert_equal(2, db.get('test-db', 'b')) + assert_equal(3, db.get('test-db', 'c')) + db.remove_db('test-db') #æå¾ã«ã¾ãæ¶ãã¦ãã + end + def test_dbs + test_each_db(@cdb) + test_each_db(@sdb) +# test_make_db(@cdb) +# test_make_db(@sdb) + end + def test_db_put + char = "å".char + char.put_char_attribute('test-attribute', 'test') + assert_equal('test', char.test_attribute) + end +end + +class TC_Codesys < Test::Unit::TestCase + def setup + @db = CodesysDB.instance + end + def nu_test_db_length + assert_equal(6287, @db.get('=jis-x0208').keys.length, "keys") + assert_equal(590, @db.get('japanese-jisx0208').keys.length, "keys") + assert_equal(499, @db.get('japanese-jisx0208-1978').keys.length, "keys") + assert_equal(593, @db.get('japanese-jisx0208-1990').keys.length, "keys") + assert_equal(6067, @db.get('japanese-jisx0212').keys.length, "keys") + assert_equal(1697, @db.get('japanese-jisx0213-1').keys.length, "keys") + assert_equal(2345, @db.get('japanese-jisx0213-2').keys.length, "keys") + assert_equal(4270, @db.get('ucs-jis').keys.length, "keys") + end + def test_db + keys = @db.keys + assert_instance_of(Array, @db.keys, "db.keys") + db = @db.get('ascii') + assert_equal(128, db.keys.length, "can get keys") + assert_equal(63, @db.get('katakana-jisx0201').keys.length, "keys") + assert_equal(94, @db.get('latin-jisx0201').keys.length, "keys") + + counter = 0 + @db.each('=jis-x0208'){|k, v| #å¼æ°ã®Codesysãã¼ã¿ãã¼ã¹ã®ããããã«å¯¾ãã¦å®è¡ãã + er0 = sprintf("&J90-%04X;", k) + er1 = Character.new(v).to_er + counter += 1; break if 10 < counter + } + end + def test_jis + db = CodesysDB.instance + codesys = db.get_codesys('ascii') + char = codesys.get(65) + assert_equal("A", char.to_s) + assert_equal(128, codesys.keys.length) + ks = codesys.keys + + codesys = db.get_codesys('japanese-jisx0208-1990') + ks = codesys.keys.sort #ã¨ãããã¨ã«ãã£ã¦ãJISX0208 1990ã®éåå¨é¨ã®keysãå¾ããã +# assert_equal(6880, ks.length) + assert_equal(8481, ks.first) + assert_equal(29734, ks.last) + char = codesys.get(15226) #"å" + assert_equal("å", char.to_s) + + assert_equal("äº", codesys.get(12321)) + jis = "äº".char.japanese_jisx0208_1990 + assert_equal("äº", codesys.get(jis)) + assert_equal("äº", sprintf("&J90-%04X;", jis).de_er) + end +end + +#----------------------------------------------------------------------end. diff --git a/t/tc_ids.rb b/t/tc_ids.rb new file mode 100755 index 0000000..a7dc9e1 --- /dev/null +++ b/t/tc_ids.rb @@ -0,0 +1,198 @@ +#!/usr/bin/env ruby +# by eto 2003-0112 + +require 'test/unit' +$LOAD_PATH << '../src' +require 'chise' +include CHISE + +class TC_IDS < Test::Unit::TestCase + def setup + end + def test_ids + char = "æ¦".char + assert_equal("â¿°æ¨ç¥", char.ids) + assert_equal("â¿°æ¨ç¥", char.decompose) + str = "æ¦" + assert_equal("â¿°æ¨ç¥", str.ids) + assert_equal("â¿°æ¨ç¥", str.decompose) + assert_equal("â¿°æ¨â¿°âºç³", str.decompose.decompose) + assert_equal("â¿°æ¨ç¥", str.decompose!) + assert_equal("â¿°æ¨â¿°âºç³", str.decompose!) + str = "æ¦" + assert_equal("â¿°æ¨â¿°âºç³", str.decompose_all) + assert_equal("â¿°æ¨â¿°âºç³", str.decompose_all!) + assert_equal("â¿°æ¨â¿°âºç³", str) + #ä»ã¯ã¾ã composeã¯ã§ããªãã + + de = "ç´°".decompose + assert_match(/ç°$/, de) + assert_equal(3, de.char_length) + de = "&JX2-7577;".de_er.decompose + de = "&CDP-8B60;".de_er.decompose + assert_equal(1, de.char_length) + de = "&JX2-217E;".de_er.decompose + assert_match(/^â¿°/, de) + assert_equal(3, de.char_length) + assert_equal(6, de.decompose!.char_length) +# assert_equal(6, de.decompose!.char_length) + + assert("â¿¸".char.is_ids?) + assert(! "æ¨".char.is_ids?) + assert_equal(2, "â¿°".char.ids_operator_argc) + assert_equal(2, "&U+2FF0;".de_er.char.ids_operator_argc) + assert_equal(2, "&U+2FF1;".de_er.char.ids_operator_argc) + assert_equal(3, "&U+2FF2;".de_er.char.ids_operator_argc) + assert_equal(3, "&U+2FF3;".de_er.char.ids_operator_argc) + + assert_equal("â¿°", "&U+2FF0;".de_er.to_s) + assert("&U+2FF0;".de_er.char.is_ids?) + assert("&U+2FFF;".de_er.char.is_ids?) + assert_match(/U\+2FF0/, "&U+2FF0;".de_er.char.inspect_x) + assert_match(/IDEOGRAPHIC DESCRIPTION CHARACTER LEFT TO RIGHT/, "&U+2FF0;".de_er.char.inspect_all) + (0x2FF0..0x2FFB).each {|i| + assert_match(/IDEOGRAPHIC DESCRIPTION CHARACTER/, Character.new(i).name) + } + + assert_match(/LEFT TO RIGHT/, "&U+2FF0;".de_er.name) #â« + assert_match(/ABOVE TO BELOW/, "&U+2FF1;".de_er.name) #â¨ + assert_match(/LEFT TO MIDDLE AND RIGHT/, "&U+2FF2;".de_er.name) #â¬ + assert_match(/ABOVE TO MIDDLE AND BELOW/, "&U+2FF3;".de_er.name) #â + assert_match(/FULL SURROUND/, "&U+2FF4;".de_er.name) #â + assert_match(/SURROUND FROM ABOVE/, "&U+2FF5;".de_er.name) #â© + assert_match(/SURROUND FROM BELOW/, "&U+2FF6;".de_er.name) #âª + assert_match(/SURROUND FROM LEFT/, "&U+2FF7;".de_er.name) #â + assert_match(/SURROUND FROM UPPER LEFT/, "&U+2FF8;".de_er.name) #â + assert_match(/SURROUND FROM UPPER RIGHT/, "&U+2FF9;".de_er.name) #â + assert_match(/SURROUND FROM LOWER LEFT/, "&U+2FFA;".de_er.name) #â + assert_match(/OVERLAID/, "&U+2FFB;".de_er.name) #âµ + end + def test_tree + assert_equal("[]", Tree.new().inspect) + assert_equal("[1]", Tree.new().add_leaf(1).inspect) + assert_equal("[1, 2]", Tree.new().add_leaf(1).add_leaf(2).inspect) + assert_equal("[[]]", Tree.new().add_node.inspect) + assert_equal("[[1]]", Tree.new().add_node.add_leaf(1).inspect) + assert_equal("[[1, 2]]", Tree.new().add_node.add_leaf(1).add_leaf(2).inspect) + assert_equal("[[1]]", Tree.new().add_node.add_leaf(1).end_node.inspect) + assert_equal("[[1], [1]]", Tree.new().add_node.add_leaf(1).end_node.add_node.add_leaf(1).end_node.inspect) + + tree = Tree.new + assert_equal("[]", tree.inspect) + assert_equal("[1]", tree.add_leaf(1).inspect) + assert_equal(0, tree.depth) + assert_equal("[1, 2]", tree.add_leaf(2).inspect) + assert_equal("[1, 2, []]", tree.add_node.inspect) + assert_equal("[1, 2, [3]]", tree.add_leaf(3).inspect) + assert_equal(1, tree.depth) + assert_equal("[1, 2, [3, 4]]", tree.add_leaf(4).inspect) + assert_equal("[1, 2, [3, 4]]", tree.end_node.inspect) + assert_equal("[1, 2, [3, 4], [5]]", tree.add_node.add_leaf(5).inspect) + assert_equal("[1, 2, [3, 4], [5, [6]]]", tree.add_node.add_leaf(6).inspect) + assert_equal(2, tree.depth) + + tree = Tree.new + assert_equal('[["+"]]', tree.add_node("+", 2).inspect) + assert_equal('[["+", 1]]', tree.add_leaf(1).inspect) + assert_equal("unmatch leaves", tree.check_integrity) + assert_equal('[["+", 1, 2]]', tree.add_leaf(2).inspect) + assert_nil(tree.check_integrity) + assert_equal('[["+", 1, 2], 3]', tree.add_leaf(3).inspect) + assert_equal("extra nodes", tree.check_integrity) + + tree = Tree.new + assert_equal('[["+"]]', tree.add_node("+", 2).inspect) + assert_equal("unmatch leaves", tree.check_integrity) + assert_equal('[["+", 1]]', tree.add_leaf(1).inspect) + assert_equal("unmatch leaves", tree.check_integrity) + assert_equal('[["+", 1, ["+"]]]', tree.add_node("+", 2).inspect) + assert_equal("unmatch leaves", tree.check_integrity) + assert_equal('[["+", 1, ["+", 2]]]', tree.add_leaf(2).inspect) + assert_equal("unmatch leaves", tree.check_integrity) + assert_equal('[["+", 1, ["+", 2, 3]]]', tree.add_leaf(3).inspect) + assert_nil(tree.check_integrity) + + tree = Tree.new + assert_equal('[1]', tree.add_leaf(1).inspect) + assert_nil(tree.check_integrity) + assert_equal('[1, 2]', tree.add_leaf(2).inspect) + assert_equal("extra leaves", tree.check_integrity) + end + def test_ids_tree + assert_equal('[[<+,U+002B>, , ]]', IDS_Tree.new("+AB").inspect) + assert_equal('[[<+,U+002B>, , ], ]', IDS_Tree.new("+ABC").inspect) + assert_equal('[[<+,U+002B>, , [<+,U+002B>, , ]]]', IDS_Tree.new("+A+BC").inspect) + assert_equal('[[<+,U+002B>, , [<+,U+002B>, , ]], ]', IDS_Tree.new("+A+BCD").inspect) + + assert_equal('[<æ¦,U+698A>]', IDS_Tree.new("æ¦").inspect) +# assert_equal('[[<â¿°,U+2FF0>, <æ¨,J90-4C5A>, <ç¥,J90-3F40>]]', IDS_Tree.new("â¿°æ¨ç¥").inspect) + assert_equal(1, IDS_Tree.new("â¿°æ¨ç¥").depth) +# assert_equal('[[<â¿°,U+2FF0>, <æ¨,J90-4C5A>, [<â¿°,U+2FF0>, <âº,CDP-8B70>, <ç³,J90-3F3D>]]]', IDS_Tree.new("â¿°æ¨â¿°âºç³").inspect) + assert_equal(2, IDS_Tree.new("â¿°æ¨â¿°âºç³").depth) + assert_equal("unmatch leaves", IDS_Tree.new("â¿°æ¨").check_integrity) + assert_nil(IDS_Tree.new("â¿°æ¨ç¥").check_integrity) + assert_equal("unmatch leaves", IDS_Tree.new("â¿°æ¨â¿°ç³").check_integrity) + assert_nil(IDS_Tree.new("â¿°æ¨â¿°âºç³").check_integrity) + assert_equal("extra nodes", IDS_Tree.new("â¿°æ¨â¿°âºç³ç³").check_integrity) + assert_nil(IDS_Tree.new("æ¦").check_integrity) + assert_equal("extra leaves", IDS_Tree.new("æ¦æ¦").check_integrity) + + assert_equal(3, "â¿³".char.ids_operator_argc) + assert_equal("â¿³å£«åå", "å£±".char.ids) + assert_equal(3, "å£±".char.ids.char.ids_operator_argc) + assert_nil(IDS_Tree.new("â¿³å£«åå").check_integrity) + assert_equal("unmatch leaves", IDS_Tree.new("â¿³å£«å").check_integrity) + assert_equal("extra nodes", IDS_Tree.new("â¿³å£«ååå").check_integrity) + + assert_equal("contains ques", IDS_Tree.new("â¿³å£«å?").check_integrity) + end + def test_tree_depth + assert_equal(1, IDS_Tree.new("æ".decompose).depth) + assert_equal('["â¿°æ¨æ¨"]', IDS_Tree.new("æ".decompose).nodes.inspect) + assert_equal('[]', IDS_Tree.new("æ".decompose).sub_nodes.inspect) + assert_equal(2, IDS_Tree.new("æ¦".decompose_all).depth) + assert_equal('["â¿°æ¨â¿°âºç³", "â¿°âºç³"]', IDS_Tree.new("æ¦".decompose_all).nodes.inspect) + assert_equal('["â¿°âºç³"]', IDS_Tree.new("æ¦".decompose_all).sub_nodes.inspect) + + assert_equal(3, IDS_Tree.new("ç".decompose_all).depth) + assert_equal(3, IDS_Tree.new("ç".decompose_all).nodes.length) + assert_equal(2, IDS_Tree.new("ç".decompose_all).sub_nodes.length) + + assert_equal(2, IDS_Tree.new("å±¡".decompose_all).depth) + assert_equal("â¿¸å°¸å¨", "â¿¸å°¸â¿±ç±³å¥³".aggregate) + assert_equal(3, IDS_Tree.new("é¤".decompose_all).depth) + end + def test_compose_exact #æ£ç¢ºã«ä¸è´ããIDSãæ¤ç¥ãã + assert_equal("æ¦", "æ¦".decompose.compose) + assert_equal("å£±", "å£±".decompose.compose) + assert_equal("â¿°æ¨æ¨", "æ".decompose) + assert_equal("æ", "â¿°æ¨æ¨".compose) + assert_equal("æ", "æ".decompose.compose) + assert_equal("â¿°æ¨æ¨", "â¿°æ¨æ¨".compose.decompose) + assert_equal("æ".ucs, "â¿°æ¨æ¨".compose.ucs) + end + def test_find +# p "æ¥é²".find #"æ" + assert_equal(4, "æ¥é²".find .char_length) #"æ" + end + def test_compose_part +# p de.compose_ar +# p "ç¥".compose_ar +# p "æ¨".compose_ar.join + end + def test_aggregate +# db = IDS_DB.instance +# db.list_aggregate + end + def test_ids_error +# p "å®".char.inspect_all +# p "å®".char.ids +# assert_equal("contains ques", "å®".char.ids_error) + assert_equal("unmatch leaves", "å®".char.ids_error) +# p CharDB.instance.get('ascii').keys +# p CharDB.instance.get('no-such-attribute').keys +# p CharDB.instance.get('ids-error').keys + end +end + +#----------------------------------------------------------------------end. diff --git a/t/tc_str.rb b/t/tc_str.rb new file mode 100755 index 0000000..c2076ed --- /dev/null +++ b/t/tc_str.rb @@ -0,0 +1,91 @@ +#!/usr/bin/env ruby +# by eto 2003-0112 + +require 'test/unit' +$LOAD_PATH << '../src' +require 'chise' +include CHISE + +class TC_String < Test::Unit::TestCase + def setup + @str = "æåå" + end + def test_str + ar = [] + @str.each_char {|char| ar << char } + assert_equal(["æ","å","å"], ar) + assert_equal(["æ","å","å"], @str.to_a) + assert_equal("æ", @str.char_at(0)) + assert_equal("å", @str.char_at(1)) + assert_equal("å", @str.char_at(2)) + assert_equal(nil, @str.char_at(3)) + assert_equal("å", @str.char_at(-1)) + end + def test_attributes + assert_equal(23383, "å".ucs) + assert_equal(23383, "åå".ucs) + assert_equal(25991, "æ".ucs) + assert_equal(25991, @str.ucs) + end + def test_er + @char = @str.char_at(1) + assert_equal(@char, Character.get("&J90-3B7A;").to_s, "jisx0208") + assert_equal("å", Character.get("&J90-3B7A;").to_s, "jisx0208") + assert_equal("å", "&J90-3B7A;".de_er, "jisx0208") + assert_equal("æå", "æ&J90-3B7A;".de_er, "with other character, at the bottom") + assert_equal("åæ", "&J90-3B7A;æ".de_er, "at the top") + assert_equal("æåå", "æ&J90-3B7A;&J90-3B7A;".de_er, "two ERs") + assert_equal("æåæå", "æ&J90-3B7A;æ&J90-3B7A;".de_er, "two ERs") + assert_equal("æå", "æ&MCS-00005B57;".de_er, "mcs") + assert_equal("æå", "æ&M-06942;".de_er, "morohashi") + assert_equal("å", "å".de_er) + + str = "æ&J90-3B7A;" + str2 = str.de_er #æ¬ä½ã«å¤æ´ç¡ã + assert_equal("æ&J90-3B7A;", str) + assert_equal("æå", str2) + str3 = str.de_er! #æ¬ä½ãå¤ããã¾ã + assert_equal("æå", str) + assert_equal("æå", str3) + + assert_equal("å", "&MCS-00005B57;".de_er) + assert_equal("å", "&U-5B57;".de_er) + assert_equal("å", "&U+5B57;".de_er) + assert_equal("", "&nosucher;".de_er) + assert_equal("å", "&U-5b57;".de_er) + end + def test_method + str = @str.map_char {|ch| + ch+ch + } + assert_equal("ææåååå", str) + assert_equal("æåå", @str) + str = @str.map_char! {|ch| + ch+ch + } + assert_equal("ææåååå", str) + assert_equal("ææåååå", @str) + assert_equal("ææåååå", @str) + +# assert_equal("<æ,C1-4546>", "æ".inspect_x) +# assert_equal("<å,J90-3B7A>", "å".inspect_x) +# assert_equal("<å,J90-4E73>", "å".inspect_x) +# assert_equal("<æ,C1-4546><å,J90-3B7A><å,J90-4E73>", "æåå".inspect_x) + + ins = "å".inspect_all +# assert_match(/^<å,J90-3B7A,/, ins) + assert_match(/chinese-big5:42610/, ins) + assert_match(/chinese-cns11643-1:18291/, ins) + assert_match(/chinese-gb2312:22358/, ins) + assert_match(/chinese-isoir165:22358/, ins) + assert_match(/ideograph-daikanwa:6942/, ins) + assert_match(/ideographic-radical:39/, ins) + assert_match(/ideographic-strokes:3/, ins) + assert_match(/korean-ksc5601:27950/, ins) + assert_match(/shinjigen-2:1777/, ins) + assert_match(/total-strokes:6/, ins) + assert_match(/ucs:23383/, ins) + end +end + +#----------------------------------------------------------------------end. diff --git a/t/test1.rb b/t/test1.rb new file mode 100755 index 0000000..20910e3 --- /dev/null +++ b/t/test1.rb @@ -0,0 +1,20 @@ +#!/usr/bin/env ruby +# by eto 2003-0117 + +$LOAD_PATH << '../src' +require 'utf2000' +include UTF2000 + +str = "å" #Stringãæ¡å¼µãã¦ãããUTF8ã§ä¸ãããã¨ã +p str.ucs #ã¨ããã¨ããã®æåã®ucsã®å¤ãè¡¨ç¤ºããã +p str.total_strokes #ç»æ°ãè¡¨ç¤ºããã +p str.chinese_gb2312 #ãªã©ãªã© +str.char.alist.each {|a, v| #ãããªæãã§å¨å±æ§ãè¡¨ç¤ºã§ãã + print a, ': ', v, "\n" +} +p str.inspect_x #Characterã«ã¤ãã¦ã®æå ±ãè¡¨ç¤ºãããã +p str.inspect_all #æã£ã¦ããå±æ§æå ±ãå¨ã¦è¡¨ç¤ºããã + +str = "æåå" #ãã¡ããä¸æåã§ãªãæååãæ±ãããUTF-8ã§ä¸ããã +p str.inspect_x #åæåã®æå ±ãè¡¨ç¤ºãããã +p str.inspect_all #åæåã®å±æ§æå ±ãå¨ã¦è¡¨ç¤ºããã diff --git a/t/ts_chise.rb b/t/ts_chise.rb new file mode 100755 index 0000000..1c68bed --- /dev/null +++ b/t/ts_chise.rb @@ -0,0 +1,11 @@ +#!/usr/bin/env ruby +# by eto 2003-0112 + +require 'test/unit' + +require 'tc_char' +require 'tc_str' +require 'tc_db' +require 'tc_ids' + +#----------------------------------------------------------------------end. diff --git a/tools/Makefile b/tools/Makefile new file mode 100755 index 0000000..28d4b3d --- /dev/null +++ b/tools/Makefile @@ -0,0 +1,18 @@ +# by eto 2003-0114 + +#test: ids_db +test: + +tarball: + ./mkdbtarball.rb /usr/local/lib/xemacs-21.4.10/i686-pc-linux/ + +dump: + ./dbdumpall.rb + +ids_db: + ./idsdbdumpall.rb + +check: + ./idscheckintegrity.rb + +#----------------------------------------------------------------------end. diff --git a/tools/README b/tools/README new file mode 100755 index 0000000..ee78b06 --- /dev/null +++ b/tools/README @@ -0,0 +1,27 @@ +¡Ruby/CHISEÆêÉg¤Æ¢¢©àµêÈ¢¹ïQ + +dbdumball.rb +char-dbÌÌbdbQÌàeðSÄ.txtt@CÆµÄdumpµÜ·B +±¤·éÆAbdbÌàeªÇÌæ¤ÉÈÁÄ¢é©ªeLXgÅí©ÁÄÖÅ·B +¯¶directoryÉ«oµÜ·ÌÅA«ÝÌpermissonªKvÈÍ¸Å·B + +make_ids_db.rb +eLXgÉæéIDSt@CQðSÄÇÝ±ÝA +BDBÆµÄchar-db/system-char-id/ºÉZ[uµÈ¨µÜ·B +ñ©çÍÊíÌ®«ÌêÂÆµÄ.idsðg¦éæ¤ÉÈèÜ·B +isolated characterð½ßÉñíÉxÈÁÄ¢ÄA1Ôç¢©©èÜ·B + +mkdbtarball.rb $1 $2 +á: ./mkdbtarball.rb /usr/local/lib/xemacs-21.4.10/i686-pc-linux/ /var/tmp +char-dbÌtarball(char-db.tar.gz)ðìèÜ·B +$1Échar-dbÌ è©ðwèµÜ·B +Ü¸$2ÌÆ±ë(wè³¯êÎ/var/tmp)Échar-dbðÜé²ÆRs[µA +t@C¼Ì¶Ï·ðs¢Achar-db.tar.gzðìèÜ·B +< > * ? ¨ ( ) + ! +WindowsÌt@C¼§ÀÅAãLÌ¶¤Ì¶ªg¦È¢½ßA +»êçÌ¶ðE¤Ì¶Éu«©¦Ä©çAtar.gzðìèÜ·B + +trim_bom.rb +¶ªÉ éBOM(byte order mark)ðæè«Ü·B + +#----------------------------------------------------------------------I¹ diff --git a/tools/dbdumball.rb b/tools/dbdumball.rb new file mode 100755 index 0000000..b2258a9 --- /dev/null +++ b/tools/dbdumball.rb @@ -0,0 +1,11 @@ +#!/usr/bin/env ruby +# by eto 2003-0110 + +$LOAD_PATH << '../src' +require 'chise' +include CHISE + +CharDB.instance.dump_all() +CodesysDB.instance.dump_all() + +#----------------------------------------------------------------------end. diff --git a/tools/make_ids_db.rb b/tools/make_ids_db.rb new file mode 100755 index 0000000..13b346c --- /dev/null +++ b/tools/make_ids_db.rb @@ -0,0 +1,22 @@ +#!/usr/bin/env ruby +# by eto 2003-0110 +# IDSã®ããã¹ããã¡ã¤ã«ãèªã¿ãbdbã¨ãã¦åºåãã +# åæã«ãåç¨®ã®IDSæ£è¦åä½æ¥ãè¡ã + +$LOAD_PATH << '../src' +require 'chise' +include CHISE + +db = IDS_DB.instance +db.make_ids_db +db.make_ids_error_check #35åç¨åº¦ããã +IDS_TEXT_DB.instance.make_ids_error +db.make_ids_reverse +db.dump_ids_duplicated +db.make_ids_aggregated +db.dump_ids_aggregated +db.make_ids_parts +db.make_ids_contained +db.make_ids_decomposed #1å + +#----------------------------------------------------------------------end. diff --git a/tools/mkdbtarball.rb b/tools/mkdbtarball.rb new file mode 100755 index 0000000..af74f64 --- /dev/null +++ b/tools/mkdbtarball.rb @@ -0,0 +1,38 @@ +#!/usr/bin/env ruby +# by eto 2003-0109 + +require 'find' +$LOAD_PATH << '../src' +require 'chise' +include CHISE + +def usage() + print "Usage: mkdbtarball.rb \n" + print "% ./mkdbtarball.rb /usr/local/lib/xemacs-21.4.10/i686-pc-linux/ /var/tmp\n" + exit +end + +usage if ARGV.length < 1 +dir = ARGV[0] +usage if ! FileTest.directory?("#{dir}/char-db") +tmpdir = ARGV[1] +tmpdir = "/var/tmp" if tmpdir == nil + +orgdir = Dir.pwd +Dir.chdir(tmpdir) #KÈdirÉÚ®µÄ©ç +system "cp -a #{dir}/char-db ." #Ü¸»ÌdirectoryÉâ³pÅSRs[·éB + +Find.find('.'){|f| + if f =~ /([*?<>])/ #WindowsÉ¨¯éÖ~¶ªÜÜêÄ¢½çAu··é + nf = DB.unix_to_win(f) + cmd = "mv '#{f}' '#{nf}'" + #print cmd, "\n" + system cmd + end +} + +system "tar czf char-db.tar.gz char-db" +system "mv char-db.tar.gz #{orgdir}" +system "rm -rf #{tmpdir}/char-db" + +#----------------------------------------------------------------------end. diff --git a/tools/trim_bom.rb b/tools/trim_bom.rb new file mode 100755 index 0000000..504c768 --- /dev/null +++ b/tools/trim_bom.rb @@ -0,0 +1,9 @@ +#!/usr/bin/env ruby +# remove BOM at the begining of the file by eto 2002-1203 +STDOUT.binmode +while gets + if /^\M-o\M-;\M-?/ + $_.sub!(/^\M-o\M-;\M-?/, '') + end + print $_ +end

Ruby/CHISE

â Ruby/CHISEã¨ã¯ãªã«ã

â Chaonã¢ãã«ã¨ã¯ãªã«ã

â download & history

â install

â config

â ä¾å­é¢ä¿

â Unicode

â ä½¿ãæ¹

â å ¨ä½çãªä½¿ãæ¹

â æ§ã ãªç¨ä¾æ¡

â å­å½¢åè§£ã»åæ

â IDSãä½¿ãããã®æºå

â å­å½¢åè§£

â å­å½¢åæ

â èª¬æ

â tools

â æ©ã¿ã©ãã

â å­å½¢åæ

â Ruby/M17Nã¨ã®æ´åæ§

â links

â CHISE project

â Ruby

â Ruby/CHISEã¨ã¯ãªã«ã

â Chaonã¢ãã«ã¨ã¯ãªã«ã

â download & history

â install

â config

â ä¾åé¢ä¿

â Unicode

â ä½¿ãæ¹

â å¨ä½çãªä½¿ãæ¹

â æ§ããªç¨ä¾æ¡

â åå½¢åè§£ã»åæ

â IDSãä½¿ãããã®æºå

â åå½¢åè§£

â åå½¢åæ

â èª¬æ

â tools

â æ©ã¿ã©ãã

â åå½¢åæ

â Ruby/M17Nã¨ã®æ´åæ§

â links

â CHISE project

â Ruby