(C*-****): Unify or relate CJK Unified Ext-B code points.
[chise/xemacs-chise.git-] / src / mule-canna.c
index 5b692ff..cc0e786 100644 (file)
@@ -22,9 +22,11 @@ Boston, MA 02111-1307, USA.  */
 
 /* Synched up with: Mule 2.3.  Not in FSF. */
 
-/* #### The comments in this file are mostly in EUC-formatted Japanese.
-   It would be ***soooo*** much nicer if someone could translate
-   them ... */
+/* Japanese comments were translated 2000-12-06 by Stephen Turnbull
+   <stephen@xemacs.org>.  I haven't verified that the Japanese comments
+   were correct.  YMMV, NO WARRANTY, not even the implied warranty of
+   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  (^^;;; as the
+   Japanese say. */
 
 /*
 
@@ -165,8 +167,9 @@ Boston, MA 02111-1307, USA.  */
 #endif /* !CANNA2 */
 extern char *jrKanjiError;
 
+/* #### is this global really necessary? */
 #define KEYTOSTRSIZE 2048
-static unsigned char buf[KEYTOSTRSIZE];
+static unsigned char key_buffer[KEYTOSTRSIZE];
 static char **warning;
 
 static int canna_empty_info, canna_through_info;
@@ -214,8 +217,8 @@ variables.
   int len;
 
   CHECK_CHAR_COERCE_INT (ch);
-  len = jrKanjiString (0, XCHAR (ch), buf, KEYTOSTRSIZE, &ks);
-  return storeResults (buf, len, &ks);
+  len = jrKanjiString (0, XCHAR (ch), key_buffer, KEYTOSTRSIZE, &ks);
+  return storeResults (key_buffer, len, &ks);
 }
 
 static Lisp_Object
@@ -229,10 +232,11 @@ storeResults (unsigned char *buf, int len, jrKanjiStatus *ks)
     }
   else
     {
-      /* ³ÎÄꤷ¤¿Ê¸»úÎó */
+      /* ³ÎÄꤷ¤¿Ê¸»úÎó (the confirmed string) */
       Vcanna_kakutei_string = make_string (buf, len);
       val = make_int (len);
-      /* ³ÎÄꤷ¤¿Ê¸»úÎó¤ÎÆɤߤξðÊó... */
+      /* ³ÎÄꤷ¤¿Ê¸»úÎó¤ÎÆɤߤξðÊó...
+        (info about the reading of the confirmed string) */
       Vcanna_kakutei_yomi = Vcanna_kakutei_romaji = Qnil;
       if (ks->info & KanjiYomiInfo)
        {
@@ -243,18 +247,21 @@ storeResults (unsigned char *buf, int len, jrKanjiStatus *ks)
            {
              int yomilen2;
 
-             Vcanna_kakutei_yomi = make_string (p, yomilen); /* Æɤߠ*/
+             Vcanna_kakutei_yomi = make_string (p, yomilen); /* Æɤß
+                                                                (reading) */
              p += yomilen + 1;
              yomilen2 = strlen (p);
              if (len + yomilen + yomilen2 + 2 < KEYTOSTRSIZE)
                {
-                 Vcanna_kakutei_romaji = make_string (p, yomilen2); /* ¥í¡¼¥Þ»ú */
+                 Vcanna_kakutei_romaji = make_string (p, yomilen2);
+                               /* ¥í¡¼¥Þ»ú (romanization) */
                }
            }
        }
 
 
-      /* ¸õÊäɽ¼¨¤Îʸ»úÎó¤Ç¤¹¡£*/
+      /* ¸õÊäɽ¼¨¤Îʸ»úÎó¤Ç¤¹¡£
+        (string for displaying candidate translations) */
       Vcanna_henkan_string = Qnil;
       if (ks->length >= 0)
        {
@@ -268,7 +275,8 @@ storeResults (unsigned char *buf, int len, jrKanjiStatus *ks)
            {
              canna_henkan_length = mule_strlen (ks->echoStr,ks->length);
              canna_henkan_revPos = mule_strlen (ks->echoStr,ks->revPos);
-             canna_henkan_revLen = mule_strlen (ks->echoStr+ks->revPos,ks->revLen);
+             canna_henkan_revLen = mule_strlen (ks->echoStr+ks->revPos,
+                                                ks->revLen);
            }
          else
            {
@@ -279,30 +287,32 @@ storeResults (unsigned char *buf, int len, jrKanjiStatus *ks)
 #endif /* CANNA_MULE */
        }
 
-      /* °ìÍ÷¤Î¾ðÊó */
+      /* °ìÍ÷¤Î¾ðÊó (information about the echo area menu) */
       Vcanna_ichiran_string = Qnil;
       if (ks->info & KanjiGLineInfo && ks->gline.length >= 0)
        {
-         Vcanna_ichiran_string = make_string (ks->gline.line, ks->gline.length);
+         Vcanna_ichiran_string = make_string (ks->gline.line,
+                                              ks->gline.length);
 #ifndef CANNA_MULE
          canna_ichiran_length = ks->gline.length;
          canna_ichiran_revPos = ks->gline.revPos;
          canna_ichiran_revLen = ks->gline.revLen;
 #else /* CANNA_MULE */
          count_char (ks->gline.line, ks->gline.length,
-                     ks->gline.revPos, ks->gline.revLen, &canna_ichiran_length,
+                     ks->gline.revPos, ks->gline.revLen,
+                     &canna_ichiran_length,
                      &canna_ichiran_revPos, &canna_ichiran_revLen);
 #endif /* CANNA_MULE */
        }
 
-      /* ¥â¡¼¥É¤Î¾ðÊó */
+      /* ¥â¡¼¥É¤Î¾ðÊó (mode information) */
       Vcanna_mode_string = Qnil;
       if (ks->info & KanjiModeInfo)
        {
          Vcanna_mode_string = make_string (ks->mode, strlen (ks->mode));
        }
 
-      /* ¤½¤Î¾¤Î¾ðÊó */
+      /* ¤½¤Î¾¤Î¾ðÊó (other information) */
       canna_empty_info = (ks->info & KanjiEmptyInfo) ? 1 : 0;
       canna_through_info = (ks->info & KanjiThroughInfo) ? 1 : 0;
     }
@@ -317,7 +327,7 @@ No separator will be used otherwise.
 */
        (num))
 {
-  int kugiri; /* Ê¸Àá¶èÀÚ¤ê¤ò¤¹¤ë¤«¡© */
+  int kugiri; /* Ê¸Àá¶èÀÚ¤ê¤ò¤¹¤ë¤«¡© (display clause separator?) */
 
   kugiri = NILP (num) ? 0 : 1;
 
@@ -348,7 +358,7 @@ If nil is specified for each arg, the default value will be used.
   int res;
   unsigned char **p, **q;
 
-  int kugiri; /* Ê¸Àá¶èÀÚ¤ê¤ò¤¹¤ë¤«¡© */
+  int kugiri; /* Ê¸Àá¶èÀÚ¤ê¤ò¤¹¤ë¤«¡© (display clause separator?) */
 
   IRCP_context = -1;
 
@@ -416,7 +426,7 @@ If nil is specified for each arg, the default value will be used.
     {
       val = Fcons (make_string ((unsigned char*) jrKanjiError,
                                strlen (jrKanjiError)), val);
-      /* ¥¤¥Ë¥·¥ã¥é¥¤¥º¤Ç¼ºÇÔ¤·¤¿¾ì¹ç¡£ */
+      /* ¥¤¥Ë¥·¥ã¥é¥¤¥º¤Ç¼ºÇÔ¤·¤¿¾ì¹ç¡£ (on initialization failure) */
       return Fcons (Qnil, val);
     }
   else
@@ -438,11 +448,14 @@ If nil is specified for each arg, the default value will be used.
 #ifndef CANNA_MULE
       jrKanjiControl (0, KC_INHIBITHANKAKUKANA, (char *) 1);
 #else
-      /* mule ¤À¤Ã¤¿¤éȾ³Ñ¥«¥¿¥«¥Ê¤â»È¤¨¤ë */
+      /* mule ¤À¤Ã¤¿¤éȾ³Ñ¥«¥¿¥«¥Ê¤â»È¤¨¤ë
+        (Mule can use half-width katakana) */
       if (canna_inhibit_hankakukana)
        jrKanjiControl (0, KC_INHIBITHANKAKUKANA, (char *) 1);
 #endif
-      jrKanjiControl (0, KC_YOMIINFO, (char *) 2); /* ¢¨£²: ¥í¡¼¥Þ»ú¤Þ¤ÇÊÖ¤¹ */
+      jrKanjiControl (0, KC_YOMIINFO, (char *) 2); /* ¢¨£²: ¥í¡¼¥Þ»ú¤Þ¤ÇÊÖ¤¹
+                                                     (*2: return to
+                                                     romanized form) */
       val = Fcons (Qnil, val);
       return Fcons (CANNA_mode_keys (), val);
     }
@@ -486,7 +499,7 @@ Register Kanji words into kana-to-kanji conversion dictionary.
 #endif
 
   CHECK_STRING (str);
-  ksv.buffer = (unsigned char *) buf;
+  ksv.buffer = (unsigned char *) key_buffer;
   ksv.bytes_buffer = KEYTOSTRSIZE;
 #ifndef CANNA_MULE
   ks.echoStr = XSTRING_DATA (str);
@@ -498,7 +511,7 @@ Register Kanji words into kana-to-kanji conversion dictionary.
 #endif /* CANNA_MULE */
   ksv.ks = &ks;
   len = jrKanjiControl (0, KC_DEFINEKANJI, (char *)&ksv);
-  val = storeResults (buf, ksv.val, ksv.ks);
+  val = storeResults (key_buffer, ksv.val, ksv.ks);
   return val;
 }
 
@@ -525,12 +538,12 @@ Change Japanese pre-edit mode.
 
   CHECK_INT (num);
 
-  ksv.buffer = (unsigned char *) buf;
+  ksv.buffer = (unsigned char *) key_buffer;
   ksv.bytes_buffer = KEYTOSTRSIZE;
   ksv.ks = &ks;
   ksv.val = XINT (num);
   jrKanjiControl (0, KC_CHANGEMODE,  (char *)&ksv);
-  val = storeResults (buf, ksv.val, ksv.ks);
+  val = storeResults (key_buffer, ksv.val, ksv.ks);
   return val;
 }
 
@@ -563,12 +576,12 @@ Store yomi characters as a YOMI of kana-to-kanji conversion.
 
   CHECK_STRING (yomi);
 #ifndef CANNA_MULE
-  strncpy (buf, XSTRING_DATA (yomi), XSTRING_LENGTH (yomi));
+  strncpy (key_buffer, XSTRING_DATA (yomi), XSTRING_LENGTH (yomi));
   ks.length = XSTRING_LENGTH (yomi);
-  buf[ks.length] = '\0';
+  key_buffer[ks.length] = '\0';
 #else /* CANNA_MULE */
-  m2c (XSTRING_DATA (yomi), XSTRING_LENGTH (yomi), buf);
-  ks.length = strlen (buf);
+  m2c (XSTRING_DATA (yomi), XSTRING_LENGTH (yomi), key_buffer);
+  ks.length = strlen (key_buffer);
 #endif /* CANNA_MULE */
 
   if (NILP (roma))
@@ -580,24 +593,24 @@ Store yomi characters as a YOMI of kana-to-kanji conversion.
       CHECK_STRING (roma);
 
 #ifndef CANNA_MULE
-      strncpy (buf + XSTRING_LENGTH (yomi) + 1, XSTRING_DATA (roma),
+      strncpy (key_buffer + XSTRING_LENGTH (yomi) + 1, XSTRING_DATA (roma),
               XSTRING_LENGTH (roma));
-      buf[XSTRING_LENGTH (yomi) + 1 + XSTRING_LENGTH (roma)] = '\0';
-      ks.mode = (unsigned char *)(buf + XSTRING_LENGTH (yomi) + 1);
+      key_buffer[XSTRING_LENGTH (yomi) + 1 + XSTRING_LENGTH (roma)] = '\0';
+      ks.mode = (unsigned char *)(key_buffer + XSTRING_LENGTH (yomi) + 1);
 #else /* CANNA_MULE */
-      ks.mode = (unsigned char *)(buf + ks.length + 1);
+      ks.mode = (unsigned char *)(key_buffer + ks.length + 1);
       m2c (XSTRING_DATA (roma), XSTRING_LENGTH (roma), ks.mode);
 #endif /* CANNA_MULE */
     }
 
-  ks.echoStr = (unsigned char *) buf;
-  ksv.buffer = (unsigned char *) buf; /* ÊÖÃÍÍÑ */
+  ks.echoStr = (unsigned char *) key_buffer;
+  ksv.buffer = (unsigned char *) key_buffer; /* ÊÖÃÍÍÑ (return value) */
   ksv.bytes_buffer = KEYTOSTRSIZE;
   ksv.ks = &ks;
 
   jrKanjiControl (0, KC_STOREYOMI, (char *)&ksv);
 
-  return storeResults (buf, ksv.val, ksv.ks);
+  return storeResults (key_buffer, ksv.val, ksv.ks);
 }
 
 DEFUN ("canna-do-function", Fcanna_do_function, 1, 2, 0, /*
@@ -613,20 +626,20 @@ Do specified function at current mode.
 
   if (NILP (ch))
     {
-      *buf = '@';
+      *key_buffer = '@';
     }
   else
     {
       CHECK_CHAR (ch);
-      *buf = XCHAR (ch);
+      *key_buffer = XCHAR (ch);
     }
 
-  ksv.buffer = (unsigned char *) buf;
+  ksv.buffer = (unsigned char *) key_buffer;
   ksv.bytes_buffer = KEYTOSTRSIZE;
   ksv.ks = &ks;
   ksv.val = XINT (num);
   jrKanjiControl (0, KC_DO, (char *) &ksv);
-  val = storeResults (buf, ksv.val, ksv.ks);
+  val = storeResults (key_buffer, ksv.val, ksv.ks);
   return val;
 }
 
@@ -642,12 +655,12 @@ Parse customize string.
   CHECK_STRING (str);
 
 #ifndef CANNA_MULE
-  strncpy (buf, XSTRING_DATA (str), XSTRING_LENGTH (str));
-  buf[XSTRING_LENGTH (str)] = '\0';
+  strncpy (key_buffer, XSTRING_DATA (str), XSTRING_LENGTH (str));
+  key_buffer[XSTRING_LENGTH (str)] = '\0';
 #else /* CANNA_MULE */
-  m2c (XSTRING_DATA (str), XSTRING_LENGTH (str), buf);
+  m2c (XSTRING_DATA (str), XSTRING_LENGTH (str), key_buffer);
 #endif /* CANNA_MULE */
-  p = (unsigned char**) buf;
+  p = (unsigned char**) key_buffer;
   n = jrKanjiControl (0, KC_PARSE,  (char *) &p);
   val = Qnil;
   while (n > 0)
@@ -853,7 +866,9 @@ End conversion.
     {
       return Qnil;
     }
-  RkEndBun (IRCP_context, 1); /* ³Ø½¬¤Ï¤¤¤Ä¤Ç¤â¹Ô¤Ã¤ÆÎɤ¤¤â¤Î¤Ê¤Î¤«¡© */
+  RkEndBun (IRCP_context, 1); /* ³Ø½¬¤Ï¤¤¤Ä¤Ç¤â¹Ô¤Ã¤ÆÎɤ¤¤â¤Î¤Ê¤Î¤«¡©
+                                (is it OK to invoke learning function
+                                at arbitrary times?) */
   return Qt;
 }
 
@@ -1779,8 +1794,72 @@ For canna
 static void
 c2mu (unsigned char *cp, int l, unsigned char *mp)
 {
-  unsigned char ch, *ep = cp+l;
+  unsigned char        ch, *ep = cp+l;
+#ifdef UTF2000
+  Emchar chr;
 
+  while ((cp < ep) && (ch = *cp++))
+    {
+      if (ch == ISO_CODE_SS2)
+       {
+         chr = (*cp++) + MIN_CHAR_HALFWIDTH_KATAKANA - 0x20;
+       }
+      else if (ch == ISO_CODE_SS3)
+       {
+         ch = *cp++;
+         chr = MAKE_CHAR (Vcharset_japanese_jisx0212,
+                          ch & 0x7f, (*cp++) & 0x7f);
+       }
+      else if (ch & 0x80)
+       {
+         chr = MAKE_CHAR (Vcharset_japanese_jisx0208,
+                          ch & 0x7f, (*cp++) & 0x7f);
+        }
+      else
+       {
+         chr = ch;
+       }
+      if ( chr <= 0x7f )
+        {
+         *mp++ = chr;
+       }
+      else if ( chr <= 0x7ff )
+        {
+         *mp++ = (chr >> 6) | 0xc0;
+         *mp++ = (chr & 0x3f) | 0x80;
+       }
+      else if ( chr <= 0xffff )
+        {
+         *mp++ =  (chr >> 12) | 0xe0;
+         *mp++ = ((chr >>  6) & 0x3f) | 0x80;
+         *mp++ =  (chr        & 0x3f) | 0x80;
+       }
+      else if ( chr <= 0x1fffff )
+       {
+         *mp++ =  (chr >> 18) | 0xf0;
+         *mp++ = ((chr >> 12) & 0x3f) | 0x80;
+         *mp++ = ((chr >>  6) & 0x3f) | 0x80;
+         *mp++ =  (chr        & 0x3f) | 0x80;
+       }
+      else if ( chr <= 0x3ffffff )
+       {
+         *mp++ =  (chr >> 24) | 0xf8;
+         *mp++ = ((chr >> 18) & 0x3f) | 0x80;
+         *mp++ = ((chr >> 12) & 0x3f) | 0x80;
+         *mp++ = ((chr >>  6) & 0x3f) | 0x80;
+         *mp++ =  (chr        & 0x3f) | 0x80;
+       }
+      else
+        {
+         *mp++ =  (chr >> 30) | 0xfc;
+         *mp++ = ((chr >> 24) & 0x3f) | 0x80;
+         *mp++ = ((chr >> 18) & 0x3f) | 0x80;
+         *mp++ = ((chr >> 12) & 0x3f) | 0x80;
+         *mp++ = ((chr >>  6) & 0x3f) | 0x80;
+         *mp++ =  (chr        & 0x3f) | 0x80;
+       }
+    }
+#else
   while ((cp < ep) && (ch = *cp))
     {
       if ((unsigned char) ch == ISO_CODE_SS2)
@@ -1801,6 +1880,7 @@ c2mu (unsigned char *cp, int l, unsigned char *mp)
        }
       *mp++ = *cp++;
     }
+#endif
   *mp = 0;
 }
 
@@ -1810,9 +1890,74 @@ static void
 m2c (unsigned char *mp, int l, unsigned char *cp)
 {
   unsigned char        ch, *ep = mp + l;
+#ifdef UTF2000
+  unsigned char fb;
+  int len;
+  Emchar chr;
+#endif
 
   while ((mp < ep) && (ch = *mp++))
     {
+#ifdef UTF2000
+      if ( ch >= 0xfc )
+       {
+         chr = (ch & 0x01);
+         len = 5;
+       }
+      else if ( ch >= 0xf8 )
+       {
+         chr = ch & 0x03;
+         len = 4;
+       }
+      else if ( ch >= 0xf0 )
+       {
+         chr = ch & 0x07;
+         len = 3;
+       }
+      else if ( ch >= 0xe0 )
+       {
+         chr = ch & 0x0f;
+         len = 2;
+       }
+      else if ( ch >= 0xc0 )
+       {
+         chr = ch & 0x1f;
+         len = 1;
+       }
+      else
+       {
+         chr = ch;
+         len = 0;
+       }
+      for( ; len > 0; len-- )
+       {
+         ch = *mp++;
+         chr = ( chr << 6 ) | ( ch & 0x3f );
+       }
+      if ( chr <= 0x7f )
+       *cp++ = chr;
+      else if ( chr <= MAX_CHAR_HALFWIDTH_KATAKANA )
+       {
+         *cp++ = ISO_CODE_SS2;
+         *cp++ = ( chr & 0x7f ) | 0x80;
+       }
+      else
+       {
+         Lisp_Object charset;
+         int c1, c2;
+
+         BREAKUP_CHAR (chr, charset, c1, c2);
+         fb = XCHARSET_FINAL (charset);
+         switch (fb)
+           {
+           case 'D':
+             *cp++ = ISO_CODE_SS3;
+           default:
+             *cp++ = c1;
+             *cp++ = c2;
+           }
+       }
+#else
       switch (ch)
        {
        case LEADING_BYTE_KATAKANA_JISX0201:
@@ -1829,6 +1974,7 @@ m2c (unsigned char *mp, int l, unsigned char *cp)
          *cp++ = ch;
          break;
        }
+#endif
     }
   *cp = 0;
 }