Reformatted.
[chise/xemacs-chise.git.1] / src / text-coding.c
index 3808dde..9b6e7dc 100644 (file)
@@ -1,7 +1,7 @@
 /* Code conversion functions.
    Copyright (C) 1991, 1995 Free Software Foundation, Inc.
    Copyright (C) 1995 Sun Microsystems, Inc.
-   Copyright (C) 1999,2000,2001,2002 MORIOKA Tomohiko
+   Copyright (C) 1999,2000,2001,2002,2003,2004 MORIOKA Tomohiko
 
 This file is part of XEmacs.
 
@@ -23,7 +23,7 @@ Boston, MA 02111-1307, USA.  */
 /* Synched up with: Mule 2.3.   Not in FSF. */
 
 /* Rewritten by Ben Wing <ben@xemacs.org>. */
-/* Rewritten by MORIOKA Tomohiko <tomo@m17n.org> for XEmacs UTF-2000. */
+/* Rewritten by MORIOKA Tomohiko <tomo@m17n.org> for XEmacs CHISE. */
 
 #include <config.h>
 #include "lisp.h"
@@ -2269,6 +2269,8 @@ do {                                      \
 
 #define DECODING_STREAM_DATA(stream) LSTREAM_TYPE_DATA (stream, decoding)
 
+#define ER_BUF_SIZE 24
+
 struct decoding_stream
 {
   /* Coding system that governs the conversion. */
@@ -2310,7 +2312,7 @@ struct decoding_stream
 #endif
 #ifdef UTF2000
   unsigned char er_counter;
-  unsigned char er_buf[16];
+  unsigned char er_buf[ER_BUF_SIZE];
 
   unsigned combined_char_count;
   Emchar combined_chars[16];
@@ -3293,6 +3295,7 @@ decode_add_er_char (struct decoding_stream *str, Emchar c,
            pat = ret;
          else
            continue;
+         pat = Fregexp_quote (pat);
 
          cell = Fcdr (cell);
          cell = Fcdr (cell);
@@ -3328,7 +3331,7 @@ decode_add_er_char (struct decoding_stream *str, Emchar c,
                         make_int (base)));
              Emchar chr
                = NILP (char_type)
-               ? DECODE_CHAR (ccs, code)
+               ? DECODE_CHAR (ccs, code, 0)
                : decode_builtin_char (ccs, code);
 
              DECODE_ADD_UCS_CHAR (chr, dst);
@@ -3340,11 +3343,11 @@ decode_add_er_char (struct decoding_stream *str, Emchar c,
                                string, Qnil, Qnil)))
        {
          int code
-           = XINT (Fstring_to_number
-                   (Fsubstring (string,
-                                Fmatch_beginning (make_int (1)),
-                                Fmatch_end (make_int (1))),
-                    make_int (16)));
+           = XUINT (Fstring_to_number
+                    (Fsubstring (string,
+                                 Fmatch_beginning (make_int (1)),
+                                 Fmatch_end (make_int (1))),
+                     make_int (16)));
 
          DECODE_ADD_UCS_CHAR (code, dst);
        }
@@ -3356,7 +3359,7 @@ decode_add_er_char (struct decoding_stream *str, Emchar c,
     decoded:
       str->er_counter = 0;
     }
-  else if ( (str->er_counter >= 16) || (c >= 0x7F) )
+  else if ( (str->er_counter >= ER_BUF_SIZE) || (c >= 0x7F) )
     {
       Dynarr_add_many (dst, str->er_buf, str->er_counter);
       str->er_counter = 0;
@@ -3375,7 +3378,7 @@ char_encode_as_entity_reference (Emchar ch, char* buf)
   Lisp_Object ccs;
   Lisp_Object char_type;
   int format_columns, idx;
-  char format[18];
+  char format[ER_BUF_SIZE];
 
   while (!NILP (rest))
     {
@@ -3394,20 +3397,21 @@ char_encode_as_entity_reference (Emchar ch, char* buf)
 
          if ( (code_point >= 0)
               && (NILP (char_type)
-                  || DECODE_CHAR (ccs, code_point) != ch) )
+                  || DECODE_CHAR (ccs, code_point, 0) != ch) )
            {
              Lisp_Object ret;
 
              cell = Fcdr (cell);
              ret = Fcar (cell);
-             if (STRINGP (ret) && ((idx = XSTRING_LENGTH (ret)) <= 6))
+             if ( STRINGP (ret) &&
+                  ( (idx = XSTRING_LENGTH (ret)) <= (ER_BUF_SIZE - 4) ) )
                {
                  format[0] = '&';
                  strncpy (&format[1], XSTRING_DATA (ret), idx);
                  idx++;
                }
              else
-               continue;
+               goto try_next;
 
              cell = Fcdr (cell);
              ret = Fcar (cell);
@@ -3415,12 +3419,15 @@ char_encode_as_entity_reference (Emchar ch, char* buf)
                {
                  format[idx++] = '%';
                  format_columns = XINT (ret);
-                 if ( (2 <= format_columns) && (format_columns <= 8) )
+                 if ( (2 <= format_columns) && (format_columns <= 8)
+                      && (idx + format_columns <= ER_BUF_SIZE - 1) )
                    {
                      format [idx++] = '0';
                      format [idx++] = '0' + format_columns;
                    }
                }
+             else
+               goto try_next;
 
              cell = Fcdr (cell);
              ret = Fcar (cell);
@@ -3431,7 +3438,7 @@ char_encode_as_entity_reference (Emchar ch, char* buf)
              else if (EQ (ret, QX))
                format [idx++] = 'X';
              else
-               continue;
+               goto try_next;
              format [idx++] = ';';
              format [idx++] = 0;
 
@@ -3439,6 +3446,7 @@ char_encode_as_entity_reference (Emchar ch, char* buf)
              return;
            }
        }
+    try_next:
       rest = Fcdr (rest);
     }
   sprintf (buf, "&MCS-%08X;", ch);
@@ -3474,7 +3482,8 @@ COMPOSE_ADD_CHAR (struct decoding_stream *str,
   else if (!CONSP (str->combining_table))
     {
       Lisp_Object ret
-       = Fget_char_attribute (make_char (character), Qcomposition, Qnil);
+       = Fchar_feature (make_char (character), Qcomposition, Qnil,
+                        Qnil, Qnil);
 
       if (NILP (ret))
        decode_add_er_char (str, character, dst);
@@ -3493,11 +3502,12 @@ COMPOSE_ADD_CHAR (struct decoding_stream *str,
       if (CHARP (ret))
        {
          Emchar char2 = XCHARVAL (ret);
-         ret = Fget_char_attribute (make_char (character), Qcomposition,
-                                    Qnil);
-         if (NILP (ret))
+         Lisp_Object ret2 = Fchar_feature (ret, Qcomposition, Qnil,
+                                           Qnil, Qnil);
+
+         if (NILP (ret2))
            {
-             decode_add_er_char (str, character, dst);
+             decode_add_er_char (str, char2, dst);
              str->combined_char_count = 0;
              str->combining_table = Qnil;
            }
@@ -3505,13 +3515,23 @@ COMPOSE_ADD_CHAR (struct decoding_stream *str,
            {
              str->combined_chars[0] = char2;
              str->combined_char_count = 1;
-             str->combining_table = ret;
+             str->combining_table = ret2;
            }
        }
       else
        {
+         ret = Fchar_feature (make_char (character), Qcomposition, Qnil,
+                              Qnil, Qnil);
+
          COMPOSE_FLUSH_CHARS (str, dst);
-         decode_add_er_char (str, character, dst);
+         if (NILP (ret))
+           decode_add_er_char (str, character, dst);
+         else
+           {
+             str->combined_chars[0] = character;
+             str->combined_char_count = 1;
+             str->combining_table = ret;
+           }
        }
     }
 }
@@ -3940,10 +3960,11 @@ decode_coding_big5 (Lstream *decoding, const Extbyte *src,
            {
 #ifdef UTF2000
              int code_point = (cpos << 8) | c;
-             Emchar char_id = decode_defined_char (ccs, code_point);
+             Emchar char_id = decode_defined_char (ccs, code_point, 0);
 
              if (char_id < 0)
-               char_id = DECODE_CHAR (Vcharset_chinese_big5, code_point);
+               char_id
+                 = DECODE_CHAR (Vcharset_chinese_big5, code_point, 0);
              DECODE_ADD_UCS_CHAR (char_id, dst);
 #else
              unsigned char b1, b2, b3;
@@ -4524,13 +4545,13 @@ decode_coding_utf8 (Lstream *decoding, const Extbyte *src,
 
              if (!NILP (ccs))
                {
-                 char_id = decode_defined_char (ccs, cpos);
+                 char_id = decode_defined_char (ccs, cpos, 0);
 
                  if (char_id < 0)
                    char_id = cpos;
                }
              else
-               ccs = char_id;
+               char_id = cpos;
              COMPOSE_ADD_CHAR (str, char_id, dst);
              cpos = 0;
              counter = 0;
@@ -4589,21 +4610,23 @@ char_encode_utf8 (struct encoding_stream *str, Emchar ch,
        = CODING_SYSTEM_ISO2022_INITIAL_CHARSET (str->codesys, 0);
       int code_point = charset_code_point (ucs_ccs, ch, 0);
 
-      if ( (code_point < 0) || (code_point > 0x10FFFF) )
+      if ( (code_point < 0) || (code_point > 0xEFFFF) )
        {
          Lisp_Object map
            = CODING_SYSTEM_ISO2022_INITIAL_CHARSET (str->codesys, 1);
          Lisp_Object ret;
 
          if ( !NILP (map)
-              && INTP (ret = Fget_char_attribute (make_char (ch),
-                                                  map, Qnil)) )
+              && INTP (ret = Fchar_feature (make_char (ch),
+                                            map, Qnil,
+                                            Qnil, Qnil)) )
            code_point = XINT (ret);
          else if ( !NILP (map =
                           CODING_SYSTEM_ISO2022_INITIAL_CHARSET
                           (str->codesys, 2))
-                   && INTP (ret = Fget_char_attribute (make_char (ch),
-                                                       map, Qnil)) )
+                   && INTP (ret = Fchar_feature (make_char (ch),
+                                                 map, Qnil,
+                                                 Qnil, Qnil)) )
            code_point = XINT (ret);
          else if (CODING_SYSTEM_USE_ENTITY_REFERENCE (str->codesys))
            {
@@ -5685,7 +5708,7 @@ decode_coding_iso2022 (Lstream *decoding, const Extbyte *src,
                  COMPOSE_ADD_CHAR (str,
                                    DECODE_CHAR (charset,
                                                 ((cpos & 0x7F7F7F) << 8)
-                                                | (c & 0x7F)),
+                                                | (c & 0x7F), 0),
                                    dst);
                  cpos = 0;
                  counter = 0;