Stage 3: Consider a possibility that an Anudatta follows a Halant.
[m17n/m17n-db.git] / FLT / DEVA-OTF.flt
index a4d71ad..71913a9 100644 (file)
@@ -1,35 +1,17 @@
 ;; DEVA-OTF.flt -- Font Layout Table for Devanagari OpenType font
-;; Copyright (C) 2003, 2004, 2007
-;;   National Institute of Advanced Industrial Science and Technology (AIST)
-;;   Registration Number H15PRO112
-
-;; This file is part of the m17n database; a sub-part of the m17n
-;; library.
+;; Copyright (C) 2003, 2004, 2007, 2008  AIST (H15PRO112)
+;; See the end for copying conditions.
 
-;; The m17n library is free software; you can redistribute it and/or
-;; modify it under the terms of the GNU Lesser General Public License
-;; as published by the Free Software Foundation; either version 2.1 of
-;; the License, or (at your option) any later version.
-
-;; The m17n library is distributed in the hope that it will be useful,
-;; but WITHOUT ANY WARRANTY; without even the implied warranty of
-;; MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
-;; Lesser General Public License for more details.
-
-;; You should have received a copy of the GNU Lesser General Public
-;; License along with the m17n library; if not, write to the Free
-;; Software Foundation, Inc., 51 Franklin Street, Fifth Floor,
-;; Boston, MA 02110-1301, USA.
+(font layouter deva-otf nil
+      (font (nil nil unicode-bmp :otf=deva=rphf)))
 
 ;;; <li> DEVA-OTF.flt
 ;;;
 ;;; For Devanagari OpenType fonts to draw the Devanagari script.
 
-(font layouter deva-otf nil
-      (font (nil nil unicode-bmp :otf=deva=rphf)))
-
 (category
- ;; C: consonant (except for R)
+ ;; X: generic
+ ;; C: consonant (except for RA)
  ;; R: consonant RA
  ;; n: NUKTA
  ;; H: HALANT
  ;; S: stress sign / accent (above)
  ;; s: stress sign / accent (below)
  ;; V: independent vowel
+ ;; Z: internal use
  ;; N: ZWNJ
  ;; J: ZWJ
- ;; X: generic
- (#x0900 #x097F        ?X)                     ; generic
- (#x0901       ?A)                     ; SIGN CANDRABINDU
- (#x0902       ?A)                     ; SIGN ANUSVARA
- (#x0903       ?a)                     ; SIGN VISARGA
- (#x0904 #x0914        ?V)                     ; LETTER SHORT A .. AU
- (#x0915 #x0939        ?C)                     ; LETTER KA .. HA
- (#x0930       ?R)                     ; LETTER RA
- (#x093C       ?n)                     ; SIGN NUKTA
- (#x093E       ?p)                     ; VOWEL SIGN AA
- (#x093F       ?m)                     ; VOWEL SIGN I
- (#x0940       ?p)                     ; VOWEL SIGN II
- (#x0941 #x0944        ?b)                     ; VOWEL SIGN UU .. VOCALIC RR
- (#x0945 #x0948        ?u)                     ; VOWEL SIGN CANDRA E .. AI
- (#x0949 #x094C        ?p)                     ; VOWEL SIGN CANDRA O .. AU
- (#x094D       ?H)                     ; SIGN VIRAMA
- (#x0951       ?S)                     ; STRESS SIGN UDATTA
- (#x0952       ?s)                     ; STRESS SIGN ANUDATTA
- (#x0953 #x0954        ?S)                     ; GRAVE ACCENT .. ACUTE ACCENT
- (#x0958 #x095F        ?C)                     ; LETTER QA .. YYA
- (#x0960 #x0961        ?V)                     ; LETTER VOCALIC RR  .. VOCALIC LL
- (#x0962 #x0963        ?b)                     ; VOWEL SIGN VOCALIC L .. VOCALIC LL
- (#x097B #x097C        ?C)                     ; LETTER GGA .. JJA
- (#x097E #x097F        ?C)                     ; LETTER DDDA .. BBA
- (#x200C       ?N)                     ; ZWNJ
- (#x200D       ?J)                     ; ZWJ
+ (0x0900 0x097F        ?X)                     ; generic
+ (0x0900       ?Z)                     ; internal use
+ (0x0901 0x0902        ?A)                     ; SIGN CANDRABINDU .. ANUSVARA
+ (0x0903       ?a)                     ; SIGN VISARGA
+ (0x0904 0x0914        ?V)                     ; LETTER SHORT A .. AU
+ (0x0915 0x0939        ?C)                     ; LETTER KA .. HA
+ (0x0930       ?R)                     ; LETTER RA
+ (0x093C       ?n)                     ; SIGN NUKTA
+ (0x093E       ?p)                     ; VOWEL SIGN AA
+ (0x093F       ?m)                     ; VOWEL SIGN I
+ (0x0940       ?p)                     ; VOWEL SIGN II
+ (0x0941 0x0944        ?b)                     ; VOWEL SIGN UU .. VOCALIC RR
+ (0x0945 0x0948        ?u)                     ; VOWEL SIGN CANDRA E .. AI
+ (0x0949 0x094C        ?p)                     ; VOWEL SIGN CANDRA O .. AU
+ (0x094D       ?H)                     ; SIGN VIRAMA
+ (0x0951       ?S)                     ; STRESS SIGN UDATTA
+ (0x0952       ?s)                     ; STRESS SIGN ANUDATTA
+ (0x0953 0x0954        ?S)                     ; GRAVE ACCENT .. ACUTE ACCENT
+ (0x0958 0x095F        ?C)                     ; LETTER QA .. YYA
+ (0x0960 0x0961        ?V)                     ; LETTER VOCALIC RR  .. VOCALIC LL
+ (0x0962 0x0963        ?b)                     ; VOWEL SIGN VOCALIC L .. VOCALIC LL
+ (0x0972       ?V)                     ; LETTER CANDRA A
+ (0x097B 0x097C        ?C)                     ; LETTER GGA .. JJA
+ (0x097E 0x097F        ?C)                     ; LETTER DDDA .. BBA
+ (0x200C       ?N)                     ; ZWNJ
+ (0x200D       ?J)                     ; ZWJ
  )
 
-;; Reordering
+;; Stage 0
+;; Compose consonant and nukta
+(generator
+ (0
+  (cond
+   ((0x0928 0x093C) 0x0929)
+   ((0x0930 0x093C) 0x0931)
+   ((0x0933 0x093C) 0x0934)
+   ((0x0915 0x093C) 0x0958)
+   ((0x0916 0x093C) 0x0959)
+   ((0x0917 0x093C) 0x095A)
+   ((0x091C 0x093C) 0x095B)
+   ((0x0921 0x093C) 0x095C)
+   ((0x0922 0x093C) 0x095D)
+   ((0x092B 0x093C) 0x095E)
+   ((0x092F 0x093C) 0x095F)
+   ("." =))
+  *))
+
+;; Stage 1
+;; Syllable identification and eordering.
 (generator
  (0
   (cond
    ;; A syllable containing a vowel sign.
-   ;;1    23                45   6   7      89   A    BC   D
-   ("(RH)?(([CR]n?H)*[CR]n?)((m)|(b)|([up]))((A)|(a))?((S)|(s))?"
-    < |
-    (5 =) (2 move-h) (6 =) (13 =) (7 =) (1 otf:deva=rphf+) (9 =) (12 =) (10 =)
-    | >)
+   ;;1      2            34   5   6     7   8   9   10
+   ("([CR]n?(HJ?[CR]n?)*)((m)|(b)|(u|p))(A)?(a)?(S)?(s)?"
+    < | (4 =) (1 move-h) (5 =) (10 =) (6 =) (1 reph) (7 =) (9 =) (8 =) | >)
 
    ;; A syllable without vowel signs but with a vowel modifier.
-   ;;1    23                45   6   78   9
-   ("(RH)?(([CR]n?H)*[CR]n?)((A)|(a))((S)|(s))?"
-    < | (2 move-h) (9 =) (1 otf:deva=rphf+) (5 =) (8 =) (6 =) | >)
+   ;;1      2            34   5   6   7
+   ("([CR]n?(HJ?[CR]n?)*)((A)|(a))(S)?(s)?"
+    < | (1 move-h) (7 =) (1 reph) (4 =) (6 =) (5 =) | >)
 
    ;; No vowel signs, No vowel modifiers, but with a stress sign or an accent.
-   ;;1    23                45   6  
-   ("(RH)?(([CR]n?H)*[CR]n?)((S)|(s))"
-    < | (2 move-h) (6 =)(1 otf:deva=rphf+) (5 =) | >)
-
-   ;; A special case.
-   ("(RH)J"
-    < | (1 otf:deva=half+) | >)
+   ;;1      2            34   5
+   ("([CR]n?(HJ?[CR]n?)*)((S)|(s))"
+    < | (1 move-h) (5 =) (1 reph) (4 =) | >)
 
-   ;; Forced half form.  Do not move halant.
-   ;;1    23
-   ("(RH)?(([CR]n?H)+)J"
-    < | (2 = *) (1 otf:deva=rphf+) | >)
+   ;; No marks at all.  Need further anylysis.
+   ("[CR]n?(HJ?[CR]n?)*(H(N|J)?)?"
+    < | (0 nomarks) | >)
 
-   ;; If a syllable ends with a halant, or a halant and a ZWNJ, mark
-   ;; this syllable for the special handling in the later stages.
-   ;;1    23                4   5
-   ("(RH)?(([CR]n?H)*[CR]n?)(H)?(N)?"
-    < | (4 0x200C) (2 move-h) (1 otf:deva=rphf+) (4 =) | >)
+   ;; This combination is used in Marathi.
+   ((0x0905 0x0945)
+    < | = = | >)
 
    ;; A syllable starting with an independent vowel.
-   ;;1  23   4    56   7
-   ("(V)((A)|(a))?((S)|(s))?"
-    < | (1 =) (7 =) (3 =) (6 =) (4 =) | >)
+   ;;1  2   3   4   5
+   ("(V)(A)?(a)?(S)?(s)?"
+    < | (1 =) (5 =) (2 =) (4 =) (3 =) | >)
 
    ("." =))
   *)
 
- ;; Move the halant that follows the base consonant to the end.
  (move-h
   (cond
-   ;;12         3     4  56
-   ("(([CR]n?H)*(Cn?))(H)((RH)*R)$"
-    (1 = *) (5 = *) (4 =))
-   ;;1  2  34
-   ("(R)(H)((RH)*R)$"
-    (1 =) (3 = *) (2 =))
-   (".+" = *))))
-
-;; Language forms
-;; If a syllable is marked, render the final halant explicitly.
-;; Do not apply blwf nor half to the initial RA.
+   ;; Starting with an eyelash-RA, which remains there.
+   ("(RHJ.+)(H)(R)$"
+    (1 = *) (3 =) (2 =))
+   ("RHJ.*"
+    = *)
+
+   ;; Starting with a reph, which is removed.
+   ("RH(.+)(H)(R)$"
+    (1 = *) (3 =) (2 =))
+   ("RH(.+)"
+    (1 = *))
+
+   ("(.+)(H)(R)$"
+    (1 = *) (3 =) (2 =))
+   (".+"
+    = *)))
+
+ (reph
+  (cond
+   ("RHJ.*")
+   ("(RH).*"
+    (1 otf:deva=rphf+))))
+
+ (del-reph
+  (cond
+   ("RHJ.*"
+    = *)
+   ("RH(.*)"
+    (1 = *))
+   (".+"
+    = *)))
+
+ (nomarks
+  (cond
+   ;; Ending with a Halant and a ZWJ.
+   (".+HJ$"
+    (0 del-reph) (0 reph))
+
+   ;; Ending with a Halant and an optional ZWNJ.  Add ZWNJ explicitly.
+   ("(.+)(H)N?$"
+    (1 move-h) (1 reph) (2 =) 0x200C)
+
+   ;; Ending with a consonant.
+   (".+"
+    (0 move-h) (0 reph))))
+ )
+
+;; Stage 2
+;; Apply GSUB features.  If a syllable ends with a halant and a ZWNJ,
+;; render the final halant explicitly.
 (generator
  (0
   (cond
-   (" N(R)([^ ]*)(H) "
-    | (1 =) (2 gsub1) (3 =) |)
-   (" (R)([^ ]*) "
-    | (1 =) (2 gsub1) |)
-   (" N([^ ]+)(H) "
-    | (1 gsub1) (2 =) |)
+   ;; Allow eyelash RA to appear at the beginning.
+   (" (RH)J([^ ]+)(H)N "
+    | (1 otf:deva=half+) (2 gsub) (3 =) |)
+   (" (m)?(RH)J([^ ]*) "
+    | (1 =) (2 otf:deva=half+) (3 gsub) |)
+
+   ;; Avoid applying 'blwf' and 'half' to the "RH" at the beginning;
+   (" (R)([^ ]*)(H)N "
+    | (1 =) (2 gsub) (3 =) |)
+   (" (m?R)([^ ]*) "
+    | (1 otf:deva=pres+) (2 gsub) |)
+
+   (" ([^ ]+)(H)N "
+    | (1 gsub) (2 =) |)
    (" ([^ ]+) "
-    | (1 gsub1) |)
+    | (1 gsub) |)
+
    ("." =))
   *)
 
- (gsub1
-  otf:deva=nukt,akhn,blwf,half,vatu+))
+ ;; Dispite Rule R5a (The Unicode Standard 5.0, p.305), we use the
+ ;; below form to depict the sequence "RHJ" at non-initial positions.
+ ;; This is to avoid interpreting the sequence "CHRHJ" as "CH" +
+ ;; "RHJ".  It should be parsed as "CHR" + "HJ".
+ (gsub
+  (cond
+   ("([^J]*)J(.*)"
+    (1 otf:deva=nukt,akhn,blwf,half,vatu,pres+) (2 gsub))
+   (".*"
+    otf:deva=nukt,akhn,blwf,half,vatu,pres+)))
+ )
 
-;; Other OTF features
+;; Stage 3
+;; Apply other features.
 (generator
  (0
   (cond
    (" ([^ ]+) "
-    (1 otf:deva=pres,abvs,blws,psts,haln))
+    (1 otf:deva=abvs,blws,psts,haln+abvm,blwm,dist))
    ("."
-    \[ otf:deva=+ \] ))
+    [ = ]))
   *))
 
+;; Copyright (C) 2003, 2004, 2007, 2008
+;;   National Institute of Advanced Industrial Science and Technology (AIST)
+;;   Registration Number H15PRO112
+
+;; This file is part of the m17n database; a sub-part of the m17n
+;; library.
+
+;; The m17n library is free software; you can redistribute it and/or
+;; modify it under the terms of the GNU Lesser General Public License
+;; as published by the Free Software Foundation; either version 2.1 of
+;; the License, or (at your option) any later version.
+
+;; The m17n library is distributed in the hope that it will be useful,
+;; but WITHOUT ANY WARRANTY; without even the implied warranty of
+;; MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+;; Lesser General Public License for more details.
+
+;; You should have received a copy of the GNU Lesser General Public
+;; License along with the m17n library; if not, write to the Free
+;; Software Foundation, Inc., 51 Franklin Street, Fifth Floor,
+;; Boston, MA 02110-1301, USA.
+
 ;; Local Variables:
 ;; mode: emacs-lisp
 ;; End: