XEmacs 21.2.30 "Hygeia".
[chise/xemacs-chise.git.1] / info / internals.info-2
1 This is ../info/internals.info, produced by makeinfo version 4.0 from
2 internals/internals.texi.
3
4 INFO-DIR-SECTION XEmacs Editor
5 START-INFO-DIR-ENTRY
6 * Internals: (internals).       XEmacs Internals Manual.
7 END-INFO-DIR-ENTRY
8
9    Copyright (C) 1992 - 1996 Ben Wing.  Copyright (C) 1996, 1997 Sun
10 Microsystems.  Copyright (C) 1994 - 1998 Free Software Foundation.
11 Copyright (C) 1994, 1995 Board of Trustees, University of Illinois.
12
13    Permission is granted to make and distribute verbatim copies of this
14 manual provided the copyright notice and this permission notice are
15 preserved on all copies.
16
17    Permission is granted to copy and distribute modified versions of
18 this manual under the conditions for verbatim copying, provided that the
19 entire resulting derived work is distributed under the terms of a
20 permission notice identical to this one.
21
22    Permission is granted to copy and distribute translations of this
23 manual into another language, under the above conditions for modified
24 versions, except that this permission notice may be stated in a
25 translation approved by the Foundation.
26
27    Permission is granted to copy and distribute modified versions of
28 this manual under the conditions for verbatim copying, provided also
29 that the section entitled "GNU General Public License" is included
30 exactly as in the original, and provided that the entire resulting
31 derived work is distributed under the terms of a permission notice
32 identical to this one.
33
34    Permission is granted to copy and distribute translations of this
35 manual into another language, under the above conditions for modified
36 versions, except that the section entitled "GNU General Public License"
37 may be included in a translation approved by the Free Software
38 Foundation instead of in the original English.
39
40 \1f
41 File: internals.info,  Node: The XEmacs Object System (Abstractly Speaking),  Next: How Lisp Objects Are Represented in C,  Prev: XEmacs From the Inside,  Up: Top
42
43 The XEmacs Object System (Abstractly Speaking)
44 **********************************************
45
46    At the heart of the Lisp interpreter is its management of objects.
47 XEmacs Lisp contains many built-in objects, some of which are simple
48 and others of which can be very complex; and some of which are very
49 common, and others of which are rarely used or are only used
50 internally. (Since the Lisp allocation system, with its automatic
51 reclamation of unused storage, is so much more convenient than
52 `malloc()' and `free()', the C code makes extensive use of it in its
53 internal operations.)
54
55    The basic Lisp objects are
56
57 `integer'
58      28 or 31 bits of precision, or 60 or 63 bits on 64-bit machines;
59      the reason for this is described below when the internal Lisp
60      object representation is described.
61
62 `float'
63      Same precision as a double in C.
64
65 `cons'
66      A simple container for two Lisp objects, used to implement lists
67      and most other data structures in Lisp.
68
69 `char'
70      An object representing a single character of text; chars behave
71      like integers in many ways but are logically considered text
72      rather than numbers and have a different read syntax. (the read
73      syntax for a char contains the char itself or some textual
74      encoding of it--for example, a Japanese Kanji character might be
75      encoded as `^[$(B#&^[(B' using the ISO-2022 encoding
76      standard--rather than the numerical representation of the char;
77      this way, if the mapping between chars and integers changes, which
78      is quite possible for Kanji characters and other extended
79      characters, the same character will still be created.  Note that
80      some primitives confuse chars and integers.  The worst culprit is
81      `eq', which makes a special exception and considers a char to be
82      `eq' to its integer equivalent, even though in no other case are
83      objects of two different types `eq'.  The reason for this
84      monstrosity is compatibility with existing code; the separation of
85      char from integer came fairly recently.)
86
87 `symbol'
88      An object that contains Lisp objects and is referred to by name;
89      symbols are used to implement variables and named functions and to
90      provide the equivalent of preprocessor constants in C.
91
92 `vector'
93      A one-dimensional array of Lisp objects providing constant-time
94      access to any of the objects; access to an arbitrary object in a
95      vector is faster than for lists, but the operations that can be
96      done on a vector are more limited.
97
98 `string'
99      Self-explanatory; behaves much like a vector of chars but has a
100      different read syntax and is stored and manipulated more compactly.
101
102 `bit-vector'
103      A vector of bits; similar to a string in spirit.
104
105 `compiled-function'
106      An object containing compiled Lisp code, known as "byte code".
107
108 `subr'
109      A Lisp primitive, i.e. a Lisp-callable function implemented in C.
110
111    Note that there is no basic "function" type, as in more powerful
112 versions of Lisp (where it's called a "closure").  XEmacs Lisp does not
113 provide the closure semantics implemented by Common Lisp and Scheme.
114 The guts of a function in XEmacs Lisp are represented in one of four
115 ways: a symbol specifying another function (when one function is an
116 alias for another), a list (whose first element must be the symbol
117 `lambda') containing the function's source code, a compiled-function
118 object, or a subr object. (In other words, given a symbol specifying
119 the name of a function, calling `symbol-function' to retrieve the
120 contents of the symbol's function cell will return one of these types
121 of objects.)
122
123    XEmacs Lisp also contains numerous specialized objects used to
124 implement the editor:
125
126 `buffer'
127      Stores text like a string, but is optimized for insertion and
128      deletion and has certain other properties that can be set.
129
130 `frame'
131      An object with various properties whose displayable representation
132      is a "window" in window-system parlance.
133
134 `window'
135      A section of a frame that displays the contents of a buffer; often
136      called a "pane" in window-system parlance.
137
138 `window-configuration'
139      An object that represents a saved configuration of windows in a
140      frame.
141
142 `device'
143      An object representing a screen on which frames can be displayed;
144      equivalent to a "display" in the X Window System and a "TTY" in
145      character mode.
146
147 `face'
148      An object specifying the appearance of text or graphics; it has
149      properties such as font, foreground color, and background color.
150
151 `marker'
152      An object that refers to a particular position in a buffer and
153      moves around as text is inserted and deleted to stay in the same
154      relative position to the text around it.
155
156 `extent'
157      Similar to a marker but covers a range of text in a buffer; can
158      also specify properties of the text, such as a face in which the
159      text is to be displayed, whether the text is invisible or
160      unmodifiable, etc.
161
162 `event'
163      Generated by calling `next-event' and contains information
164      describing a particular event happening in the system, such as the
165      user pressing a key or a process terminating.
166
167 `keymap'
168      An object that maps from events (described using lists, vectors,
169      and symbols rather than with an event object because the mapping
170      is for classes of events, rather than individual events) to
171      functions to execute or other events to recursively look up; the
172      functions are described by name, using a symbol, or using lists to
173      specify the function's code.
174
175 `glyph'
176      An object that describes the appearance of an image (e.g.  pixmap)
177      on the screen; glyphs can be attached to the beginning or end of
178      extents and in some future version of XEmacs will be able to be
179      inserted directly into a buffer.
180
181 `process'
182      An object that describes a connection to an externally-running
183      process.
184
185    There are some other, less-commonly-encountered general objects:
186
187 `hash-table'
188      An object that maps from an arbitrary Lisp object to another
189      arbitrary Lisp object, using hashing for fast lookup.
190
191 `obarray'
192      A limited form of hash-table that maps from strings to symbols;
193      obarrays are used to look up a symbol given its name and are not
194      actually their own object type but are kludgily represented using
195      vectors with hidden fields (this representation derives from GNU
196      Emacs).
197
198 `specifier'
199      A complex object used to specify the value of a display property; a
200      default value is given and different values can be specified for
201      particular frames, buffers, windows, devices, or classes of device.
202
203 `char-table'
204      An object that maps from chars or classes of chars to arbitrary
205      Lisp objects; internally char tables use a complex nested-vector
206      representation that is optimized to the way characters are
207      represented as integers.
208
209 `range-table'
210      An object that maps from ranges of integers to arbitrary Lisp
211      objects.
212
213    And some strange special-purpose objects:
214
215 `charset'
216 `coding-system'
217      Objects used when MULE, or multi-lingual/Asian-language, support is
218      enabled.
219
220 `color-instance'
221 `font-instance'
222 `image-instance'
223      An object that encapsulates a window-system resource; instances are
224      mostly used internally but are exposed on the Lisp level for
225      cleanness of the specifier model and because it's occasionally
226      useful for Lisp program to create or query the properties of
227      instances.
228
229 `subwindow'
230      An object that encapsulate a "subwindow" resource, i.e. a
231      window-system child window that is drawn into by an external
232      process; this object should be integrated into the glyph system
233      but isn't yet, and may change form when this is done.
234
235 `tooltalk-message'
236 `tooltalk-pattern'
237      Objects that represent resources used in the ToolTalk interprocess
238      communication protocol.
239
240 `toolbar-button'
241      An object used in conjunction with the toolbar.
242
243    And objects that are only used internally:
244
245 `opaque'
246      A generic object for encapsulating arbitrary memory; this allows
247      you the generality of `malloc()' and the convenience of the Lisp
248      object system.
249
250 `lstream'
251      A buffering I/O stream, used to provide a unified interface to
252      anything that can accept output or provide input, such as a file
253      descriptor, a stdio stream, a chunk of memory, a Lisp buffer, a
254      Lisp string, etc.; it's a Lisp object to make its memory
255      management more convenient.
256
257 `char-table-entry'
258      Subsidiary objects in the internal char-table representation.
259
260 `extent-auxiliary'
261 `menubar-data'
262 `toolbar-data'
263      Various special-purpose objects that are basically just used to
264      encapsulate memory for particular subsystems, similar to the more
265      general "opaque" object.
266
267 `symbol-value-forward'
268 `symbol-value-buffer-local'
269 `symbol-value-varalias'
270 `symbol-value-lisp-magic'
271      Special internal-only objects that are placed in the value cell of
272      a symbol to indicate that there is something special with this
273      variable - e.g. it has no value, it mirrors another variable, or
274      it mirrors some C variable; there is really only one kind of
275      object, called a "symbol-value-magic", but it is sort-of halfway
276      kludged into semi-different object types.
277
278    Some types of objects are "permanent", meaning that once created,
279 they do not disappear until explicitly destroyed, using a function such
280 as `delete-buffer', `delete-window', `delete-frame', etc.  Others will
281 disappear once they are not longer used, through the garbage collection
282 mechanism.  Buffers, frames, windows, devices, and processes are among
283 the objects that are permanent.  Note that some objects can go both
284 ways: Faces can be created either way; extents are normally permanent,
285 but detached extents (extents not referring to any text, as happens to
286 some extents when the text they are referring to is deleted) are
287 temporary.  Note that some permanent objects, such as faces and coding
288 systems, cannot be deleted.  Note also that windows are unique in that
289 they can be _undeleted_ after having previously been deleted. (This
290 happens as a result of restoring a window configuration.)
291
292    Note that many types of objects have a "read syntax", i.e. a way of
293 specifying an object of that type in Lisp code.  When you load a Lisp
294 file, or type in code to be evaluated, what really happens is that the
295 function `read' is called, which reads some text and creates an object
296 based on the syntax of that text; then `eval' is called, which possibly
297 does something special; then this loop repeats until there's no more
298 text to read. (`eval' only actually does something special with
299 symbols, which causes the symbol's value to be returned, similar to
300 referencing a variable; and with conses [i.e. lists], which cause a
301 function invocation.  All other values are returned unchanged.)
302
303    The read syntax
304
305      17297
306
307    converts to an integer whose value is 17297.
308
309      1.983e-4
310
311    converts to a float whose value is 1.983e-4, or .0001983.
312
313      ?b
314
315    converts to a char that represents the lowercase letter b.
316
317      ?^[$(B#&^[(B
318
319    (where `^[' actually is an `ESC' character) converts to a particular
320 Kanji character when using an ISO2022-based coding system for input.
321 (To decode this goo: `ESC' begins an escape sequence; `ESC $ (' is a
322 class of escape sequences meaning "switch to a 94x94 character set";
323 `ESC $ ( B' means "switch to Japanese Kanji"; `#' and `&' collectively
324 index into a 94-by-94 array of characters [subtract 33 from the ASCII
325 value of each character to get the corresponding index]; `ESC (' is a
326 class of escape sequences meaning "switch to a 94 character set"; `ESC
327 (B' means "switch to US ASCII".  It is a coincidence that the letter
328 `B' is used to denote both Japanese Kanji and US ASCII.  If the first
329 `B' were replaced with an `A', you'd be requesting a Chinese Hanzi
330 character from the GB2312 character set.)
331
332      "foobar"
333
334    converts to a string.
335
336      foobar
337
338    converts to a symbol whose name is `"foobar"'.  This is done by
339 looking up the string equivalent in the global variable `obarray',
340 whose contents should be an obarray.  If no symbol is found, a new
341 symbol with the name `"foobar"' is automatically created and added to
342 `obarray'; this process is called "interning" the symbol.
343
344      (foo . bar)
345
346    converts to a cons cell containing the symbols `foo' and `bar'.
347
348      (1 a 2.5)
349
350    converts to a three-element list containing the specified objects
351 (note that a list is actually a set of nested conses; see the XEmacs
352 Lisp Reference).
353
354      [1 a 2.5]
355
356    converts to a three-element vector containing the specified objects.
357
358      #[... ... ... ...]
359
360    converts to a compiled-function object (the actual contents are not
361 shown since they are not relevant here; look at a file that ends with
362 `.elc' for examples).
363
364      #*01110110
365
366    converts to a bit-vector.
367
368      #s(hash-table ... ...)
369
370    converts to a hash table (the actual contents are not shown).
371
372      #s(range-table ... ...)
373
374    converts to a range table (the actual contents are not shown).
375
376      #s(char-table ... ...)
377
378    converts to a char table (the actual contents are not shown).
379
380    Note that the `#s()' syntax is the general syntax for structures,
381 which are not really implemented in XEmacs Lisp but should be.
382
383    When an object is printed out (using `print' or a related function),
384 the read syntax is used, so that the same object can be read in again.
385
386    The other objects do not have read syntaxes, usually because it does
387 not really make sense to create them in this fashion (i.e.  processes,
388 where it doesn't make sense to have a subprocess created as a side
389 effect of reading some Lisp code), or because they can't be created at
390 all (e.g. subrs).  Permanent objects, as a rule, do not have a read
391 syntax; nor do most complex objects, which contain too much state to be
392 easily initialized through a read syntax.
393
394 \1f
395 File: internals.info,  Node: How Lisp Objects Are Represented in C,  Next: Rules When Writing New C Code,  Prev: The XEmacs Object System (Abstractly Speaking),  Up: Top
396
397 How Lisp Objects Are Represented in C
398 *************************************
399
400    Lisp objects are represented in C using a 32-bit or 64-bit machine
401 word (depending on the processor; i.e. DEC Alphas use 64-bit Lisp
402 objects and most other processors use 32-bit Lisp objects).  The
403 representation stuffs a pointer together with a tag, as follows:
404
405       [ 3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 ]
406       [ 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 ]
407      
408         <---------------------------------------------------------> <->
409                  a pointer to a structure, or an integer            tag
410
411    A tag of 00 is used for all pointer object types, a tag of 10 is used
412 for characters, and the other two tags 01 and 11 are joined together to
413 form the integer object type.  This representation gives us 31 bits
414 integers, 30 bits characters and pointers are represented directly
415 without any bit masking.  This representation, though, assumes that
416 pointers to structs are always aligned to multiples of 4, so the lower 2
417 bits are always zero.
418
419    Lisp objects use the typedef `Lisp_Object', but the actual C type
420 used for the Lisp object can vary.  It can be either a simple type
421 (`long' on the DEC Alpha, `int' on other machines) or a structure whose
422 fields are bit fields that line up properly (actually, a union of
423 structures is used).  Generally the simple integral type is preferable
424 because it ensures that the compiler will actually use a machine word
425 to represent the object (some compilers will use more general and less
426 efficient code for unions and structs even if they can fit in a machine
427 word).  The union type, however, has the advantage of stricter type
428 checking (if you accidentally pass an integer where a Lisp object is
429 desired, you get a compile error), and it makes it easier to decode
430 Lisp objects when debugging.  The choice of which type to use is
431 determined by the preprocessor constant `USE_UNION_TYPE' which is
432 defined via the `--use-union-type' option to `configure'.
433
434    Various macros are used to construct Lisp objects and extract the
435 components.  Macros of the form `XINT()', `XCHAR()', `XSTRING()',
436 `XSYMBOL()', etc. shift out the tag field if needed cast it to the
437 appropriate type.  `XINT()' needs to be a bit tricky so that negative
438 numbers are properly sign-extended.  Since integers are stored
439 left-shifted, if the right-shift operator does an arithmetic shift
440 (i.e. it leaves the most-significant bit as-is rather than shifting in
441 a zero, so that it mimics a divide-by-two even for negative numbers)
442 the shift to remove the tag bit is enough.  This is the case on all the
443 systems we support.
444
445    Note that when `ERROR_CHECK_TYPECHECK' is defined, the extractor
446 macros become more complicated--they check the tag bits and/or the type
447 field in the first four bytes of a record type to ensure that the
448 object is really of the correct type.  This is great for catching places
449 where an incorrect type is being dereferenced--this typically results
450 in a pointer being dereferenced as the wrong type of structure, with
451 unpredictable (and sometimes not easily traceable) results.
452
453    There are similar `XSETTYPE()' macros that construct a Lisp object.
454 These macros are of the form `XSETTYPE (LVALUE, RESULT)', i.e. they
455 have to be a statement rather than just used in an expression.  The
456 reason for this is that standard C doesn't let you "construct" a
457 structure (but GCC does).  Granted, this sometimes isn't too convenient;
458 for the case of integers, at least, you can use the function
459 `make_int()', which constructs and _returns_ an integer Lisp object.
460 Note that the `XSETTYPE()' macros are also affected by
461 `ERROR_CHECK_TYPECHECK' and make sure that the structure is of the
462 right type in the case of record types, where the type is contained in
463 the structure.
464
465    The C programmer is responsible for *guaranteeing* that a
466 Lisp_Object is is the correct type before using the `XTYPE' macros.
467 This is especially important in the case of lists.  Use `XCAR' and
468 `XCDR' if a Lisp_Object is certainly a cons cell, else use `Fcar()' and
469 `Fcdr()'.  Trust other C code, but not Lisp code.  On the other hand,
470 if XEmacs has an internal logic error, it's better to crash
471 immediately, so sprinkle "unreachable" `abort()'s liberally about the
472 source code.
473
474 \1f
475 File: internals.info,  Node: Rules When Writing New C Code,  Next: A Summary of the Various XEmacs Modules,  Prev: How Lisp Objects Are Represented in C,  Up: Top
476
477 Rules When Writing New C Code
478 *****************************
479
480    The XEmacs C Code is extremely complex and intricate, and there are
481 many rules that are more or less consistently followed throughout the
482 code.  Many of these rules are not obvious, so they are explained here.
483 It is of the utmost importance that you follow them.  If you don't,
484 you may get something that appears to work, but which will crash in odd
485 situations, often in code far away from where the actual breakage is.
486
487 * Menu:
488
489 * General Coding Rules::
490 * Writing Lisp Primitives::
491 * Adding Global Lisp Variables::
492 * Coding for Mule::
493 * Techniques for XEmacs Developers::
494
495 \1f
496 File: internals.info,  Node: General Coding Rules,  Next: Writing Lisp Primitives,  Prev: Rules When Writing New C Code,  Up: Rules When Writing New C Code
497
498 General Coding Rules
499 ====================
500
501    The C code is actually written in a dialect of C called "Clean C",
502 meaning that it can be compiled, mostly warning-free, with either a C or
503 C++ compiler.  Coding in Clean C has several advantages over plain C.
504 C++ compilers are more nit-picking, and a number of coding errors have
505 been found by compiling with C++.  The ability to use both C and C++
506 tools means that a greater variety of development tools are available to
507 the developer.
508
509    Almost every module contains a `syms_of_*()' function and a
510 `vars_of_*()' function.  The former declares any Lisp primitives you
511 have defined and defines any symbols you will be using.  The latter
512 declares any global Lisp variables you have added and initializes global
513 C variables in the module.  For each such function, declare it in
514 `symsinit.h' and make sure it's called in the appropriate place in
515 `emacs.c'.  *Important*: There are stringent requirements on exactly
516 what can go into these functions.  See the comment in `emacs.c'.  The
517 reason for this is to avoid obscure unwanted interactions during
518 initialization.  If you don't follow these rules, you'll be sorry!  If
519 you want to do anything that isn't allowed, create a
520 `complex_vars_of_*()' function for it.  Doing this is tricky, though:
521 You have to make sure your function is called at the right time so that
522 all the initialization dependencies work out.
523
524    Every module includes `<config.h>' (angle brackets so that
525 `--srcdir' works correctly; `config.h' may or may not be in the same
526 directory as the C sources) and `lisp.h'.  `config.h' must always be
527 included before any other header files (including system header files)
528 to ensure that certain tricks played by various `s/' and `m/' files
529 work out correctly.
530
531    When including header files, always use angle brackets, not double
532 quotes, except when the file to be included is in the same directory as
533 the including file.  If either file is a generated file, then that is
534 not likely to be the case.  In order to understand why we have this
535 rule, imagine what happens when you do a build in the source directory
536 using `./configure' and another build in another directory using
537 `../work/configure'.  There will be two different `config.h' files.
538 Which one will be used if you `#include "config.h"'?
539
540    *All global and static variables that are to be modifiable must be
541 declared uninitialized.*  This means that you may not use the "declare
542 with initializer" form for these variables, such as `int some_variable
543 = 0;'.  The reason for this has to do with some kludges done during the
544 dumping process: If possible, the initialized data segment is re-mapped
545 so that it becomes part of the (unmodifiable) code segment in the
546 dumped executable.  This allows this memory to be shared among multiple
547 running XEmacs processes.  XEmacs is careful to place as much constant
548 data as possible into initialized variables during the `temacs' phase.
549
550    *Please note:* This kludge only works on a few systems nowadays, and
551 is rapidly becoming irrelevant because most modern operating systems
552 provide "copy-on-write" semantics.  All data is initially shared
553 between processes, and a private copy is automatically made (on a
554 page-by-page basis) when a process first attempts to write to a page of
555 memory.
556
557    Formerly, there was a requirement that static variables not be
558 declared inside of functions.  This had to do with another hack along
559 the same vein as what was just described: old USG systems put
560 statically-declared variables in the initialized data space, so those
561 header files had a `#define static' declaration. (That way, the
562 data-segment remapping described above could still work.) This fails
563 badly on static variables inside of functions, which suddenly become
564 automatic variables; therefore, you weren't supposed to have any of
565 them.  This awful kludge has been removed in XEmacs because
566
567   1. almost all of the systems that used this kludge ended up having to
568      disable the data-segment remapping anyway;
569
570   2. the only systems that didn't were extremely outdated ones;
571
572   3. this hack completely messed up inline functions.
573
574    The C source code makes heavy use of C preprocessor macros.  One
575 popular macro style is:
576
577      #define FOO(var, value) do {           \
578        Lisp_Object FOO_value = (value);      \
579        ... /* compute using FOO_value */     \
580        (var) = bar;                          \
581      } while (0)
582
583    The `do {...} while (0)' is a standard trick to allow FOO to have
584 statement semantics, so that it can safely be used within an `if'
585 statement in C, for example.  Multiple evaluation is prevented by
586 copying a supplied argument into a local variable, so that
587 `FOO(var,fun(1))' only calls `fun' once.
588
589    Lisp lists are popular data structures in the C code as well as in
590 Elisp.  There are two sets of macros that iterate over lists.
591 `EXTERNAL_LIST_LOOP_N' should be used when the list has been supplied
592 by the user, and cannot be trusted to be acyclic and nil-terminated.  A
593 `malformed-list' or `circular-list' error will be generated if the list
594 being iterated over is not entirely kosher.  `LIST_LOOP_N', on the
595 other hand, is faster and less safe, and can be used only on trusted
596 lists.
597
598    Related macros are `GET_EXTERNAL_LIST_LENGTH' and `GET_LIST_LENGTH',
599 which calculate the length of a list, and in the case of
600 `GET_EXTERNAL_LIST_LENGTH', validating the properness of the list.  The
601 macros `EXTERNAL_LIST_LOOP_DELETE_IF' and `LIST_LOOP_DELETE_IF' delete
602 elements from a lisp list satisfying some predicate.
603
604 \1f
605 File: internals.info,  Node: Writing Lisp Primitives,  Next: Adding Global Lisp Variables,  Prev: General Coding Rules,  Up: Rules When Writing New C Code
606
607 Writing Lisp Primitives
608 =======================
609
610    Lisp primitives are Lisp functions implemented in C.  The details of
611 interfacing the C function so that Lisp can call it are handled by a few
612 C macros.  The only way to really understand how to write new C code is
613 to read the source, but we can explain some things here.
614
615    An example of a special form is the definition of `prog1', from
616 `eval.c'.  (An ordinary function would have the same general
617 appearance.)
618
619      DEFUN ("prog1", Fprog1, 1, UNEVALLED, 0, /*
620      Similar to `progn', but the value of the first form is returned.
621      \(prog1 FIRST BODY...): All the arguments are evaluated sequentially.
622      The value of FIRST is saved during evaluation of the remaining args,
623      whose values are discarded.
624      */
625             (args))
626      {
627        /* This function can GC */
628        REGISTER Lisp_Object val, form, tail;
629        struct gcpro gcpro1;
630      
631        val = Feval (XCAR (args));
632      
633        GCPRO1 (val);
634      
635        LIST_LOOP_3 (form, XCDR (args), tail)
636          Feval (form);
637      
638        UNGCPRO;
639        return val;
640      }
641
642    Let's start with a precise explanation of the arguments to the
643 `DEFUN' macro.  Here is a template for them:
644
645      DEFUN (LNAME, FNAME, MIN_ARGS, MAX_ARGS, INTERACTIVE, /*
646      DOCSTRING
647      */
648         (ARGLIST))
649
650 LNAME
651      This string is the name of the Lisp symbol to define as the
652      function name; in the example above, it is `"prog1"'.
653
654 FNAME
655      This is the C function name for this function.  This is the name
656      that is used in C code for calling the function.  The name is, by
657      convention, `F' prepended to the Lisp name, with all dashes (`-')
658      in the Lisp name changed to underscores.  Thus, to call this
659      function from C code, call `Fprog1'.  Remember that the arguments
660      are of type `Lisp_Object'; various macros and functions for
661      creating values of type `Lisp_Object' are declared in the file
662      `lisp.h'.
663
664      Primitives whose names are special characters (e.g. `+' or `<')
665      are named by spelling out, in some fashion, the special character:
666      e.g. `Fplus()' or `Flss()'.  Primitives whose names begin with
667      normal alphanumeric characters but also contain special characters
668      are spelled out in some creative way, e.g. `let*' becomes
669      `FletX()'.
670
671      Each function also has an associated structure that holds the data
672      for the subr object that represents the function in Lisp.  This
673      structure conveys the Lisp symbol name to the initialization
674      routine that will create the symbol and store the subr object as
675      its definition.  The C variable name of this structure is always
676      `S' prepended to the FNAME.  You hardly ever need to be aware of
677      the existence of this structure, since `DEFUN' plus `DEFSUBR'
678      takes care of all the details.
679
680 MIN_ARGS
681      This is the minimum number of arguments that the function
682      requires.  The function `prog1' allows a minimum of one argument.
683
684 MAX_ARGS
685      This is the maximum number of arguments that the function accepts,
686      if there is a fixed maximum.  Alternatively, it can be `UNEVALLED',
687      indicating a special form that receives unevaluated arguments, or
688      `MANY', indicating an unlimited number of evaluated arguments (the
689      C equivalent of `&rest').  Both `UNEVALLED' and `MANY' are macros.
690      If MAX_ARGS is a number, it may not be less than MIN_ARGS and it
691      may not be greater than 8. (If you need to add a function with
692      more than 8 arguments, use the `MANY' form.  Resist the urge to
693      edit the definition of `DEFUN' in `lisp.h'.  If you do it anyways,
694      make sure to also add another clause to the switch statement in
695      `primitive_funcall().')
696
697 INTERACTIVE
698      This is an interactive specification, a string such as might be
699      used as the argument of `interactive' in a Lisp function.  In the
700      case of `prog1', it is 0 (a null pointer), indicating that `prog1'
701      cannot be called interactively.  A value of `""' indicates a
702      function that should receive no arguments when called
703      interactively.
704
705 DOCSTRING
706      This is the documentation string.  It is written just like a
707      documentation string for a function defined in Lisp; in
708      particular, the first line should be a single sentence.  Note how
709      the documentation string is enclosed in a comment, none of the
710      documentation is placed on the same lines as the comment-start and
711      comment-end characters, and the comment-start characters are on
712      the same line as the interactive specification.  `make-docfile',
713      which scans the C files for documentation strings, is very
714      particular about what it looks for, and will not properly extract
715      the doc string if it's not in this exact format.
716
717      In order to make both `etags' and `make-docfile' happy, make sure
718      that the `DEFUN' line contains the LNAME and FNAME, and that the
719      comment-start characters for the doc string are on the same line
720      as the interactive specification, and put a newline directly after
721      them (and before the comment-end characters).
722
723 ARGLIST
724      This is the comma-separated list of arguments to the C function.
725      For a function with a fixed maximum number of arguments, provide a
726      C argument for each Lisp argument.  In this case, unlike regular C
727      functions, the types of the arguments are not declared; they are
728      simply always of type `Lisp_Object'.
729
730      The names of the C arguments will be used as the names of the
731      arguments to the Lisp primitive as displayed in its documentation,
732      modulo the same concerns described above for `F...' names (in
733      particular, underscores in the C arguments become dashes in the
734      Lisp arguments).
735
736      There is one additional kludge: A trailing `_' on the C argument is
737      discarded when forming the Lisp argument.  This allows C language
738      reserved words (like `default') or global symbols (like `dirname')
739      to be used as argument names without compiler warnings or errors.
740
741      A Lisp function with MAX_ARGS = `UNEVALLED' is a "special form";
742      its arguments are not evaluated.  Instead it receives one argument
743      of type `Lisp_Object', a (Lisp) list of the unevaluated arguments,
744      conventionally named `(args)'.
745
746      When a Lisp function has no upper limit on the number of arguments,
747      specify MAX_ARGS = `MANY'.  In this case its implementation in C
748      actually receives exactly two arguments: the number of Lisp
749      arguments (an `int') and the address of a block containing their
750      values (a `Lisp_Object *').  In this case only are the C types
751      specified in the ARGLIST: `(int nargs, Lisp_Object *args)'.
752
753    Within the function `Fprog1' itself, note the use of the macros
754 `GCPRO1' and `UNGCPRO'.  `GCPRO1' is used to "protect" a variable from
755 garbage collection--to inform the garbage collector that it must look
756 in that variable and regard the object pointed at by its contents as an
757 accessible object.  This is necessary whenever you call `Feval' or
758 anything that can directly or indirectly call `Feval' (this includes
759 the `QUIT' macro!).  At such a time, any Lisp object that you intend to
760 refer to again must be protected somehow.  `UNGCPRO' cancels the
761 protection of the variables that are protected in the current function.
762 It is necessary to do this explicitly.
763
764    The macro `GCPRO1' protects just one local variable.  If you want to
765 protect two, use `GCPRO2' instead; repeating `GCPRO1' will not work.
766 Macros `GCPRO3' and `GCPRO4' also exist.
767
768    These macros implicitly use local variables such as `gcpro1'; you
769 must declare these explicitly, with type `struct gcpro'.  Thus, if you
770 use `GCPRO2', you must declare `gcpro1' and `gcpro2'.
771
772    Note also that the general rule is "caller-protects"; i.e. you are
773 only responsible for protecting those Lisp objects that you create.  Any
774 objects passed to you as arguments should have been protected by whoever
775 created them, so you don't in general have to protect them.
776
777    In particular, the arguments to any Lisp primitive are always
778 automatically `GCPRO'ed, when called "normally" from Lisp code or
779 bytecode.  So only a few Lisp primitives that are called frequently from
780 C code, such as `Fprogn' protect their arguments as a service to their
781 caller.  You don't need to protect your arguments when writing a new
782 `DEFUN'.
783
784    `GCPRO'ing is perhaps the trickiest and most error-prone part of
785 XEmacs coding.  It is *extremely* important that you get this right and
786 use a great deal of discipline when writing this code.  *Note
787 `GCPRO'ing: GCPROing, for full details on how to do this.
788
789    What `DEFUN' actually does is declare a global structure of type
790 `Lisp_Subr' whose name begins with capital `SF' and which contains
791 information about the primitive (e.g. a pointer to the function, its
792 minimum and maximum allowed arguments, a string describing its Lisp
793 name); `DEFUN' then begins a normal C function declaration using the
794 `F...' name.  The Lisp subr object that is the function definition of a
795 primitive (i.e. the object in the function slot of the symbol that
796 names the primitive) actually points to this `SF' structure; when
797 `Feval' encounters a subr, it looks in the structure to find out how to
798 call the C function.
799
800    Defining the C function is not enough to make a Lisp primitive
801 available; you must also create the Lisp symbol for the primitive (the
802 symbol is "interned"; *note Obarrays::) and store a suitable subr
803 object in its function cell. (If you don't do this, the primitive won't
804 be seen by Lisp code.) The code looks like this:
805
806      DEFSUBR (FNAME);
807
808 Here FNAME is the same name you used as the second argument to `DEFUN'.
809
810    This call to `DEFSUBR' should go in the `syms_of_*()' function at
811 the end of the module.  If no such function exists, create it and make
812 sure to also declare it in `symsinit.h' and call it from the
813 appropriate spot in `main()'.  *Note General Coding Rules::.
814
815    Note that C code cannot call functions by name unless they are
816 defined in C.  The way to call a function written in Lisp from C is to
817 use `Ffuncall', which embodies the Lisp function `funcall'.  Since the
818 Lisp function `funcall' accepts an unlimited number of arguments, in C
819 it takes two: the number of Lisp-level arguments, and a one-dimensional
820 array containing their values.  The first Lisp-level argument is the
821 Lisp function to call, and the rest are the arguments to pass to it.
822 Since `Ffuncall' can call the evaluator, you must protect pointers from
823 garbage collection around the call to `Ffuncall'. (However, `Ffuncall'
824 explicitly protects all of its parameters, so you don't have to protect
825 any pointers passed as parameters to it.)
826
827    The C functions `call0', `call1', `call2', and so on, provide handy
828 ways to call a Lisp function conveniently with a fixed number of
829 arguments.  They work by calling `Ffuncall'.
830
831    `eval.c' is a very good file to look through for examples; `lisp.h'
832 contains the definitions for important macros and functions.
833
834 \1f
835 File: internals.info,  Node: Adding Global Lisp Variables,  Next: Coding for Mule,  Prev: Writing Lisp Primitives,  Up: Rules When Writing New C Code
836
837 Adding Global Lisp Variables
838 ============================
839
840    Global variables whose names begin with `Q' are constants whose
841 value is a symbol of a particular name.  The name of the variable should
842 be derived from the name of the symbol using the same rules as for Lisp
843 primitives.  These variables are initialized using a call to
844 `defsymbol()' in the `syms_of_*()' function. (This call interns a
845 symbol, sets the C variable to the resulting Lisp object, and calls
846 `staticpro()' on the C variable to tell the garbage-collection
847 mechanism about this variable.  What `staticpro()' does is add a
848 pointer to the variable to a large global array; when
849 garbage-collection happens, all pointers listed in the array are used
850 as starting points for marking Lisp objects.  This is important because
851 it's quite possible that the only current reference to the object is
852 the C variable.  In the case of symbols, the `staticpro()' doesn't
853 matter all that much because the symbol is contained in `obarray',
854 which is itself `staticpro()'ed.  However, it's possible that a naughty
855 user could do something like uninterning the symbol out of `obarray' or
856 even setting `obarray' to a different value [although this is likely to
857 make XEmacs crash!].)
858
859    *Please note:* It is potentially deadly if you declare a `Q...'
860 variable in two different modules.  The two calls to `defsymbol()' are
861 no problem, but some linkers will complain about multiply-defined
862 symbols.  The most insidious aspect of this is that often the link will
863 succeed anyway, but then the resulting executable will sometimes crash
864 in obscure ways during certain operations!  To avoid this problem,
865 declare any symbols with common names (such as `text') that are not
866 obviously associated with this particular module in the module
867 `general.c'.
868
869    Global variables whose names begin with `V' are variables that
870 contain Lisp objects.  The convention here is that all global variables
871 of type `Lisp_Object' begin with `V', and all others don't (including
872 integer and boolean variables that have Lisp equivalents). Most of the
873 time, these variables have equivalents in Lisp, but some don't.  Those
874 that do are declared this way by a call to `DEFVAR_LISP()' in the
875 `vars_of_*()' initializer for the module.  What this does is create a
876 special "symbol-value-forward" Lisp object that contains a pointer to
877 the C variable, intern a symbol whose name is as specified in the call
878 to `DEFVAR_LISP()', and set its value to the symbol-value-forward Lisp
879 object; it also calls `staticpro()' on the C variable to tell the
880 garbage-collection mechanism about the variable.  When `eval' (or
881 actually `symbol-value') encounters this special object in the process
882 of retrieving a variable's value, it follows the indirection to the C
883 variable and gets its value.  `setq' does similar things so that the C
884 variable gets changed.
885
886    Whether or not you `DEFVAR_LISP()' a variable, you need to
887 initialize it in the `vars_of_*()' function; otherwise it will end up
888 as all zeroes, which is the integer 0 (_not_ `nil'), and this is
889 probably not what you want.  Also, if the variable is not
890 `DEFVAR_LISP()'ed, *you must call* `staticpro()' on the C variable in
891 the `vars_of_*()' function.  Otherwise, the garbage-collection
892 mechanism won't know that the object in this variable is in use, and
893 will happily collect it and reuse its storage for another Lisp object,
894 and you will be the one who's unhappy when you can't figure out how
895 your variable got overwritten.
896
897 \1f
898 File: internals.info,  Node: Coding for Mule,  Next: Techniques for XEmacs Developers,  Prev: Adding Global Lisp Variables,  Up: Rules When Writing New C Code
899
900 Coding for Mule
901 ===============
902
903    Although Mule support is not compiled by default in XEmacs, many
904 people are using it, and we consider it crucial that new code works
905 correctly with multibyte characters.  This is not hard; it is only a
906 matter of following several simple user-interface guidelines.  Even if
907 you never compile with Mule, with a little practice you will find it
908 quite easy to code Mule-correctly.
909
910    Note that these guidelines are not necessarily tied to the current
911 Mule implementation; they are also a good idea to follow on the grounds
912 of code generalization for future I18N work.
913
914 * Menu:
915
916 * Character-Related Data Types::
917 * Working With Character and Byte Positions::
918 * Conversion to and from External Data::
919 * General Guidelines for Writing Mule-Aware Code::
920 * An Example of Mule-Aware Code::
921
922 \1f
923 File: internals.info,  Node: Character-Related Data Types,  Next: Working With Character and Byte Positions,  Prev: Coding for Mule,  Up: Coding for Mule
924
925 Character-Related Data Types
926 ----------------------------
927
928    First, let's review the basic character-related datatypes used by
929 XEmacs.  Note that the separate `typedef's are not mandatory in the
930 current implementation (all of them boil down to `unsigned char' or
931 `int'), but they improve clarity of code a great deal, because one
932 glance at the declaration can tell the intended use of the variable.
933
934 `Emchar'
935      An `Emchar' holds a single Emacs character.
936
937      Obviously, the equality between characters and bytes is lost in
938      the Mule world.  Characters can be represented by one or more
939      bytes in the buffer, and `Emchar' is the C type large enough to
940      hold any character.
941
942      Without Mule support, an `Emchar' is equivalent to an `unsigned
943      char'.
944
945 `Bufbyte'
946      The data representing the text in a buffer or string is logically
947      a set of `Bufbyte's.
948
949      XEmacs does not work with the same character formats all the time;
950      when reading characters from the outside, it decodes them to an
951      internal format, and likewise encodes them when writing.
952      `Bufbyte' (in fact `unsigned char') is the basic unit of XEmacs
953      internal buffers and strings format.  A `Bufbyte *' is the type
954      that points at text encoded in the variable-width internal
955      encoding.
956
957      One character can correspond to one or more `Bufbyte's.  In the
958      current Mule implementation, an ASCII character is represented by
959      the same `Bufbyte', and other characters are represented by a
960      sequence of two or more `Bufbyte's.
961
962      Without Mule support, there are exactly 256 characters, implicitly
963      Latin-1, and each character is represented using one `Bufbyte', and
964      there is a one-to-one correspondence between `Bufbyte's and
965      `Emchar's.
966
967 `Bufpos'
968 `Charcount'
969      A `Bufpos' represents a character position in a buffer or string.
970      A `Charcount' represents a number (count) of characters.
971      Logically, subtracting two `Bufpos' values yields a `Charcount'
972      value.  Although all of these are `typedef'ed to `EMACS_INT', we
973      use them in preference to `EMACS_INT' to make it clear what sort
974      of position is being used.
975
976      `Bufpos' and `Charcount' values are the only ones that are ever
977      visible to Lisp.
978
979 `Bytind'
980 `Bytecount'
981      A `Bytind' represents a byte position in a buffer or string.  A
982      `Bytecount' represents the distance between two positions, in
983      bytes.  The relationship between `Bytind' and `Bytecount' is the
984      same as the relationship between `Bufpos' and `Charcount'.
985
986 `Extbyte'
987 `Extcount'
988      When dealing with the outside world, XEmacs works with `Extbyte's,
989      which are equivalent to `unsigned char'.  Obviously, an `Extcount'
990      is the distance between two `Extbyte's.  Extbytes and Extcounts
991      are not all that frequent in XEmacs code.
992
993 \1f
994 File: internals.info,  Node: Working With Character and Byte Positions,  Next: Conversion to and from External Data,  Prev: Character-Related Data Types,  Up: Coding for Mule
995
996 Working With Character and Byte Positions
997 -----------------------------------------
998
999    Now that we have defined the basic character-related types, we can
1000 look at the macros and functions designed for work with them and for
1001 conversion between them.  Most of these macros are defined in
1002 `buffer.h', and we don't discuss all of them here, but only the most
1003 important ones.  Examining the existing code is the best way to learn
1004 about them.
1005
1006 `MAX_EMCHAR_LEN'
1007      This preprocessor constant is the maximum number of buffer bytes to
1008      represent an Emacs character in the variable width internal
1009      encoding.  It is useful when allocating temporary strings to keep
1010      a known number of characters.  For instance:
1011
1012           {
1013             Charcount cclen;
1014             ...
1015             {
1016               /* Allocate place for CCLEN characters. */
1017               Bufbyte *buf = (Bufbyte *)alloca (cclen * MAX_EMCHAR_LEN);
1018           ...
1019
1020      If you followed the previous section, you can guess that,
1021      logically, multiplying a `Charcount' value with `MAX_EMCHAR_LEN'
1022      produces a `Bytecount' value.
1023
1024      In the current Mule implementation, `MAX_EMCHAR_LEN' equals 4.
1025      Without Mule, it is 1.
1026
1027 `charptr_emchar'
1028 `set_charptr_emchar'
1029      The `charptr_emchar' macro takes a `Bufbyte' pointer and returns
1030      the `Emchar' stored at that position.  If it were a function, its
1031      prototype would be:
1032
1033           Emchar charptr_emchar (Bufbyte *p);
1034
1035      `set_charptr_emchar' stores an `Emchar' to the specified byte
1036      position.  It returns the number of bytes stored:
1037
1038           Bytecount set_charptr_emchar (Bufbyte *p, Emchar c);
1039
1040      It is important to note that `set_charptr_emchar' is safe only for
1041      appending a character at the end of a buffer, not for overwriting a
1042      character in the middle.  This is because the width of characters
1043      varies, and `set_charptr_emchar' cannot resize the string if it
1044      writes, say, a two-byte character where a single-byte character
1045      used to reside.
1046
1047      A typical use of `set_charptr_emchar' can be demonstrated by this
1048      example, which copies characters from buffer BUF to a temporary
1049      string of Bufbytes.
1050
1051           {
1052             Bufpos pos;
1053             for (pos = beg; pos < end; pos++)
1054               {
1055                 Emchar c = BUF_FETCH_CHAR (buf, pos);
1056                 p += set_charptr_emchar (buf, c);
1057               }
1058           }
1059
1060      Note how `set_charptr_emchar' is used to store the `Emchar' and
1061      increment the counter, at the same time.
1062
1063 `INC_CHARPTR'
1064 `DEC_CHARPTR'
1065      These two macros increment and decrement a `Bufbyte' pointer,
1066      respectively.  They will adjust the pointer by the appropriate
1067      number of bytes according to the byte length of the character
1068      stored there.  Both macros assume that the memory address is
1069      located at the beginning of a valid character.
1070
1071      Without Mule support, `INC_CHARPTR (p)' and `DEC_CHARPTR (p)'
1072      simply expand to `p++' and `p--', respectively.
1073
1074 `bytecount_to_charcount'
1075      Given a pointer to a text string and a length in bytes, return the
1076      equivalent length in characters.
1077
1078           Charcount bytecount_to_charcount (Bufbyte *p, Bytecount bc);
1079
1080 `charcount_to_bytecount'
1081      Given a pointer to a text string and a length in characters,
1082      return the equivalent length in bytes.
1083
1084           Bytecount charcount_to_bytecount (Bufbyte *p, Charcount cc);
1085
1086 `charptr_n_addr'
1087      Return a pointer to the beginning of the character offset CC (in
1088      characters) from P.
1089
1090           Bufbyte *charptr_n_addr (Bufbyte *p, Charcount cc);
1091