Ceci est une ancienne révision du document !

Est-ce que TeX est compatible avec Unicode?

Unicode est un schéma de codage des caractères qui a la capacité de représenter les textes de toutes les langues du monde, ainsi que des symboles importants (y compris les symboles mathématiques).

Nativement, TeX comprend les schémas de codage utilisant des octets simples (c'est-à-dire codant les caractères sur 8 bits¹⁾, et ne pouvant donc représenter que 256 caractères au maximum). Or Unicode, pour pouvoir représenter un très grand nombre de caractères, peut nécessiter plusieurs octets par caractère.

For “old-style” applications (TeX or pdfTeX) to deal with Unicode input, the sequence of bytes to make up Unicode character are processed by a set of macros that deliver a glyph number in an appropriate font. The macros that read these bytes is complicated, and manifests as utf8 option for the LaTeX distribution inputenc package; the coverage of that option is limited to Unicode characters that can be represented using “LaTeX standard encodings”. Current LaTeX releases, since 2018 default to a processing equivalent to

Pour que les applications « à l'ancienne », comme TeX ou pdfTeX, puissent comprendre un fichier en Unicode, la séquence d'octets composant chaque caractère Unicode doit être traitée par une série de macros qui fournissent un numéro de glyphe dans une police appropriée. Les macros qui lisent le flux d'entrée sont compliquées, et se manifestent sous la forme d'une option utf8 pour le paquet “inputenc” de la distribution LaTeX ; la couverture de cette option est limitée aux caractères Unicode qui peuvent être représentés en utilisant les « encodages standards LaTeX ». Les versions actuelles de LaTeX, depuis 2018, proposent par défaut un traitement équivalent à:

\usepackage[utf8]{inputenc}

The separate package ucs provides wider, but less robust, coverage via an inputenc option utf8x. As a general rule, you should never use utf8x until you have convinced yourself that utf8 can not do the job for you.

Le paquet séparé ucs fournit une couverture plus large, mais moins robuste, via une option inputenc utf8x. En règle générale, vous ne devriez jamais utiliser utf8x avant de vous être convaincu que “utf8” ne peut pas faire le travail pour vous.

“Modern” TeX-alike applications, XeTeX and LuaTeX read their input using UTF-8 representations of Unicode as standard. They also use TrueType or OpenType fonts for output; each such font has tables that tell the application which part(s) of the Unicode space it covers; the tables enable the engines to decide which font to use for which character (assuming there is any choice at all).

Les applications « modernes », telles XeTeX et LuaTeX, lisent leur entrée en utilisant des représentations UTF-8 d'Unicode comme standard. Elles utilisent également des polices TrueType ou OpenType pour la sortie; chacune de ces polices possède des tables qui indiquent à l'application quelle(s) partie(s) de l'espace Unicode elle couvre; les tables permettent aux moteurs de décider quelle police utiliser pour quel caractère (en supposant qu'il y ait un choix).

Source: Unicode and TeX

¹⁾

Jusqu'en 1989, TeX utilisait même un codage sur 7 bits, ne pouvant représenter que 128 caractères, soit juste l'alphabet anglais plus quelques caractères spéciaux. D'où la syntaxe historique pour mettre des acccents sur les lettres: \'e pour $é$ , etc.