Ceci est une ancienne révision du document !
Comment éditer des textes multilingues?
Généralités
La composition du texte se fait à l'aide d'un éditeur. Cet éditeur doit
permettre la saisie des caractères, glyphes des différents langages.
Grâce au support de l'UTF-8, permet maintenant de saisir les caractères
exactement comme ils doivent être imprimés et non en beta code.
Aujourd'hui, l'usage du beta code (p. ex.
<a
pour ἁ dans un environnement greek
) semble devoir se réduire à l'insertion ponctuelle
de quelques mots, sauf dans de rares cas où une extension offre des fonctionnalités reposant sur
un encodage en beta code que l'on ne pourrait pas avoir avec une saisie directe des caractères
(p. ex. avec ArabLuaTeX).
Nous nous intéressons ici uniquement à la saisie directe des caractères unicodes, en envisageant plusieurs cas.
Saisie de deux langues différentes
Le premier cas est celui de la saisie de deux langues différentes. Une des langues sera presque obligatoirement l'anglais (on pourra vérifier cas par cas si le français peut être la langue principale), et l'autre pourra être une langue comme une autre langue européenne, une langue à idéogramme ou autre.
La saisie des langues européennes pourra se faire avec n'importe quel éditeur généraliste à condition de disposer des fontes de caractères correspondantes. En général, il ne sera possible de composer qu'en deux langues dont l'anglais si l'on n'utilise pas un éditeur utf8 ou spécialisé (Emacs-mule).
Pour ces langues « alphabétiques », il suffit de changer la disposition du clavier. Une applet est disponible dans le « panel », que ce soit pour Linux, mac ou Windows.
Sous Linux, il faut installer les fontes de caractères correspondantes, et configurer l'applet de changement de disposition de clavier (KDE, Gnome) ou installer un programme indépendant de commutation de claviers.
Sous Windows, il faut aller dans le panneau de configuration, et ajouter les langues voulues (clavier, fontes, et locales).
Sous Mac, la procédure doit être identique.
Il y a juste une correspondance touche clavier, caractère de la langue. Nous avons sur les ordinateurs vendus en France un clavier « azerty » qui dispose des caractères accentués.
Je dispose (personnellement) de claviers cyrilliques (russes) qui proposent deux gravures de lettres: en noir, le clavier se présente comme un clavier «qwerty» standard, et en lettres rouges, le clavier propose les lettres cyrilliques.
Des claviers spécifiques à chaque langue se trouvent sur internet, mais dans les deux dispositions de touches, il y a toujours l'anglais.
Pour l'utilisation du français et du russe, par exemple, il faudra se munir de deux claviers si l'on veut disposer de la disposition propre à chaque langue. Sous Linux, cela ne pose aucun problème. Pour Windows, merci de compléter.
Écrire de droite à gauche
Pour les langues comme l'hébreu ou l'arabe qui s'écrivent de droite à gauche, il existe des éditeurs spécialisés.
Voici quelques références d'éditeurs spécialisés pour l'hébreu, l'arabe et d'autres langues:
he2
: pour l'hébreu et l'anglais : http://sourceforge.net/projects/he2 ;heb
: pour l'hébreu et l'anglais. Ce site recense de nombreux autres éditeurs commerciaux ou non, ainsi que des fontes et utilitaires ;- Il faut bien sûr y ajouter les éditeurs généraux comme
vim
etEmacs
qui peuvent fournir des extensions spécifiques à certains langues. Summisoft
: pour l'arabe http://www.summitsoft.co.uk/ (Windows) ;axmedit
: pour l'arabe, le farsi, le coréen et l'hébreu http://www.langbox.com/arabic/axmedit.html (Linux) ;
Langues à idéogrammes
La saisie de textes en langue orientale (à idéogrammes) nécessite l'utilisation d'une « méthode de saisie ». En effet, le nombre très importants de glyphes de certaines langues asiatiques (chinois, japonais) ne permet pas d'associer une touche de clavier à chaque glyphe. Celle-ci consiste en un programme particulier qui se place entre le clavier et l'éditeur.
Ce programme capture les caractères saisis au clavier et suivant ce qui est tapé, propose un choix à partir d'une analyse phonétique, structurale, ou un mélange des deux méthodes. Ce programme s'aide de dictionnaires de mots, de dictionnaires de phrases qu'il est possible d'enrichir.
Je détaillerai un peu plus loin.
La société Suse, récemment rachetée par Novell propose un “HOWTO” (en
anglais) dédié aux langues asiatiques dites CJK, avec une description
précise de la configuration des différents systèmes
Linux. Il y a aussi une partie sur et tous les
logiciels associés: http://www.suse.de/~mfabian/suse-cjk/.
En mode « langue spéciale », la séquence de touches est transmise au programme de saisie spécifique qui la transforme en une chaîne de caractère dans la langue désirée.
Il y a une touche qui permet de passer d'une langue à l'autre (ou une combinaison de touches).
L'entrée pour les langues « CJK » se fait soit en mode phonétique “latin” ou translittération, soit en mode phonétique spécifique natif : Hiragana pour le japonais, Hangul pour le coréen, Zhuyin pour le chinois. Après saisie de la partie phonétique, s'il y a plusieurs possibilités, un choix est offert à l'utilisateur.
Voici quelques programmes qui se présentent sous la forme d'un serveur, d'un client, et de dictionnaires. Ceux-ci sont disponibles sur toutes les machines Linux ou Unix.
uim
;kinput
;xcin
;canna
.
Sur les machines Windows, il faut aller dans Panneau-de-configuration–Options régionales et installer le chinois. Ne pas oublier d'ajouter les « locales » correspondantes. Vous pouvez ajouter le japonais par la même occasion. |Ici, une page d'explications.
Sur les machines Mac, il faut installer le « CLK » (Chinese Language Kit (CLK)). Voici une page en anglais pour les détails.
Saisie de plusieurs langues très différentes
Le deuxième cas est celui de la saisie de plusieurs langues très différentes: ici, il n'y aura pas le choix, il faudra saisir en codage utf8 et utiliser un éditeur qui le permette \vref{editeur-utf8}.
Il sera aussi possible d'éditer le texte avec des éditeurs comme
Emacs
et ses variantes qui utilisent un codage propriétaire.
Il est ensuite possible de transcoder le codage Emacs en utf-8 pour le
traitement par .