Accueil > Publications > Études > L’utilisation d’Internet par les institutions fédérales > Annexe C : Les considérations techniques en 1999

Annexe C : Les considérations techniques en 1999

Page 11 de 11

Les considérations techniques en 19991

Jusqu’à tout récemment, on imposait pratiquement à une partie des utilisateurs l’anglais comme langue de communication, puisque leur jeu de caractères national n’était pas pris en charge par les logiciels dont ils disposaient : systèmes de courrier électronique, navigateurs, etc. Aujourd’hui, la prise en charge des caractères accentués se fait sans grand problème pour autant qu’on utilise un logiciel conforme aux nouvelles normes qui régissent le fonctionnement d’Internet.

Ces normes ont posé et, dans certains cas -- les noms de domaines et les URL entre autres --, continuent de poser des obstacles techniques à l’échange d’information en diverses langues. Afin de permettre l’internationalisation d’Internet, ces normes doivent être modifiées selon un processus précis, déterminé par l’IETF (Internet Engineering Task Force) et faire l’objet d’un RFC (Request for Comments). Une fois les normes adoptées, elles peuvent être mises en œuvre par les différents services Internet.

Le codage de linformation

La représentation de l’information qui circule dans le réseau nécessite l’utilisation d’un codage particulier. En ce qui concerne les jeux de caractères, le codage le plus largement utilisé dans les protocoles Internet est l’ASCII, qui n’utilise que 7 bits et ne permet donc pas la représentation des caractères accentués. Cette contrainte rend ce codage inutilisable pour la transmission du français et de la plupart des autres langues par Internet.

ISO 8859-1 et ISO 10646

Pour bien circuler, la langue française a besoin, à tout le moins, du codage ISO 8859-1 (ISO LATIN-1). Ce codage n’est malheureusement pas accepté par tous les protocoles Internet. Les organisations réglementaires d’Internet envisagent aujourd’hui l’utilisation d’un jeu de caractères universel, l’ISO 10646, pour le codage des langues. En effet, ISO 10646 permet, théoriquement, l’encodage de toutes les langues humaines connues. Son utilisation est cependant peu répandue.

MIME

Malheureusement, l’utilisation d’un codage tel ISO 8859-1 ne suffit pas à résoudre tous les problèmes que pose la langue française. En effet, il est aussi nécessaire d’encoder les messages. La norme MIME (Multipurpose Internet Mail Extensions) permet de définir le format des messages transmis par Internet. Un message codé selon la norme MIME contient des en-têtes identifiant la version de MIME utilisée, son contenu (texte, fichier WordPerfect, etc.) et le codage utilisé pour chaque partie du message.

Les noms de domaine

Les noms de domaine identifient précisément les machines reliées au réseau Internet. Le DNS (Domain Name Server) est le service qui permet de mettre en relation le nom d’une machine avec son adresse Internet ou adresse IP (Internet Protocol).

Cela dit, les noms de domaine doivent être composés d’un sous-ensemble de caractères tirés du code ASCII, limités aux lettres, aux chiffres et au tiret («-»), ce qui exclut les caractères diacritiques et, par le fait même, la francisation complète des noms de domaine. À titre d’exemple, le nom de domaine www.health-santé.gc.ca est illégal au sens du DNS ; il faudrait utiliser www.health-sante.gc.ca. Les promoteurs ont plutôt opté pour www.hc-sc.gc.ca.

Les noms de fichier

La nette prépondérance de l’ASCII pose aussi des problèmes lorsqu’il s’agit de nommer des fichiers. Même si certains systèmes d’exploitation comme Windows™ 95/98 autorisent l’emploi de caractères accentués dans les noms de fichier, il n’en demeure pas moins que la majeure partie des logiciels qui traitent les fichiers de données dans Internet présuppose l’ASCII. En fait, il y a fort à parier qu’un grand nombre d’internautes seraient incapables de lire un fichier qu’on aurait baptisé boîte.html.

URL

On appelle URL l’adresse complète d’une ressource accessible par Internet. L’adresse URL se divise en trois parties distinctes :

  1. le protocole à utiliser pour accéder à la ressource (http, gopher, ftp, mailto, etc.);
  2. l’adresse (nom de domaine) du serveur qui héberge la ressource;
  3. le chemin d’accès à la ressource dans ce même serveur.

L’adresse URL est donc l’équivalent Internet d’un nom de fichier. Ici encore, il n’existe aucune norme proposant une méthode qui permettrait l’internationalisation des URL.

Les moteurs de recherche

La recherche d’informations en français dans Internet ne se fait pas sans effort. Le traitement des accents se révèle souvent problématique. Tel que mentionné précédemment, il est fort probable qu’un grand nombre d’internautes seraient incapables de lire un fichier qu’on aurait nommé boîte.html. Certains moteurs de recherche permettent l’utilisation d’accents, d’autres pas. Et qu’arrive-t-il aux caractères qui ont été remplacés par des équivalents numériques (ex. &233) ou par des références d’entité (ex. é) ? Comment sont-ils traités ? Les réponses à ces questions devraient être fournies à l’utilisateur afin de permettre à celui-ci d’analyser le fonctionnement propre à chaque moteur de recherche et adapter sa recherche en fonction du moteur utilisé.

1. Tirées du rapport du CIDIF concernant les problèmes reliés à la langue de service.



Page précédente | Table des matières