thematic
 ACCUEIL
 LISTE DE DIFFUSION
 MENTIONS LEGALES
 ARCHIVES / N°
Reseaux74
 PRÉSENTATION
 Réseaux74

 La publication "technique/spécialisée" du CITIC 74 (Centre de l’Informatique et des TIC de Haute-Savoie).

 RÉSEAUX74

 Réseaux, sécurité & haute disponibilité - Partie 1
Un réseau : c’est bien ; un réseau qui fonctionne tout le temps : c’est mieux !


 Formats de fichiers - Partie 2
Formats de fichiers : Attention danger !


 Logiciels Libres
Rencontres Mondiales du Logiciel Libre 2002.


 Liens utiles
Vidéo numérique


TÉLÉCHARGEABLE
(Format PDF - 84 ko)


RÉSEAUX74 > 2002 > N°13 Septembre 2002 >

Formats de fichiers - Partie 2
Formats de fichiers : Attention danger !

"Le format idéal serait un format connu, échangeable et lisible par tous, garantis-sant la mise en page de la version impri-mée. De plus, ce format devrait permettre de générer d’autres formats comme le HTML, le RTF ou le PDF, sans autre saisie. Ce format existe, ou plutôt ces formats existent, car plusieurs permettent d’at-teindre les objectifs cités ci-dessus. Ces formats s’appellent sgml, tex, xml ou doc-book. Eux-mêmes et les outils pour les créer relèvent des logiciels libres. A suivre..." Ainsi se terminait l’article paru dans le numéro précédent sous le titre "Formats de fichier, attention danger". En voici donc la suite annoncée.

TABLEAU RÉCAPITULATIF

Commençons tout d’abord par un petit tableau récapitulatif : pour chacun des formats que nous avions vus, vous trouverez ci-dessous ses caractéristiques comme son extension, qui en est en charge, son ojectif d’utilisation.

Formats Caractéristiques
Des logiciels
propriétaires
formats fermés
dépendent des éditeurs des logiciels
à chaque logiciel son format
problème de diffusion, de version, de perennité
Texte brut
ou ASCII
fichier .txt
format ouvert
lu par tous les logiciels
aucune de mise en forme
RTF
Rich Text Format
fichier .rtf
format ouvert, établi par Microsoft
permet d’être lu et utilisé par les traitements de texte
PDF
Portable Document Format
fichier .pdf
format ouvert, établi par Adobe
garantit la mise en page en vue de l’impression du document
HTML
HyperText Markup Language
fichier .htm (ou .html)
format ouvert, établi par le Consortium du World Wide Web
permet l’affichage sur écran et les liens entre les pages, les sites
n’est pas fait pour l’impression

Il faut introduire un nouveau format dans ce tour d’horizon, celui concernant l’impression. Ce format, le PostScript, est dédié aux sorties papier des imprimantes (voire même des photocomposeuses). Il est reconnu, puissant, et surtout il est lui aussi ouvert : on en connait les spécifications, qui sont publiées (un énorme manuel de référence technique), développées et maintenues par la société Adobe. Les fichiers PostScript ont des noms se terminant en .ps et sont utilisés par le monde professionnel de l’édition : la qualité obtenue est élevée. C’est aussi un format très souvent rencontré dans le monde du logiciel libre.

Comme écrit en introduction, nous allons nous intéresser aux solutions et outils permettant d’obtenir en une seule saisie les 5 versions indiquées ci-dessus, PostScript, HTML, PDF, RTF et TXT.
Ces solutions reposent sur une autre approche du document que celle habituellement utilisée.

UNE NOUVELLE APPROCHE DU DOCUMENT

Si on prend un document, il est possible d’en distinguer trois composants :

-  les propos développés ;
-  le plan adopté ;
-  La présentation.

Ces trois composants sont fortement liés : les propos sont développés selon un plan qui les met en valeur et avec une présentation particulière.

Cette présentation est normalement cohérente dans tout le document : les informations de même nature (les titres, les sous-titres, les citations, etc.) sont toujours présentées de la même façon (gras pour les uns, italique, décalage pour les autres, etc.). Regardez cet article pour le constater !

Habituellement, on travaille sur les trois composants en même temps : on tape le texte, on crée le plan (en numérotant par exemple) et on met en forme (en mettant en gras par exemple).

Or ce travail de mise en forme est répétitif et pourrait très bien être automatisé. N’oublions pas que la définition du mot informatique fait état du traitement automatique de l’information par des logiciels.

Ainsi, une nouvelle approche consiste à indiquer explicitement la nature des informations. Le logiciel s’occupe alors de mettre en forme correctement, de numéroter les parties ou les listes, etc.

Prenons un exemple pour illustrer le plus clairement possible l’intérêt de cette approche. Dans l’article que vous lisez, il y a des titres de parties, qui sont toujours en bleu. Je n’ai pas mis en bleu, mais j’ai indiqué où se situe le début et la fin de ces titres.

A cette nature "titre", a été associée une mise en forme gras. Et cela pour tout le document, en une seule fois. Mais notez qu’une autre mise en forme peut être choisie, qui va alors affecter aussi tout le document en un seul changement d’association !

Il en va de même des numérotations des chapitres, des numéros dans une liste, des citations en italique (ou en autre chose). En fait, on sépare le fonds de la forme. Vous ne vous occupez que du contenu et de sa hiérarchie (le plan). La mise en forme découlera de la nature des informations.

Certains d’entre vous penseront sans doute aux relectures qu’ils ont faites pour s’assurer que leurs titres, les titres d’ouvrages cités, les numéros, avaient toujours la même présentation, faite à la main à chaque fois... Avec cette approche, vous en aurez la garantie absolue sans le faire à la main (si vous n’avez pas oublié d’indiquer la nature de l’information !).

Certains d’entre vous se diront que ce qui est décrit s’appelle des feuilles de style, utilisées dans les logiciels de traitement de texte. C’est exact, mais ces feuilles de style sont propres au logiciel utilisé et ne sont pas à un format ouvert et connu. On en revient au même problème que celui des formats de fichiers propriétaires.

APRÈS LA THÉORIE, LA PRATIQUE !

Avec cette nouvelle approche à l’esprit, comment la mettre en pratique ? Cela est possible au travers de 4 formats principalement, qui utilisent le principe des balises : l’information est encadrée à son début et à sa fin par des balises qui sont explicites.
Ainsi : Après la théorie, la pratique !
Mais rassurez-vous, vous n’aurez pas forcément à les taper complètement et systématiquement.

Les formats

Le SGML (Standard Generalized Markup Language)
C’est l’un des plus anciens. Il est extrêmement puissant, mais trop lourd à mettre en oeuvre en pratique, sauf avec l’outil SGML Tools.

Le XML avec DTD libre
Le XML (eXtensible Markup Language) est aussi un langage à balise puissant et de plus en plus utilisé. Il repose sur des déclarations de type de documents (DTD, Document Type Declaration). Vous créez vos balises (titre-du-chapitre, citation, titre-de-livre, etc) que vous définissez.

Le XML avec DTD DocBook
Les balises sont celles de la DTD DocBook, qui est complète et de plus en plus utilisée.

TeX et LaTeX
À prononcer tèque et latèque, et à écrire avec les majuscules telles quelle !
C’est l’un des plus anciens (presque 25 ans pour TeX !). Il est puissant, utilisé par le monde de l’édition, le plus aiséà mettre en oeuvre des quatre. À partir de ces formats, il est possible d’obtenir les versions PostScript, HTML, PDF, RTF, ou TXT du document.

Les outils

Pour écrire en SGML, en XML libre, en DocBook, en TeX/ LaTeX, voici des outils disponibles en logiciel libre (donc entre autres gratuits et pas seulement en version pour Linux).

Les éditeurs de texte
Que ce soit Vim, Emacs ou d’autres, ils permettent d’écrire assez facilement le document avec des modules d’aide performants pour chaque format, à condition de se pencher un peu sur les balises de chacun de ces formats.
http://www.vim.org/
http://www.emacs.org/

LyX
Tout se fait avec une interface graphique : vous surlignez, vous indiquez dans un menu qu’il s’agit d’un titre (ou autre) et c’est tout. Le balisage se fait sans avoir à le taper.
http://www.lyx.org/

TeXmacs
Particulièrement dédié aux écrits scientifiques, il est aussi avec une interface graphique.
http://www.texmacs.org/

OpenOffice.org
C’est une suite bureautique complète (traitement de texte, tableur, présentation, dessin, base de données) qui permet de sauvegarder en XML ouvert et documenté.
http://www.openoffice.org/

En espérant que ce tour d’horizon vous en aura ouvert de nouveaux, bon travail !

Copyright © 2002
Permission vous est donnée de distribuer et/ou de modifier cet article sous les termes de la licence GNU Free Documention License,
http://www.fsf.org/licenses/fdl.html

Thierry STOEHR.

 ACTUALITÉ
 SITES RÉFÉRENCÉS
 PingOO

 PingOO est un ensemble de solutions logicielles libres, basé sur une distribution Debian. Il est destiné à toutes les structures qui, sans avoir les compétences nécessaires en interne, souhaitent profiter simplement et pleinement d’Internet et des TIC...

 OpenOffice.org

 OpenOffice.org (OOo) est un ensemble de logiciels libres regroupant toutes les fonctions d’une suite bureautique : traitement de texte, tableur, logiciel de présentation...

 CASPAM

 Collectif d’information et de lutte contre le spam, les spammeurs et la pub sauvage... Le spam est un fléau ! Réagissons !

Copyright © 2005 Centre de Ressources Informatiques de Haute-Savoie - webmaster@thematic74.fr
Site web entièrement basé sur SPIP, logiciel libre de gestion de contenu collaborative.