Documents XML

Outils pour ce chapitre

À partir de ce chapitre, nous aurons besoin d'un éditeur XML permettant d'éditer des documents XML, des DTD, des feuilles de style XSLT, etc...

Chacun emploiera bien entendu son éditeur préféré. Pour ceux qui n'ont pas de préférences, nous suggérons de télécharger par exemple Cooktop qui est un logiciel gratuit conenant à nos besoins.

Rendez-vous sur le forum en cas de problèmes d'installations, de téléchargement et/ou d'utilisation.

Pourquoi XML ?

Les besoins

Dans un contexte où de très nombreuses machines sont appelées à échanger des informations, alors que :

le parc des machines est hétérogène : systèmes d'exploitation, codages, etc... ne sont pas les mêmes partout
les applications ont des formats qui leur sont propres

il fallait trouver un moyen de permettre l'échange et la publication de données indépendamment d'une machine donnée ou d 'une application donnée.

La réponse

XML apporte la réponse à ces besoins en fournissant :

un format universellement reconnu : le format texte (avec différents codages de caractères possibles, mais le codage est explicitement spécifié dans l'en-tête du document)
un moyen "simple" de transformer un document XML en un format applicatif (HTML, WML, SVG, ...) qui est XSLT.

Par ailleurs, de plus en plus d'applications sont capables de générer ou de lire directement des données au format XML.

Les avantages de XML

Le langage XML permet de séparer la gestion du contenu d'un document de sa présentation.

Le contenu peut être spécifié dans un document XML indépendamment de l'usage qui va en être fait. Les balises et attributs de ce document apporteront la plupart du temps une information claire sur la structure du contenu du document.
La mise en forme est spécifiée dans un ou plusieurs documents séparés qui vont produire le résultat attendu par telle ou telle application.

Le même contenu est donc partagé par toutes les applications utilisatrices, d'où un gain notable en cas de modification du contenu par exemple.

Un méta-langage

La possibilité de créer des DTD décrivant les contraintes que doit respecter un document XML donné en matière de contenu (noms, disposition, contenu, etc. des balises) fait de XML un méta-langage grâce auquel on va pouvoir spécifier de nombreux langages spécifiques à un domaine particulier.

Ainsi, si l'on voulait créer une manière de représenter une partition musicale à l'aide d'un document XML, il suffirait de définir la DTD du langage visé dans laquelle on spécifierait la syntaxe du langage voulu. On imagine par exemple la présence d'un élément NOTE muni des attributs DURÉE et VALEUR, la présence d'éléments tels que INSTRUMENT, etc...

Parmi les langages XML existants, citons :

Le langage de description chimique CML (Chemical Markup Language) permettant de décrire des composés chimiques.
Le langage de description mathématique MathML (Mathematical Markup Language) permettant de représenter des formules mathématiques.
Le langage de définition de chaînes CDF (Channel Definition Format) permettant de construire des chaînes Web, c'est à dire des mécanismes de diffusion d'informations à destination de lecteurs abonnés.
Le langage d'intégration multimédia synchronisé SMIL (Synchronized Multimedia Integration Language) permettant d'écrire des présentations multimédia en synchronisation diverses sources: audio, vidéo, texte, etc.
Le langage de descriptions d'images vectorielles SVG (Scalable Vector Graphics) permettant de décrire des éléments graphiques en deux dimensions.
Le langage VML (Vector Markup Language) pour la description des graphiques vectoriels.
Le langage MusicML (Music Markup Language) permettant de gérer les notes, les barres de mesures, les clefs, les portées, la notation rythmique, les pauses, etc.
Le langage OFX (Open Financial eXchange) permettant de décrire des informations dans le monde financier.
Le langage HRML (Human Resources Markup Language) proposant un vocabulaire pour décrire des postes à pouvoir dans les entreprises.
Le langage de description de formulaires XFDL permettant de réaliser des formulaires de transactions de commerce électronique avec une signature numérique. XFDL permet également quelques opérations arithmitiques simples, comme par exemple le calcul de la TVA et des frais d'expéditions.
etc...

Qu'est-ce qu'un document XML

Un document XML est une unité d'information pouvant être visualisée (ou considérée) de deux façons :

comme une séquence linéaire de caractères contenant des données textuelles et du balisage : c'est la forme sérialisée
comme une structure abstraite de données constituée d'une arborescence de nœuds : c'est la forme arborescente.

Pourquoi deux modes ?

Alors que la forme sérialisée est très facilement transmissible par les canaux de communication les plus variées, la forme arborescente est plus adaptée lorsqu'il s'agit d'appliquer des traitements sur les informations contenues dans le document XML.

Peut-on passer d'un mode à l'autre ?

Oui, bien entendu, dans un sens ou dans l'autre.

Un parseur permet de passer de la forme sérialisée à la forme arborescente.
Un sérialiseur pemet de passer d'une forme arborescente à une forme sérialisée correspondante.

Remarquons tout de suite qu'il existe plusieurs formes sérialisées possibles pour une même forme arborescente. La transformation d'un document sérialisé par un parsing suivi d'une sérialisation ne redonne donc pas nécessairement le document initial.

Exemple

Un document sous forme sérialisée :

<?xml version="1.0" encoding="iso-8859-1"?>
<CINEMA ville='Paris'>
<NOM>L'épée de bois</NOM><ADRESSE>100, rue Mouffetard</ADRESSE>
</CINEMA>

Le même sous forme arborescente :

Arbre XML

Les différents types de nœuds dans l'arborescence

L'arbre DOM d'un document XML contient des nœuds de différents types :

le nœud Document : il n'y en a qu'un seul par arbre, c'est lui qui est à la racine de l'arbre
les nœuds Element : nous les avons déjà rencontré dans le DOM HTML. Ci-dessus ce sont les nœuds CINEMA, NOM et ADRESSE.
les nœuds Text : ils contiennent du texte contenu dans un élément. Ainsi la forme sérialisée <NOM>L'épée de bois</NOM> donne naissance à un nœud Element (qui s'appelle NOM) qui a pour fils unique un nœud texte contenant le texte "L'épée de bois".
Attention : il existe des nœuds dont on ne soupçonne pas toujours l'existence : ainsi, le nœud de type Element de nom CINEMA a pour fils les deux nœuds de type Element correspondant aux éléments NOM et ADRESSE, mais aussi deux nœuds de type texte correspondant au caractèreretour-chariot (symbolisé par \n dans le dessin ci-dessus) figurant avant et après ces éléments.
les nœuds de type Attr : ils correspondent aux atttributs des éléments. Dans l'exemple ci-dessus, nous avons un nœud nommé Ville qui est un nœud Attribut rattaché à l'élément CINEMA. La flèche qui relie ces deux nœuds est un peu différente des autres (plus claire bien que ce soit peu visible) : ceci pour rappeler que les nœuds de type ATTR ne sont pas vraiment des fils du nœud Element auquel ils sont rattachés (on y accède par getAttribute et non pas ChildNodes).
il existe d'autres types de nœuds (les commentaires par exemple) qui ne sont pas utilisés dans cet exemple.

Structure d'un document XML

Un document XML comprend trois parties :

le prologue comprenant la déclaration XML, la DTD, des commentaires, des instructions de traitement (optionnels).
un élément racine avec son contenu
un épilogue optionel avec des commentaires ou des instructions de traitement.

La déclaration comporte au minimum le numéro de version et le jeu de caractères utilisé :

<?xml version="1.0" encoding="iso-8859-1"?>

Le contenu du document proprement dit est le contenu de l'élément racine.

Chaque élément du document peut être muni d'un nombre quelconque d'attributs possédant chacun une valeur unique.

Les contraintes de la forme sérialisée

Pour être valide, un document XML sérialisé doit respecter un certain nombre de contraintes de forme. Ce sont ces contraintes que nous allons présenter dans ce paragraphe.

Nous verrons par la suite qu'il existe une manière de renforcer ces contraintes de forme au moyen d'une DTD (Document Type Definition).

En l'absence de DTD, les seules contraintes à respecter sont les suivantes ;

toutes les valeurs d'attributs doivent être mises entre apostrophes ou entre guillemets
les éléments doivent former une arborescence
l'arborescence doit être explicite dans le document

La première contrainte implique que les caractères guillemets ou apostrophes ne peuvent être utilisés dans un document XML que dans ce but unique de délimiteur de valeur d'attribut.
Pour les utiliser ailleurs, il faudra les déguiser en entités (voir plus loin).

La deuxième contrainte a deux conséquences :

il doit exister un élément racine
tous les autres éléments doivent posséder un unique parent : ceci interdit le chevauchement des balises comme dans l'exemple (incorrect) ci-dessous :
<A> ... <B> ... </A> .. </B>.

La troisième contrainte impose que toute balise marquant le début d'un élément doit nécessairement correspondre à une balise de fin de cet élément. Si l'élément n'a aucun contenu textuel, il est possible d'utiliser une balise auto-fermante <A /> pour désigner un élément A sans contenu.

Exercice

Le document XML suivant n'est pas valide. Quelles erreurs détectez-vous dans ce document :

<?xml version="1.0" encoding="iso-8859-1"?>
<CINEMA ville=Paris>
    <ACCESSIBLE_HANDICAPÉS depuis="2002" />
    <ADRESSE><NOM>L'épée de bois</NOM>100, rue Mouffetard</ADRESSE>
    <FILM>Vertigo<AUTEUR>Hitchcock</AUTEUR>
</CINEMA>

Solution

Les DTD

Une DTD (Document Type Definition) consiste en un contrat que doit respecter un document XML pour qu'il soit déclaré conforme (à cette DTD). En d'autres termes, la DTD définit la grammaire d'un sous-langage XML spécifique.

Grâce à une DTD, il est possible de :

déclarer les éléments qui pourront apparaître dans le document (tout élément non déclaré sera non conforme)
spécifier la forme du contenu de chaque élément : tel élément pourra par exemple contenir du texte, tel autre deux éléments A et B dans cet ordre, etc...
spécifier les attributs acceptés par chaque élément ainsi que leur valeur (valeur par défaut, caractère obligatoire ou facultatif, etc.)
définir des entités pour le document

Une DTD peut être soit incluse dans le document XML (DTD interne), soit dans un document à part ( DTD externe).

DTD interne

Elle est déclarée juste après la déclaration du document

Voici un exemple de document XML muni d'une DTD interne :

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE echange [
   <!ELEMENT echange (salutations, reponse)>
   <!ELEMENT salutations (#PCDATA)>
   <!ELEMENT reponse (#PCDATA)>
   <!ATTLIST salutations
        mode (chaleureux|indifférent|distant|froid) "chaleureux"
        auteur CDATA "IMPLIED"
   > 
]>
<echange>
   <salutations mode="distant">Bonjour, XML</salutations>
   <reponse>Bonjour, que puis-je faire pour vous ?</reponse>
</echange>

DTD externe

Comme son nom l'indique, une telle DTD est stockée dans un document externe. Il faut donc que le document XML contienne une information permettant d'accéder à cette DTD externe. Cette information peut être de type SYSTEM ou PUBLIC.

SYSTEM

SYSTEM est utilisé pour donner l'adresse du fichier qui contient la DTD dans le cas où la DTD n'est pas publique. Cette adresse peut pointer soit sur un fichier local de l'ordinateur hôte, soit vers un document accessible sur Internet par le protocole http.
Exemples :

<!DOCTYPE racine_du_document SYSTEM "http://www.mon_serveur.fr/ma_dtd.dtd">

<!DOCTYPE racine_du_document SYSTEM "ma_dtd.dtd">

PUBLIC

PUBLIC est utilisé lorsque la DTD est une norme ou qu'elle est enregistrée sous forme de norme ISO par l'auteur. La syntaxe est alors :

 <!DOCTYPE racine_du_document PUBLIC "identifiant_public" "url">

L'identifiant public contient les caractéristiques : type_enregistrement // propriétaire // DTD description // langue avec :

type_enregistrement : un signe + si c'est selon la norme ISO 9070, un signe - sinon ;
propriétaire : nom du propriétaire (entreprise ou personne) ;
DTD description : une description textuelle pour laquelle les espaces sont autorisés ;
langue : un code de langue ISO 639.

Exemple :

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" 
                      "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

L'adresse du fichier décrivant la DTD n'est pas obligatoire, le processeur XML pouvant utiliser les informations de l'identifiant public pour essayer de générer l'adresse. Il faut noter cependant qu'il n'est pas toujours possible de trouver l'adresse à partir de l'identifiant, il est donc conseillé de faire suivre l'identifiant par l'adresse du fichier.

Validité du document

Reprenons l'exemple du document XML ci-dessus. Pour que ce document soit déclaré "valide", c'est-à-dire conforme à sa DTD, il faut que :

l'élément échange ne contienne qu'un unique élément salutations suivi d'un élement reponse. En particulier, aucun contenu textuel n'y sera toléré (à l'exception des textes invisibles constitués par des caractères séparateurs (espace, retour-chariot, tabulation).
les éléments salutations et reponse ont uniquement un contenu textuel analysable (Parsed Content Data).
l'élément salutations comporte au plus un attribut mode et un attribut auteur. Ces attributs sont facultatifs, la valeur du premier est à choisir parmi chaleureux, indifférent, distant ou froid (avec la valeur chaleureux par défaut) tandis que la valeur du dernier est quelconque.

Déclarations d'éléments

Les déclarations d'éléments ont tous la forme suivante :

<!ELEMENT nom-de-l-élément modèle-de-son-contenu>

Modèles

Pour définir le modèle du contenu d'un élément, on utilise un langage proche de la norme BNF (Bacchus-Naur Form). Ainsi, si A et B sont deux éléments (ou groupe d'éléments entourés par des parenthèses), on pourra écrire :

A?	A peut être présent ou non (au plus une fois)
A*	A peut être présent ou non, un nombre quelconque de fois
A+	A doit être présent au moins une fois, éventuellement plusieurs fois
A, B	A doit être suivi de B
A\|B	A ou B doivent être présents
(A\|B)*	Les parenthèses servent à regrouper : A ou B peuvent être présents, un nombre quelconque de fois.

A ceci s'ajoutent les deux modèles particuliers que sont :

EMPTY : l'élément doit être vide
ANY : l'élément peut contenir n'importe quoi, données textuelles ou éléments fils.

Exemples

<!ELEMENT recette (description, (ingrédients, quantité)+, 
                   instructions, origine?, (note|attention)* ) >

Cette déclaration signifie qu'une recette consiste en une description suivie d'une ou plusieurs paires constituées par un ingrédient et une quantité, puis un élément contenant les instructions suivi optionnellement par un nombre quelconque de notes ou d'avertissement placées dans n'importe quel ordre.

<!ELEMENT br EMPTY>

Cette déclaration signifie que l'élément br est nécessairement vide

<!ELEMENT p (#PCDATA | a | ul | b | i | em)*>

Ici #PCDATA (Parsed Character Data) représente les données textuelles. Un élément p peut donc contenir soit des données textuelles, soit l'un quelconque des éléments a, ul, b, i ou em, et ceci autant de fois qu'on le souhaite.

Exercice : une DTD avec des éléments uniquement

Il s'agit d'écrire la DTD d'un document XML décrivant une médiathèque contenant des livres et des films.

Un livre est caractérisé par :

son titre
son ou ses auteurs
son éditeur
son numéro ISBN
son année de parution

Ces renseignements seront donnés dans cet ordre, à l'exception des deux derniers qui pourront être inversés (l'année de parution avant le numéro ISBN).
L'éditeur est caractérisé par son nom et son adresse électronique.

Un film est caractérisé par :

son titre
son année de parution
son ou ses réalisateurs
éventuellement son casting, composé d'un ou plusieurs acteurs.

Pour les films comme pour les livres, on pourra rajouter un champ permettant de noter un commentaire personnnel.

Le document suivant est censé être conforme à la DTD que vous allez créer. Sa validité pourra être testé grâce à Cooktop par exemple.

Solution

Déclarations d'attributs

Pour chaque élément, il est possible de spécifier la liste de ses attributs en précisant pour chacun d'eux leur type, leur caractère obligatoire ou facultatif et éventuellement une valeur par défaut.

Les types d'attributs disponibles sont les suivants :

ID	Permet de définir un identificateur unique pour un élément du document. Donc chaque id doit être différent. NB. Un ID ne peut pas être numérique.
IDREF	Doit correspondre à un attribut "ID" dans un des éléments du document.
(A\|B\|C\|..)	Liste énumérée de valeurs possibles d'un attribut.
CDATA	"Character Data" - Contenu arbitraire, mais normalisé: espaces et fin de lignes convertis en un seul espace !
NMTOKEN	Un mot (sans séparateurs)
NMTOKENS	Liste de mots sans espaces, séparés par une virgule

Le caractère facultatif ou obligatoire est indiqué par l'un des termes suivants placés après le type de l'attribut :

#REQUIRED	l'attribut est obligatoire
#IMPLIED	l'attribut est facultatif
#FIXED suivi d'une valeur par défaut	l'attribut doit toujours avoir la valeur spécifiée
valeur par défaut	valeur de l'attribut en l'absence de spécification contraire

Exemples

<!ATTLIST salutations
    mode   (chaleureux|indifférent|distant|froid) "indifférent"
    auteur CDATA                                  #IMPLIED
    id     ID                                     #REQUIRED
 >

Dans l'exemple ci-dessus, l'élément salutations dispose de trois attributs : l'attribut mode dont la valeur est à choisir parmi chaleureux, indifférent, distant ou froid (valeur par défaut : indifférent), l'attribut auteur dont la valeur est une chaîne de caractères et l'attribut id dont la valeur est une chaîne de caractères servant d'identifiant. Lest attributs mode et auteur sont facultatifs, id est obligatoire.

Remarque : pour qu'un document XML soit conforme à une DTD, celle-ci doit contenir les déclarations de chaque élément du document, et de chaque attribut de chacun de ses éléments.

Exercice : une DTD avec des attributs

Il s'agit d'écrire la DTD d'un document XML décrivant (très sommairement) des comptes bancaires. Le document contiendra des éléments compte puis des éléments personne.

Aucun de ces deux éléments n'aura de contenu : toute l'information sera portée par les attributs de ces deux éléments.

Un élément compte aura pour attributs :

le numéro du compte : un identifiant (rappel : un identifiant doit commencer par une lettre)
la référence du titulaire du compte : il s'agit de l'identifiant d'un élément personne
le type du compte : les deux seules valeurs possibles sont "courant" et "titres" ; la valeur par défaut est "courant"
le solde du compte : on aimerait pouvoir dire que la valeur est numérique, mais il faut se contenter de dire que c'est du CDATA (chaîne de caractères)

Tous ces attributs sont obligatoires, à l'exception du type du compte.

Un élément personne aura pour attributs :

l'identifiant de la personne
son nom
son prénom

Tous ces attributs sont obligatoires.

Le document suivant est censé être conforme à la DTD que vous allez créer. Sa validité pourra être testé grâce à Cooktop par exemple.

On pourra également vérifier qu'en affectant un compte à une personne qui n'existe pas dans le document (on remplace titulaire="p1" par titulaire="p4" par exemple dans le premier élément compte), le document n'est plus valide.

Solution

Remarque : Noux venons de faire deux exercices : dans le premier il n'y avait aucun attribut, toute l'information était dans le contenu des éléments tandis que dans le second les éléments sont vides, l'information étant portée par les attributs.
Dans la pratique, il est bon de trouver un juste milieu entre ces deux extrêmes. Il n'existe pas de règles pour choisir entre une manière de faire plutôt que l'autre.

Déclarations d'entités

Nous avons déjà rencontré les entités en HTML ou XHTML : il s'agissait alors d'une catégorie d'entités particulières dites entités caractères.

En fait, les entités constituent un mécanisme plus général permettant de remplacer, non seulement un caractère, mais aussi un texte ou même un fichier par un nom : l'évocation de ce nom sera alors remplacée par sa signification. Ceci s'apparente à un mécanisme de macros que l'on connaît dans certaines langages de programmation.

Il existe plusieurs manières de classer les entités. Une première manière consiste à les distinguer selon leur type : nous distinguerons alors les entités caractères et les entités texte. Une autre manière consiste à les classer selon la manière dont elles sont déclarées : nous aurons alors des entités internes et des entités externes. Enfin, les entités générales seront opposées aux entités paramétriques.

Les entités caractères

Leur valeur est un simple caractère. Elles sont utilisées pour représenter des caractères non accessibles par le clavier. Nous en avons déjà vu le principe en HTML.
Une entité caractère est de la forme &#code; où code est à remplacer par le code numérique d'un caractère. Ce code numérique peut être en décimal ou en hexadécimal (auquel cas il est précédé par la lettre x minuscule) :

&#201; ou &#xC9 sont deux manières d'obtenir le caractère É dans un document XML

Les entités caractères peuvent donc être utilisées telles quelles, mais on peut aussi leur associer un nom :

<!ENTITY oelig "&#339;">

Caractère	Code	Nom
<	<	<
>	>	>
"	"	"
'	'	'
&	&	&

On pourra ainsi écrire &oelig; pour obtenir le caractère œ.

Remarques :

il n'existe que cinq entités nommées prédéfinies en XML, corrrespondant aux cinq caractères <, >, ', " et & qui sont interdits dans les contenus d'éléments. Ces noms sont récapitulés dans le tableau ci-contre.
Ainsi, on obtiendra le caractère > en écrivant indifféremment > ou > ou encore >
les entités que nous avions l'habitude d'utiliser en HTML sont déclarées dans la DTD d'HTML. Dans un document XML, on ne peut pas les utiliser sans les déclarer au préalable.

Les entités texte

Elles font correspondre à un nom donné un texte arbitrairement long qui peut lui-même contenir éventuellement des entités. Ainsi la deuxième entité définie ci-dessous utilise-t-elle l'entité caractère &oelig; définie ci-desssus.

<!ENTITY lui "un gars"> 
<!ENTITY elle "sa s&oelig;ur">

Les entités internes

Comme leur nom l'indique, ce sont des entités texte définies directement dans la DTD (éventuellement externe) du document XML.
Ainsi, considérons le document XML ci-dessous :

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE echange SYSTEM "echange.dtd"> 
 <echange>
   <salutations id="s1" mode="chaleureux" auteur="&lui;">
     &quot; Meilleurs v&oelig;ux pour cette nouvelle ann&eacute;e &quot;
   </salutations>
   &reponse;
</echange>

Ce document possède une DTD externe (de type SYSTEM) dont voici ci-dessous le contenu. Il ne faut pas attacher d'importance pour l'instant au fait que certaines entités sont déclarées avec un caractère %. Nous allons éclairer ce point un peu plus loin.

Toutes les entités de ce document sont des entités internes à l'exception des deux premières, nommée HTMLlat1 et reponse, qui sont des entités externes.

<?xml version="1.0" encoding="UTF-8"?>
<!ENTITY % HTMLlat1 PUBLIC
      "-//W3C//ENTITIES Latin 1 for XHTML//EN"
      "http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent">
 %HTMLlat1;
 <!ENTITY reponse SYSTEM  "reponse.txt">

 <!ENTITY oelig "&#339;">
 <!ENTITY lui "un gars">
 <!ENTITY elle "sa s&oelig;ur">
 <!ENTITY % Auteur "auteur CDATA #REQUIRED" >
 <!ENTITY % Mode "mode (chaleureux|indifférent|distant|froid) 'indifférent'" >
 <!ENTITY % Attributs "%Mode; %Auteur;" >
 <!ELEMENT echange (salutations, reponse)*>
 <!ELEMENT salutations (#PCDATA)>
 <!ELEMENT reponse (#PCDATA)>
 <!ATTLIST salutations
     %Attributs;
     id ID #REQUIRED
 >
 <!ATTLIST reponse
     %Attributs;
 >

Les entités externes

Les entités externes référencent un contenu qui est externe au document (fichier local ou URI sur le réseau). Comme nous l'avons vu pour les DTD elles-mêmes, les entités externes peuvent être soit SYSTEM, soit PUBLIC.

Pour une entité externe SYSTEM, le mot clé SYSTEM précède la référence de l'entité dans sa déclaration et on précise uniquement l'uri d'un fichier (soit dans le système de fichiers local, soit sur le web). C'est le cas de l'entité nommée reponse dans l'exemple ci-dessus. Voici d'ailleurs le contenu du fichier référencé par cette entité :

<reponse auteur="&elle;">
      &quot; &#192; toi aussi, merci. &quot;
</reponse>

Pour une entité externe PUBLIC, on rajoute devant l'uri (facultatif) du document référencé un identifiant public construit sur les mêmes règles que l'identifiant public d'une DTD (voir plus haut). Ainsi, l'exemple ci-dessus intègre le document identifié par "-//W3C//ENTITIES Latin 1 for XHTML//EN" qui, comme son nom l'indique comporte un certain nombre de déclarations d'entités utiles dans le jeu de caractères Latin1.
On pourra télécharger ce document et le consulter à l'adresse http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent.

Remarques :

les DTD de HTML ou XHTML intègrent toutes cette entité externe. C'est pour cette raison que l'on peut utiliser les entités telles que é , à , etc... dans les documents HTML.
ces mêmes DTD intègrent également une autre entité externe identifiée par "-//W3C//ENTITIES Special for XHTML//EN" et consultable à l'adresse http://www.w3.org/TR/xhtml1/DTD/xhtml-special.ent. On y remarquera notamment la définition de l'entité &oelig; ainsi que de l'entité €.

Les entités générales

Une entité générale peut être utilisée indifféremment soit dans la DTD dans laquelle elle est déclarée, soit dans le document XML régi par cette DTD.
Pour utiliser une entité générale, on encadre son nom par une éperluette (&) et un point-virgule.
Exemples : &lui; , &oelig; , etc...

Les entités paramétriques

Elles sont destinées à simplifier l'écriture des DTD en permettant la factorisation d'un certain nombre de tournures communes.

Remarques préalables :

une entité paramétrique comporte un caractère % dans sa déclaration après le mot ENTITY (voir la DTD ci-dessus par exemple)
lorsqu'on utilise une entité paramétrique, on encadre son nom par un caractère % et un point-virgule. Par exemple : %HTMLlat1;
elles ne peuvent être utilisées que dans la DTD : c'est une erreur que d'utiliser une entité paramétrique dans un document XML
elles ne peuvent être utilisées que dans une DTD externe.

La DTD ci-dessus comporte un certain nombre d'entités paramétriques. Ainsi, les entités paramétriques %Mode; et %Auteur; sont utilisées dans la défintion de l'entité paramétrique &Attributs; qui elle-même sera utilisée deux fois : une fois pour déclarer les attributs de l'élément salutations et une autre fois pour déclarer les mêmes attributs pour l'élément reponse. Noter que l'on a rajouté ensuite un attribut suplémentaire à l'élément salutations par rapport à l'élément reponse.

Exercice :

Télécharger les trois fichiers visualisés ci-dessus (echange.xml, echange.dtd et reponse.txt) puis vérifier la validité du document XML par rapport à sa DTD.

La technique des entités paramétriques est très abondamment utilisée dans les DTD d'HTML ou XHTML pour ce qui est de la déclaration des attributs. Ainsi, on trouve par exemple dans la DTD de XHTML1 transitional la définition suivante :

<!ENTITY % coreattrs 
  "id     ID            #IMPLIED 
   class  CDATA         #IMPLIED 
   style  %StyleSheet;  #IMPLIED 
   title  %Text;        #IMPLIED" 
>

Cette définition utilise elle-même les entités texte paramétriques nommées StyleSheet et Text dont voici la définition :

 <!ENTITY % StyleSheet  "CDATA"> 
 <!ENTITY % Text        "CDATA">

Un peu plus loin dans le même document, on trouve la définition de l'élément br avec sa liste d'attributs :

 <!ELEMENT br EMPTY> 
 <!-- forced line break --> 
 <!ATTLIST br 
     %coreattrs; 
     clear (left|all|right|none) "none" 
 >

Cette définition dit que l'élément br est nécessairement vide (il ne peut donc contenir d'autres éléments), qu'il dispose de tous les attributs définis dans le groupe d'attributs coreattrs (à savoir id, class, style et title) plus l'attribut clear dont la valeur par défaut est none.

Tous les autres éléments XHTML disposent ainsi des attributs du groupe coreattrs.

On voit que ces attributs paramétriques ne sont pas faits pour être utilisés dans le document XML lui-même, mais uniquement dans la DTD où ils permettent de regrouper les déclarations d'attributs.

XML Schéma

Les DTD sont des outils très performants pour décrire la structure d'un document XML, mais elle ne parlent guère beaucoup de leur contenu.

Impossible par exemple de spécifier que la valeur de tel attribut doit être de type entier, que tel autre doit être une chaîne de caractères, etc.

Par ailleurs, un reproche essentiel que l'on peut faire aux DTD est ... que ce ne sont pas des documents XML !

Contrairement aux DTD, XML Schema, qui est venu prendre la relèvre des DTD en octobre 2000, possède les caractéristiques suivantes :

les schémas sont eux-mêmes des documents XML et peuvent donc être analysés en tant que tyels par les parseurs
les systèmes de type de données sont bien plus évolués qu'avec les DTD
les schémas permettent la modularité et la réutilisation de partie de schémas

XML Schema n'est donc rien d'autre que l'un des nombreux langages que l'on peut créer grâce au méta-langage XML. La syntaxe précise de ce langage est définie, non pas dans une DTD, mais dans un document XML-Schema : il s'agit donc là d'une définition récursive...

Un exemple de schéma XML :

<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
   <xs:element name="personne">
     <xs:complexType>
        <xs:sequence>
           <xs:element name="nom" type="xs:string"/>
           <xs:element name="prenom" type="xs:string"/>
           <xs:element name="date_naissance" type="xs:date"/>
        </xs:sequence>
     </xs:complexType>
   </xs:element>
</xs:schema>

Nous n'étudierons pas davantage les schémas XML dans le cadre de ce cours. Le lecteur intéressé pourra se reporter à la recommandation correspondante du W3C dont on trouve la traduction française sur le site http://xmlfr.org/w3c/TR/xmlschema-0/.

A titre d'information, voici la version XML-Schéma du document echange.xml utilisé plus haut et voici le schéma correspondant. On pourra vérifier la validité du document XML par rapport à son schéma.

Le contenu d'un document XML

Les types de composant

Tout document XML peut contenir les cinq types de composants suivants :

Type de composant	Délimité par
Déclarations de type de document	<:DOCTYPE nom [ ... ]>
Éléments	<balise> ... </balise>
Parties CDATA (Character Data)	<![CDATA{ ... ]]>
Commentaires	<!--- ... -->
Instructions de traitement	<? ... ?>

Les commentaires

Ils débutent par .
Les données caractères situées dans des commentaires ne sont pas analysées : on peut donc y inclure toutes sortes de caractères y compris &, <, >, les guillemets ou les apostrophes.

À noter toutefois que la chaîne de caractères -- est interdite dans un commentaire (sauf pour en signaler la fin, dans l'expresion -->).

Les instructions de traitement

Ils débutent par <?nom_de_l_instruction et se terminent par ?>.
Elles ne sont pas analysées non plus par les parseurs : elles servent à invoquer une application autre que le processeur XML pour effectuer un traitement sur tout ou partie du document XML.

Nous utiliserons par exemple des intructions de traitement pour provoquer la transformation du document XML en lui appliquant une feuille de style XSLT.

Nous avons également déjà rencontré une instruction de traitement dans le chapitre sur CSS lorsque nous avons associer une feuille de style CSS à un document XML :

<?xml version="1.0" encoding="iso-8859-1"?>
<?xml-stylesheet type="text/css" href="bach2.css"?>
<ARTICLE>
  <HEADLINE>La rencontre de Frédéric le Grand et de Bach</HEADLINE>
  <AUTHOR>Johann Nikolaus Forkel</AUTHOR>
  <PARA>
    Un soir, alors qu'il préparait sa
    <INSTRUMENT>flûte</INSTRUMENT> et que ses
    musiciens étaient réunis, un officier lui apporta
    la liste des étrangers qui venaient d'arriver.
  </PARA>
</ARTICLE>

Les parties CDATA

Elles débutent par <![CDATA[ et se terminent par ]]>.
Elles non plus ne sont pas analyées. Elles sont utiles lorsqu'un élément doit contenir une grand nombre de caractères spéciaux qui nécessiteraient sans cela un recours intensif aux entités.

Ainsi, imaginons que l'on veuille écrire un programme Java dans un élément XML. De nombreuses instructions contiendront alors des caractères interdits :

while (a<b && b>a) a=t[a];

Il est alors plus simple d'inclure tout le programme dans une section CDATA dans laquelle ces caractères ne poseront pas de problèmes :

<![CDATA[
   while (a<b && b>a) a=t[a];
]]>

Il faut cependant se méfier d'instructions telles que :

if (t[t[i]]>5) return;

car le parseur y détecterait la fin de la section CDATA imédiatement après le caractère i.

Une solution consiste à séparer les deux crochets par des espaces ou à les inclure dans deux sections CDATA différentes.

Les espaces de nom XML

Présentation du problème

Supposons que nous souhaitions créer un langage XML de description d'un cours. Un document rédigé dans cet hypothétique langage serait par exemple le suivant :

Voir

<?xml version="1.0" encoding="ISO-8859-1"?>
<cours>
   <title>
      NFE102 - Infrastructures technologiques pour le Commerce Électronique
   </title>
   <table>
      <chapter num="1">HTML</chapter>
      <chapter num="2">CSS</chapter>
      <chapter num="3">DOM</chapter>
   </table>
</cours>

Nous savons déjà que nous pouvons visualiser un tel document dans un navigateur en lui rajoutant une feuille de styles CSS (utiliser Firefox ou Mozilla, car Internet Explorer ne va pas justement pas gérer correctement les espaces de noms).
Pour l'occasion, nous allons intégrer cette feuille de style dans le document lui-même en ajoutant un élément style comme nous le ferions dans une page HTML.

Problème :

comment le navigateur va-t-il réussir à distinguer l'élément style (qui est un élément du langage XHTML des éléments de notre langage ?
comment va-t-il distinguer l'élément title de notre langage (que nous utilisons ici pour le titre du cours) de l'élément title du langage HTML (qui correspond au titre de la fenêtre) ?
même question pour l'élément table qui existe à la fois dans les deux langages ...

Solution :

La solution consiste à créer deux espaces de noms distincts pour chaque langage ainsi les éléments qui feront partie de deux espaces différents ne pourront pas être confondus.
Un espace de noms est toujours associé à un URI (Universal Resource Identifier, en fait une adresse web), mais il n'est pas nécessaire que cette adresse existe réellement. Dans la deuxième version de notre document, nous allons dire que tous les éléments de notre langage sont dans l'espace de noms associé à l'uri http://ouest.pleiad.net. Il suffit pour cela de le préciser grâce à l'attribut xmlns (pour XML Name Space) de la racine du document (attention, Mozilla ou FireFox ne montre pas la valeur de cet attribut) :

Voir

<?xml version="1.0" encoding="ISO-8859-1"?>
<cours xmlns="http://ouest.pleiad.net">
   <title>
      NFE102 - Infrastructures technologiques pour le Commerce Électronique
   </title>
   <table>
      <chapter num="1">HTML</chapter>
      <chapter num="2">CSS</chapter>
      <chapter num="3">DOM</chapter>
   </table>
</cours>

De cette façon, les éléments title et table font partie de l'espace de noms que nous avons créé.
Nous pouvons maintenant ajouter des éléments de l'espace de noms associé à HTML sans risquer qu'ils soient confondus avec les nôtres. Il nous suffit pour cela de connaître l'uri associé à cet espace de noms (il figure dans n'importe quel document HTML bien écrit, il s'agit par exemple de http://www.w3.org/1999/xhtml).

Il reste un problème : comment allons distinguer les éléments de l'un ou de l'autre espace de noms ?

Pour cela, nous allons faire correspondre à un espace de noms donné un préfixe que nous utiliserons pour préfixer les éléments de cet espace.
Ainsi, dans la troisième version de notre document, nous avons déclaré que nous voulons marquer par le préfixe html les éléments de l'espace de noms associé à http://www.w3.org/1999/xhtml.

Voir

<?xml version="1.0" encoding="ISO-8859-1"?>
<cours xmlns="http://ouest.pleiad.net" xmlns:html="http://www.w3.org/1999/xhtml">
   <title>
      NFE102 - Infrastructures technologiques pour le Commerce Électronique
   </title>
   <table>
      <chapter num="1">HTML</chapter>
      <chapter num="2">CSS</chapter>
      <chapter num="3">DOM</chapter>
   </table>
</cours>

Regardez bien les deux déclarations d'espaces de noms : elles n'ont pas la même forme. La première définit l'espace de noms par défaut (il n'y a donc pas de préfixe), la seconde définit non seulement un espace de noms, mais aussi le préfixe html qui lui sera associé.
Ainsi, nous pouvons maintenant ajouter par exemple un élément html:title dans notre document : il ne sera pas confondu avec notre élément title existant :

Voir

<?xml version="1.0" encoding="ISO-8859-1"?>
<cours xmlns="http://ouest.pleiad.net" xmlns:html="http://www.w3.org/1999/xhtml">
   <html:title>Contenu du cours</html:title>
   <title>
      NFE102 - Infrastructures technologiques pour le Commerce Électronique
   </title>
   <table>
      <chapter num="1">HTML</chapter>
      <chapter num="2">CSS</chapter>
      <chapter num="3">DOM</chapter>
   </table>
</cours>

Si nous regardons l'exemple cette dernière version avec Mozilla ou FireFox, nous constaterons que notre but a bien été atteint : l'élément html:title n'a pas été confondu avec l'élément title ; le contenu du premier se retrouve effectivement dans le titre de la fenêtre tandis que le contenu du second est affiché dans la fenêtre.

Nous pouvons maintenant continuer en ajoutant un élément html:style qui contiendra le style CSS du document. Mais il nous faudra trouver un moyen de relier le document à cette feuille de style, ce sera le rôle de l'instruction de traitement que nous ajoutons en ligne 2 :

Voir

<?xml version="1.0" encoding="ISO-8859-1"?>
<?xml-stylesheet type="text/css" href="#mesStyles" ?>
<cours xmlns="http://ouest.pleiad.net" xmlns:html="http://www.w3.org/1999/xhtml">
   <html:style id="mesStyles">
        * {display:block}
   </html:style>
   <html:title>Contenu du cours</html:title>
   <title>
      NFE102 - Infrastructures technologiques pour le Commerce Électronique
   </title>
   <table>
      <chapter num="1">HTML</chapter>
      <chapter num="2">CSS</chapter>
      <chapter num="3">DOM</chapter>
   </table>
</cours>

Le résultat obtenu est différent sous Internet Explorer et Mozilla :

Les deux navigateurs distinguent correctement les espaces de noms et le titre de la fenêtre est correct dans les deux cas. Mais Internet Explorer considère que la règle * {display:block} ne s'applique qu'aux éléments de l'espace par défaut, tandis que Mozilla considére qu'ellle s'applique à tous les éléments (y compris les éléments title et style de l'espace HTML).

Comme souvent, c'est Mozilla qui a raison et qui nous offre en prime un moyen de distinguer les règles CSS par espaces de noms. Nous allons utiliser pour cela une règle-at nommée @namespace. Cette règle permet de faire correspondre un préfixe à un espace de noms et de préfixer ensuite les éléments avec ce préfixe. Ce dispositif est identique à celui décrit plus haut avec l'attribut xmlns, mais il est spécifique à CSS. À noter que le séparateur entre le préfixe et le nom de l'élément est ici une barre verticale à la place du double-point.

Voir

<?xml version="1.0" encoding="ISO-8859-1"?>
<?xml-stylesheet type="text/css" href="#mesStyles" ?>
<cours xmlns="http://ouest.pleiad.net" xmlns:html="http://www.w3.org/1999/xhtml">
   <html:style id="mesStyles">
        @namespace cnam url('http://ouest.pleiad.net');
        cnam|* {display:block}
        cnam|title {color:red; font-family:arial; font-size:18pt; 
                    text-align:center;margin-bottom:2cm}
        cnam|table {margin-left:40%}
   </html:style>
   <html:title>Contenu du cours</html:title>
   <title>
      NFE102 - Infrastructures technologiques pour le Commerce Électronique
   </title>
   <table>
      <chapter num="1">HTML</chapter>
      <chapter num="2">CSS</chapter>
      <chapter num="3">DOM</chapter>
   </table>
</cours>

Nous pourrions continuer en utilisant n'importe quel élément HTML dans ce document (html:table, html:hr, etc...) pour la mise en page de notre document. Nous pourrions également définir des règles de style différentes pour les éléments de l'espace de noms HTML/

Exercice

Modifier le document ci-dessus de manière à ce que les éléments chapter soient inclus dans des éléments html:li eux-mêmes contenus dans un élément html:ol.

Ajouter la règle de style suivante après avoir défini le préfixe html dans une règle-at adéquate :

html|ol {list-style-type: upper-roman;}

Solution

Portée d'un espace de noms

Il faut noter que la déclaration de l'espace de noms n'est pas nécessairement faite au niveau le plus élevé : en fait, la portée d'une telle déclaration est celle du contenu de l'élément possédant cet attribut.

Ceci signifie en particulier que tous les sous-éléments d'un tel élément hériteront de l'espace de noms correspondant.

Exemple : Dans le document ci-dessous, l'espace de noms "http://www.cnam.fr" contient les éléments racine, A et le deuxième élément C tandis que l'espace de noms "http://info.unicaen.fr" contient l'élément B et le premier des deux éléments C.

<?xml version="1.0" encoding="ISO-8859-1" ?>
  <racine mmlns="http://www.cnam.fr">
    <A>
      <B xmlns="http://info.unicaen.fr">
        <C/>
      </B>
      <C/>
    </A>
  </racine>

Ceci vaut aussi pour les espaces de noms associés à un préfixe. En fait, ceux-ci ne sont guère différents des espaces de noms par défaut à ceici près que le préfixe est une chaîne vide pour ces derniers.

Notons que deux préfixes identiques peuvent éventuellement cohabiter dans le même document mais avec des espaces de noms associés différents, comme le montre l'exemple suivant :

<?xml version="1.0" encoding="ISO-8859-1" ?>
  <p:racine mmlns:p="http://www.cnam.fr">
    <A>
      <p:B xmlns:p="http://info.unicaen.fr">
        <p:C/>
      </p:B>
      <p:C/>
    </A>
  </racine>

Dans le document ci-dessus, nous distinguons trois espaces de noms :

l'espace de noms par défaut (implicite : il contient le seul élément A)
l'espace de noms associé à "http://www.cnam.fr" : il contient l'élément p:racine et le deuxième élément p:C
l'espace de noms associé à "http://info.unicaen.fr" : il contient l'élément p:B et le premier élément p:C

Exercice

Déterminer l'espace de noms de chaque élément du document ci-dessous :

<?xml version="1.0" encoding="UTF-8"?>
<root>
   <table xmlns="http://www.w3.org/1999/xhtml" border="1">
      <tr><td>Nom</td><td>Adresse</td></tr>
      <tr>
         <td>
            <hr xmlns="">auteur : </hr>
            Hugo
         </td>
         <td>Paris</td>
      </tr>
   </table>
</root

Solution

La représentation arborescente

Nous avons déjà étudié le Modèle Objet de Document (DOM) à l'occasion des pages HTML ou XHTML.

La représentation arborescente d'un document XML est simplement un arbre respectant les spécificatiopns du DOM.

Rappelons-en rapidement l'essentiel.

Plusieurs types de nœuds

Il existe plusieurs types de nœuds dans un arbre DOM. Les différents types de nœuds sont :

les nœuds de type DOCUMENT (type=9) : un seul nœud de ce type par document ; il constitue la racine de l'arbre et permet l'accès à tous les autres nœuds. Il sert également d'usine pour fabriquer de nouveaux nœuds.
les nœuds de type DOCUMENT_TYPE (type=10) : également un seul nœud de ce type par document ; il est facultatif. S'il existe, il contient la DTD du document.
les nœuds de type COMMENT (type=8) : en nombre illimité, il peuvent se situer n'importe où sous la racine de l'arbre (éventuellement en dehors de l'élément racine).
les nœuds de type PROCESSING_INSTRUCTION (type=7) : comme les commentaires, ils sont en nombre illimité et peuvent se situer n'importe où sous la racine de l'arbre.
les nœuds de type ELEMENT (type=1) : l'un d'entre eux est distingué en tant qu'élément-racine : tous les autres éléments sont des descendants de l'élément racine.
Attention à ne pas confondre l'élément racine (DocumentElement) avec le nœud document lui-même.
les nœuds de type TEXT (type=3) : ils ne peuvent figurer que sous l'élément racine du document.
les nœuds de type CDATA_SECTION (type=4) : comme TEXT
les nœuds de type ATTRIBUTE (type=2) : bien qu'ils soient nécessairement attachés à un nœud de type ELEMENT, ils n'en constituent pas un fils dans la mesure où ils ne sont pas accessibles à l'aide de getChildNodes.

Parcourir l'arborescence

Il existe deux types de parseurs capable de parcourir l'arborescence d'un document XML sérialisé :

les parseurs DOM
les parseurs SAX

Un parseur DOM va construire intégralement en mémoire l'arbre du document et va permettre ensuite au programmeur d'atteindre n'importe quel nœud de cet arbre à l'aide des fonctions de l'API du DOM (voir le cours correspondant).

Un parseur SAX va parcourir le document XML en déclenchant un certain nombre d'évènements tels que "début d'élément" ou "fin d'élément" par exemple, à charge pour le programmeur de fournir les procédures qui seront déclenchées par ces évènements.

L'intérêt d'un parseur SAX par rapport aux parseurs DOM est qu'il a besoin de beaucoup moins de mémoire puisque le document n'est pas représenté dans la mémoire. L'inconvénient est que le traitement doit se faire au fur et à mesure que les évènements surviennent et dans l'ordre dans lequel les éléments figurent dans le document sérialisé.

Voir les exercices de TP pour des exemples concrets.