- -

XML vu comme un arbre (1/2)

Tout ce qui apparait dans le document correspond Ã un nÅud de - l'arbre (texte, balises, commentaires, blanc, â¦)
Il existe en plus, un nÅud fictif se trouvant au dessus de - l'Ã©lÃ©ment racine, le nÅud document
Un couple balise ouvrante/balise fermante correspond Ã un seul - nÅud -
Les principaux types de nÅuds sont: Ã©lÃ©ment, attribut, texte, - commentaire, document

- -

XML vu comme un arbre (2/2)

Un document XML peut Ãªtre vu comme un arbre:


-
-  
-    Foundations of Databases
-    Abiteboul
-    Hull
-    Vianu
-    Addison Wesley
-    1995
-  
-
-  
-    The Lord of the Rings
-    J. R. R. Tolkien
-    Houghton Mifflin
-    2001
-  
-
-]]>

SÃ©rialisation d'un arbre sous forme de document

Ãtant donnÃ© un arbre, comment peut ont produire - le document XML correspondant ?

       //pseudo-code
-      void print(Node n)
-      {
-         if (n is text or comment) { output_text(n) }
-         else {
-                output_text ("<" + tag(n) + ">");
-                for k in children(n)
-                    print(k);
-                output_text ("</" + tag(n) + ">");
-         }
-

On effectue un parcours en profondeur d'abord
Si le nÅud courant est une feuille, on l'affiche
Sinon on affiche la balise ouvrante, puis rÃ©cursivement tous - les fils, puis la balise fermante

Ordre du document, parcours prÃ©fixe

On appelle ordre du document un ordre total sur les - nÅuds d'un document qui correspond Ã leur ordre dans un fichier - sÃ©rialisÃ©. Il correspond aussi Ã la numÃ©rotation lors du parcours - prÃ©fixe

#document
bibliography
book
title
"Foundations of Databases"
author
"Abiteboul"
author
"Hull"
author
"Vianu"

- -

Construction d'un arbre Ã partir d'un fichier XML ?

Pour simplifier on suppose un fichier sans texte, uniquement avec - des balises ouvrantes/fermantes


- type Node = { label : string; children : List<Node> }
- Stack<Node> stack;
- stack.push (new Node("#document"), []));
- while (true) {
-
-  tag = read ();
-  if end_of_file () break;
-  if tag is opening {
-               parent = stack.peek();
-               node = new Node(tag, []);
-               parent.addChild(node);
-               stack.push(node);
-  }
-  if tag is closing {
-      stack.pop();
-  }
- }
-

En pratique, on utilise des bibliothÃ¨ques toutes faites pour - lire/Ã©crire des fichiers!

XPath, introduction

IntÃ©rogation de documents XML

Les documents reprÃ©sentant des donnÃ©es (semi-) structurÃ©es, on - souhaite en extraire de l'information

On va pouvoir Ã©crire des requÃªtes sur des critÃ¨res scalaires - ( -Â« renvoyer tous les livres publiÃ©s aprÃ¨s 2000 Â»), mais aussi sur des - critÃ¨res de structure (Â« renvoyer tous les Ã©lÃ©ments qui ont - un fils author Â»)

XPath

XPath est un langage de selection de nÅud dans un document - XML. Il ne permet que de sÃ©lectionner des nÅuds, pas d'en - construire de nouveaux. C'est un langage restreint qui ne contient - pas de fonctions, variables, â¦ On peut le voir comme un Ã©quivalent - du SELECT de SQL

XPath (exemple)

SÃ©lectionner tous les titres du document (de maniÃ¨re compliquÃ©e)

- /descendant::author/parent::book/child::title -

- -

XPath : syntaxe

La syntaxe d'une requÃªte XPath est:

- /axe₁::test₁[ pred₁ ]/ â¦ /axe_n::test_n[ pred_n ] -

axe - : self, child, descendant, parent, - â¦ -
test : node(), text(), *, ou un - nom d'Ã©lÃ©ment
pred(icat) : chemin XPath, expression arithmÃ©tique, - comparaison, â¦ -

exemple:

/descendant::book[ child::year > 2000] / child::title

- -

XPath : sÃ©mantique

Ãtant donnÃ© la requÃªte:

- /axe₁::test₁[ pred₁ ]/ â¦ /axe_n::test_n[ pred_n ] -

le nÅud contexte au nÅud document
on sÃ©lectionne l'ensemble A₁ tous les nÅuds qui sont dans - l'axe₁ par rapport au nÅud contexte
on sÃ©lectionne l'ensemble T₁ des nÅud de - A₁ qui vÃ©rifient le test test₁
on sÃ©lectionne l'ensemble P₁ des nÅud de - T₁ qui vÃ©rifient pred₁
On rÃ©applique le pas 2 sur P₁
â¦

XPath : sÃ©mantique (exemple)

- /descendant::author/parent::book/child::title -

On sÃ©lÃ©ctionne le nÅud document
On sÃ©lÃ©ctionne tous les descendants
On filtre en ne gardant que les nÅuds ~~author~~ - (T₁ â¡ P₁)
Sur chacun des ~~author~~ on prend le parent (on n'obtient que - 2 parents car on garde des ensembles de noeuds)
On filtre les parents pour ne garder que ceux qui - sont book
On sÃ©lectionne tous les fils de chacun des book
On ne garde que les fils qui ont le - tag title

- -

XPath : axes

self : on reste sur le nÅud courant
child : tous les fils du nÅud courant
parent : le parent du nÅud courant. Seul le nÅud document - n'a pas de parent
descendant : les fils, les fils des fils, etc. du nÅud courant
ancestor : le parent, et le parent du parent, etc. du nÅud - courant
following-sibling: le frÃ¨res se trouvant aprÃ¨s
preceding-sibling: les frÃ¨res se trouvant avant

XPath : les tests

node() : n'importe quel nÅud
text() : un nÅud texte ("The Lord of the - Rings")


-      p ::=   p or p
-         |    p and p
-         |    not (p)
-         |    count(â¦), contains(â¦), position(), â¦
-         |    chemin XPath
-         |    e₁ op e₂
-

On Ã©value le prÃ©dicat et on converti son rÃ©sultat en valeur de - vÃ©ritÃ©. Si la valeur vaut vrai, on garde le nÅud courant, si elle - vaut faux, on ne le garde pas -

Les chaÃ®nes de caractÃ¨res, chaÃ®ne vide = faux, sinon vrai
Les ensembles de nÅuds, ensemble vide = faux, sinon vrai

- -

/descendant::book [ child::title ] : sÃ©lectionne chaque - Ã©lÃ©ment book pour lequel l'ensemble des fils de nom title n'est - pas vide
/descendant::book [ contains(child::title, "Ring") ]
/descendant::book [ count(child::author) > 2 - or contains(child::author, "Tolk") - ]/child::title

Assez verbeux
Langage de requÃªtes monadique (on ne peut renvoyer que - des ensembles de nÅuds. Par exemple il est impossible de renvoyer - des ensembles de paires auteur/titre de livre)

XML et Programmation Internet

Cours 2

ModÃ¨le d'arbre