+ +

XML vu comme un arbre (1/2)

Tout ce qui apparait dans le document correspond Ã un nÅud de + l'arbre (texte, balises, commentaires, blanc, â¦)
Il existe en plus, un nÅud fictif se trouvant au dessus de + l'Ã©lÃ©ment racine, le nÅud document
Un couple balise ouvrante/balise fermante correspond Ã un seul + nÅud +
Les principaux types de nÅuds sont: Ã©lÃ©ment, attribut, texte, + commentaire, document

+ +

XML vu comme un arbre (2/2)

Un document XML peut Ãªtre vu comme un arbre:


+
+  
+    Foundations of Databases
+    Abiteboul
+    Hull
+    Vianu
+    Addison Wesley
+    1995
+  
+
+  
+    The Lord of the Rings
+    J. R. R. Tolkien
+    Houghton Mifflin
+    2001
+  
+
+]]>

SÃ©rialisation d'un arbre sous forme de document

Ãtant donnÃ© un arbre, comment peut ont produire + le document XML correspondant ?

       //pseudo-code
+      void print(Node n)
+      {
+         if (n is text or comment) { output_text(n) }
+         else {
+                output_text ("<" + tag(n) + ">");
+                for k in children(n)
+                    print(k);
+                output_text ("</" + tag(n) + ">");
+         }
+

On effectue un parcours en profondeur d'abord
Si le nÅud courant est une feuille, on l'affiche
Sinon on affiche la balise ouvrante, puis rÃ©cursivement tous + les fils, puis la balise fermante

Ordre du document, parcours prÃ©fixe

On appelle ordre du document un ordre total sur les + nÅuds d'un document qui correspond Ã leur ordre dans un fichier + sÃ©rialisÃ©. Il correspond aussi Ã la numÃ©rotation lors du parcours + prÃ©fixe

#document
bibliography
book
title
"Foundations of Databases"
author
"Abiteboul"
author
"Hull"
author
"Vianu"

+ +

Construction d'un arbre Ã partir d'un fichier XML ?

Pour simplifier on suppose un fichier sans texte, uniquement avec + des balises ouvrantes/fermantes


+ type Node = { label : string; children : List<Node> }
+ Stack<Node> stack;
+ stack.push (new Node("#document"), []));
+ while (true) {
+
+  tag = read ();
+  if end_of_file () break;
+  if tag is opening {
+               parent = stack.peek();
+               node = new Node(tag, []);
+               parent.addChild(node);
+               stack.push(node);
+  }
+  if tag is closing {
+      stack.pop();
+  }
+ }
+

En pratique, on utilise des bibliothÃ¨ques toutes faites pour + lire/Ã©crire des fichiers!

XPath, introduction

IntÃ©rogation de documents XML

Les documents reprÃ©sentant des donnÃ©es (semi-) structurÃ©es, on + souhaite en extraire de l'information

On va pouvoir Ã©crire des requÃªtes sur des critÃ¨res scalaires + ( +Â« renvoyer tous les livres publiÃ©s aprÃ¨s 2000 Â»), mais aussi sur des + critÃ¨res de structure (Â« renvoyer tous les Ã©lÃ©ments qui ont + un fils author Â»)

XPath

XPath est un langage de selection de nÅud dans un document + XML. Il ne permet que de sÃ©lectionner des nÅuds, pas d'en + construire de nouveaux. C'est un langage restreint qui ne contient + pas de fonctions, variables, â¦ On peut le voir comme un Ã©quivalent + du SELECT de SQL

XPath (exemple)

SÃ©lectionner tous les titres du document (de maniÃ¨re compliquÃ©e)

+ /descendant::author/parent::book/child::title +

+ +

XPath : syntaxe

La syntaxe d'une requÃªte XPath est:

+ /axe₁::test₁[ pred₁ ]/ â¦ /axe_n::test_n[ pred_n ] +

axe + : self, child, descendant, parent, + â¦ +
test : node(), text(), *, ou un + nom d'Ã©lÃ©ment
pred(icat) : chemin XPath, expression arithmÃ©tique, + comparaison, â¦ +

exemple:

/descendant::book[ child::year > 2000] / child::title

+ +

XPath : sÃ©mantique

Ãtant donnÃ© la requÃªte:

+ /axe₁::test₁[ pred₁ ]/ â¦ /axe_n::test_n[ pred_n ] +

le nÅud contexte au nÅud document
on sÃ©lectionne l'ensemble A₁ tous les nÅuds qui sont dans + l'axe₁ par rapport au nÅud contexte
on sÃ©lectionne l'ensemble T₁ des nÅud de + A₁ qui vÃ©rifient le test test₁
on sÃ©lectionne l'ensemble P₁ des nÅud de + T₁ qui vÃ©rifient pred₁
On rÃ©applique le pas 2 sur P₁
â¦

XPath : sÃ©mantique (exemple)

+ /descendant::author/parent::book/child::title +

On sÃ©lÃ©ctionne le nÅud document
On sÃ©lÃ©ctionne tous les descendants
On filtre en ne gardant que les nÅuds ~~author~~ + (T₁ â¡ P₁)
Sur chacun des ~~author~~ on prend le parent (on n'obtient que + 2 parents car on garde des ensembles de noeuds)
On filtre les parents pour ne garder que ceux qui + sont book
On sÃ©lectionne tous les fils de chacun des book
On ne garde que les fils qui ont le + tag title

+ +

XPath : axes

self : on reste sur le nÅud courant
child : tous les fils du nÅud courant
parent : le parent du nÅud courant. Seul le nÅud document + n'a pas de parent
descendant : les fils, les fils des fils, etc. du nÅud courant
ancestor : le parent, et le parent du parent, etc. du nÅud + courant
following-sibling: le frÃ¨res se trouvant aprÃ¨s
preceding-sibling: les frÃ¨res se trouvant avant

XPath : les tests

node() : n'importe quel nÅud
text() : un nÅud texte ("The Lord of the + Rings")


+      p ::=   p or p
+         |    p and p
+         |    not (p)
+         |    count(â¦), contains(â¦), position(), â¦
+         |    chemin XPath
+         |    e₁ op e₂
+

On Ã©value le prÃ©dicat et on converti son rÃ©sultat en valeur de + vÃ©ritÃ©. Si la valeur vaut vrai, on garde le nÅud courant, si elle + vaut faux, on ne le garde pas +

Les chaÃ®nes de caractÃ¨res, chaÃ®ne vide = faux, sinon vrai
Les ensembles de nÅuds, ensemble vide = faux, sinon vrai

+ +

/descendant::book [ child::title ] : sÃ©lectionne chaque + Ã©lÃ©ment book pour lequel l'ensemble des fils de nom title n'est + pas vide
/descendant::book [ contains(child::title, "Ring") ]
/descendant::book [ count(child::author) > 2 + or contains(child::author, "Tolk") + ]/child::title

Assez verbeux
Langage de requÃªtes monadique (on ne peut renvoyer que + des ensembles de nÅuds. Par exemple il est impossible de renvoyer + des ensembles de paires auteur/titre de livre)

XML et Programmation Internet

Cours 2

ModÃ¨le d'arbre