@@ -85,7 +88,7 @@ FROM people,role WHERE people.pid = role.pid; -

OpÃ©reeation fondamentale utilisÃ©e +

OpÃ©ration fondamentale utilisÃ©e par toutes les applications BD.
L'AR nous dit que R &join; S = σ₌(R x T), mais c'est ~~trÃ¨s inefficace~~, on veut optimiser ce cas! diff --git a/bd/bd05.xhtml b/bd/bd05.xhtml new file mode 100644 index 0000000..9d7e4bf --- /dev/null +++ b/bd/bd05.xhtml @@ -0,0 +1,410 @@ + +â"> + â"> + + +] + > + + + Optimisation de requÃªtes + + + + + + + + + + + + + + + + + + + + +

Bases de donnÃ©es

Polytech Paris-Sud

Apprentis 4^Ã¨me annÃ©e

Cours 5 : Optimisation des requÃªtes

+ kn@lri.fr
+ http://www.lri.fr/~kn +

+ +

Motivation et introduction

Principe d'Ã©valuation d'une requÃªte

Parsing de la requÃªte
Traduction en arbre + d'opÃ©rateurs de l'algÃ¨bre + relationnelle (π, + σ, â¨, â¦ )
Optimisation : +
1. GÃ©nÃ©ration de plans + d'Ã©valuation (en + rÃ©ordonnant les opÃ©rations Ã©lÃ©mentaires)
2. Estimation du coÃ»t de chacun des + plans (en fonction du coÃ»t + des opÃ©rations Ã©lÃ©mentaires)
3. Choix du plan le plus efficace
+
Ãvaluation du plan choisi
(Ãventuellement mise Ã jour des statistiques)

On va voir comment optimiser l'Ã©valuation d'une requÃªte

Exemple pour la suite du cours

  Sailors(mid: integer, sname: string, rating: integer, age: real);
+  Reserves(sid: integer, bid: integer, day: date, rname: string);
+  Boats(bid: integer, bname: string, capacity: integer);
+

Sailors: 50 octets/enr., 80 enr/page, 500 + pages
Reserves: 40 octets/enr., 100 enr/page, 1000 + pages
Boats: non utilisÃ© dans la suite

GÃ©nÃ©ralitÃ©s

Un plan d'exÃ©cution de requÃªte est un arbre + dont les noeuds sont des opÃ©rateurs de l'algÃ¨bre relationnelle + annotÃ©s avec un algorithme particulier. +

Pour une requÃªte donnÃ©e, quels plans doit-on considÃ©rer + ?
Comment peut on estimer le coÃ»t total d'un plan

IdÃ©alement, on veut trouver le meilleur plan. En pratique, on + choisira le moins pire!

Exemple


+  SELECT S.sname
+  FROM Reserves R, Sailors S
+  WHERE R.sid = S.sid AND bid = 100 AND rating > 5
+

Cout: 500+500*1000 E/S (pourquoi ?)
Plusieurs occasions manquÃ©es : pas d'utilisation d'index, on + aurait pu pousser la selection sous la jointure, â¦
Notre but est de trouver des plans d'exÃ©cution plus efficaces + qui calculent le mÃªme rÃ©sultat

Plan alternatif 1 (sans index)

On pousse la sÃ©lection sous la jointure (car + selection AND). On suppose qu'on a 100 + bateaux, 10 notes et distributions uniformes.

Scan Reserves (1000 E/S) et Ã©criture de 10 pages dans T1
Scan Sailors (500 E/S) et Ã©criture de 250 pages dans T2
Tri T1 (3*10 E/S), Tri T2 (8*250 E/S), fusion (10+250 E/S)
Total: 4050 E/S
Si on pousse la projection, T1 ne contient que sid, T2 + uniquement sid et sname (cout < 2000 E/S)

Plan alternatif 2 (avec index)

On suppose un hash-index groupant sur bid +

AccÃ¨s au premier enregistrement bid=100 1.2 E/S
AccÃ¨s aux suivants: 9 E/S
sid est une clÃ© pour Sailors. On a un hash-index dessus + (forcÃ©ment non-groupant)
Pour chacun des 10 * 100 enr. tels que bid=100 on + cherche l'enregistrement de Sailors avec le mÃªme sid (1.2 + E/S/enr)
CoÃ»t total: 1000 * 1.2 + 10.2 = 1210 E/S

Algorithme gÃ©nÃ©ral de choix de plan

Cas mono-relation (une seule table dans le FROM): +
1. On Ã©numÃ¨re tous les plans (en tenant compte des + Ã©quivalences de l'algÃ¨bre relationnelle)
2. On calcule le coÃ»t de chaque plan
3. On choisit le plan de moindre coÃ»t
+
Cas multi-relations (plusieurs tables dans le FROM): +
1. Trop de plan pour les Ã©numÃ©rer tous, on choisit des arbres + ayant une certaine forme
2. On calcule le coÃ»t de chaque plan
3. On choisit le plan de moindre coÃ»t
+
On sait (cours 4) estimer le coÃ»t d'un opÃ©rateur en fonction de + la taille de l'entrÃ©e. On va enchaÃ®ner les opÃ©rateurs donc il faut + estimer la taille du rÃ©sultat pour calculer + le coÃ»t de l'opÃ©rateur suivant!

Estimation de coÃ»t

Statistiques et catalogues

On a besoin d'informations numÃ©riques sur les relations et les + indexes. Un catalogue contient en gÃ©nÃ©ral:

Le nombre d'enregistrements (NEnr) et le + nombre de pages (NPages) de la relation. +
Le nombre de clÃ©s distinctes (NClÃ©s) pour les + indexes ainsi que leur taille en pages
La hauteur ainsi que les clÃ©s min/max dans l'index, pour les + arbres

Les catalogues sont mis Ã jours pÃ©riodiquement mais pas Ã chaque + mise Ã jours, pour ne pas impacter les performances.

Estimation du nombre de rÃ©sultats et facteur de rÃ©duction

On considÃ¨re une requÃªte de la forme:

  SELECT attributs FROM tables WHERE e₁ AND â¦ AND e_n
+

La taille maximale TMax du rÃ©sultat est le produit des tailles des + tables se trouvant dans le FROM
Le facteur de rÃ©duction de chaque expression e + caractÃ©rise l'impact de ce terme sur la taille du rÃ©sultat
La taille finale du rÃ©sultat est approximÃ©e par: TMax * + RF₁ * â¦ * RF_n

On fait la supposition que les expressions sont indÃ©pendantes.
+Exemples de facteurs de rÃ©duction: +

att = valeur : 1 / + NClÃ©s si att este une clÃ© pour un index I
att₁ = att₂ : 1/Max(NClÃ©(I1), + NClÃ©(I2)) (avec att_i une clÃ© + de Ii)
att > valeur : (Max(I)-valeur)/(Max(I) - Min(I)) +

Ãquivalences de l'algÃ¨bre relationnelle

Permet de rÃ©ordonner les jointures et de Â« pousser Â» les sÃ©lections + et les projections sous les jointures

SÃ©lections : +
- σ_{c₁∧â¦∧c_n}(R) + â¡ + σ_c₁(â¦ (σ_{c_n}(R))) [Cascade] +
- + σ_c₁(σ_c₂(R)) + â¡ + σ_c₂(σ_c₁(R)) + [CommutativitÃ©] +
+
Projections : +
- π_{a₁, â¦, a_n}( + â¦(π_{z₁, â¦, z_m}(R)) + â¡ + π_{a₁, â¦, a_n}(R) [Cascade] +
+
Jointures : +
- R &join; (S &join; T) â¡ (R &join; S) &join; T [AssociativitÃ©] +
- (R &join; S) â¡ (S &join; R) [CommutativitÃ©] +
+

Autres Ã©quivalences

+Une projection commute avec une selection qui utilise uniquement + les attributs de la projection
Une selection entre des attributs de deux arguments d'un + produit cartÃ©sien peut Ãªtre converti en jointure: + σ_φ (R × S) â¡ R &join;_φ S +
Une selection sur des attributs de R commute avec la + jointure R&join;S (c'est Ã dire: σ(R&join;S) â¡ σ(R)&join;S ) +
RÃ¨gle similaire pour pousser les projections sous jointure

ÃnumÃ©ration de plans

ModÃ¨le de calcul

+ Les SGBD modernes utilisent un modÃ¨le de + calcul pull. L'opÃ©rateur le plus Â« haut Â» (racine) + dans l'arbre de requÃªte Â« tire Â» (pull) le rÃ©sultat de ses + sous-arbres (similaire Ã l'appel de next sur les iterateurs + de la bibliothÃ¨que standard Java). Cela permet + de pipeliner les opÃ©rateurs. Certains opÃ©rateurs Â« + bloquent Â» le pipeline (en particulier les tris et + aggrÃ©gats). +

+ +

Cas mono-relation

Dans le cas mono-relation (i.e. sans jointure), la requÃªte est + composÃ©e forcÃ©ment de selections, projections et aggrÃ©gats + (max, count, average, â¦)

Pour chaque sous-terme, on considÃ¨re tous les accÃ¨s possibles + (scan, utilisation de l'index, â¦) et on prend le moins coÃ»teux
Les opÃ©rateurs restants sont calculÃ© Ã la volÃ©e (en + pipelinant les opÃ©rations) +

Estimation du coÃ»t pour les plans mono-relation

Si on a un index I pour une selection sur clÃ© primaire : + Hauteur(I) + 1 pour un arbre B+, 1.2 + pour un hash-index
Si on a un index I groupant pour plusieurs + selection σ₁, â¦, σ_n :
+ (NPages(I) + NPages(R))* RF(σ₁) * â¦ * RF(σ_n) +
Si on a un index I non-groupant pour plusieurs + selection σ₁, â¦, σ_n :
+ (NPages(I) + NEnr(R))* RF(σ₁) * â¦ * RF(σ_n) +

Exemple de calcul de coÃ»t

+ SELECT S.sid FROM Sailors S WHERE S.rating = 8; + π_sid(σ_{rating = 8}(R)) +

Avec un index sur rating: +
- Groupant: 1/NClÃ©s(I) * (NPages(I) + + NPages(R)). Avec des valeurs numÃ©riques: 1/10 * + (50+500) = 55 E/S
- Non-groupant: 1/NClÃ©s(I) * (NPages(I) + + NEnr(R)). Avec des valeurs numÃ©riques: 1/10 * + (50+40000) = 4005 E/S
+

Note: Une fois que l'on a sÃ©lectionnÃ© un enregistrement, + la projection est Â« gratuite Â» (en terme d'E/S) car le rÃ©sultat n'a + pas Ã Ãªtre sauvÃ© dans une table temporaire

RequÃªtes multi-relations

Si on considÃ¨re uniquement n jointures (pas de projections ni + de selections dans le plan de requÃªte). Le nombre de plans possible + est le nombre d'arbre binaires ayant n noeuds internes + (exponentiel en n, exactement: nombre de Catalan + d'indice n). ~~Beaucoup trop pour les Ã©numÃ©rer tous~~. +
On se restreint aux arbres gauches en profondeur qui + permettent d'Ã©numÃ©rer tous les plans complÃ¨tement + Â« pipelinable Â» +

Toujours exponentiel (mais moins)

Tous les arbres diffÃ©rent maintenant dans l'ordre dans lequel on + fait les jointures, la mÃ©thode d'accÃ¨s pour chaque relation et les + algorithmes de jointure utilisÃ©s

On applique l'heuristique suivante:

1^Ã¨re passe: on trouve la meilleure maniÃ¨re de calculer + chaque relation individuellement +

Comment sÃ©lectionner les Â« meilleurs Â» jointures + ? On garde pour chaque ordre de + rÃ©sultat intermÃ©diaire celle de moindre coÃ»t +

Exemple: si on a la possibilitÃ© de faire une jointure itÃ©rative de + cout 1000, une jointure par hash de coÃ»t 500 et une jointure + sort-merge de coÃ»t 1500, on garde les version hash + et ~~sort-merge~~ (car il est possible que le fait d'avoir les + rÃ©sultats dÃ©jÃ triÃ© rendent le coÃ»t moindre Ã l'Ã©tape suivante) +

On garde les ORDER BY, GROUP BY, aggrÃ©gats, â¦ + pour la fin, en profitant si possible des ordres des rÃ©sultats faits + par les jointures prÃ©cÃ©dentes


+    SELECT â¦ FROM â¦ WHERE
+     â¦ e AND EXISTS  (SELECT â¦ WHERE â¦ FROM â¦)
+

On optimise d'abord la requÃªte la plus Â« interne Â»

On optimise ensuite la requÃªte englobante en utilisant prenant en + compte le coÃ»t de la requÃªte interne pour chaque Â« Ã©valuation Â» du + WHERE +

+ + diff --git a/bd/left_deep.svg b/bd/left_deep.svg new file mode 100644 index 0000000..d62df1a --- /dev/null +++ b/bd/left_deep.svg @@ -0,0 +1,427 @@ + + + + diff --git a/bd/pdf/bd05.pdf b/bd/pdf/bd05.pdf new file mode 100644 index 0000000..3b24115 Binary files /dev/null and b/bd/pdf/bd05.pdf differ diff --git a/bd/pdf/bd05_print.pdf b/bd/pdf/bd05_print.pdf new file mode 100644 index 0000000..a3695eb Binary files /dev/null and b/bd/pdf/bd05_print.pdf differ diff --git a/bd/simple_plan.svg b/bd/simple_plan.svg new file mode 100644 index 0000000..147d532 --- /dev/null +++ b/bd/simple_plan.svg @@ -0,0 +1,254 @@ + + + + diff --git a/bd/simple_plan1.svg b/bd/simple_plan1.svg new file mode 100644 index 0000000..7f2de95 --- /dev/null +++ b/bd/simple_plan1.svg @@ -0,0 +1,313 @@ + + + + diff --git a/bd/simple_plan2.svg b/bd/simple_plan2.svg new file mode 100644 index 0000000..1b85940 --- /dev/null +++ b/bd/simple_plan2.svg @@ -0,0 +1,331 @@ + + + +

Motivation

Principe d'Ã©valuation d'une requÃªte

Algorithmes de jointure

Bases de donnÃ©es

Polytech Paris-Sud

Apprentis 4^Ã¨me annÃ©e

Cours 5 : Optimisation des requÃªtes

Motivation et introduction

Principe d'Ã©valuation d'une requÃªte

Exemple pour la suite du cours

GÃ©nÃ©ralitÃ©s

Exemple

Plan alternatif 1 (sans index)

Plan alternatif 2 (avec index)

Algorithme gÃ©nÃ©ral de choix de plan

Estimation de coÃ»t

Statistiques et catalogues

Estimation du nombre de rÃ©sultats et facteur de rÃ©duction

Ãquivalences de l'algÃ¨bre relationnelle

Autres Ã©quivalences

ÃnumÃ©ration de plans

ModÃ¨le de calcul

Cas mono-relation

Estimation du coÃ»t pour les plans mono-relation

Exemple de calcul de coÃ»t

RequÃªtes multi-relations

ÃnumÃ©ration des plans gauches en profondeur 1/2

ÃnumÃ©ration des plans gauches en profondeur 2/2

RequÃªtes imbriquÃ©es

Motivation

Principe d'Ã©valuation d'une requÃªte

Algorithmes de jointure

Bases de donnÃ©es

Polytech Paris-Sud

Apprentis 4Ã¨me annÃ©e

Cours 5 : Optimisation des requÃªtes

Motivation et introduction

Principe d'Ã©valuation d'une requÃªte

Exemple pour la suite du cours

GÃ©nÃ©ralitÃ©s

Exemple

Plan alternatif 1 (sans index)

Plan alternatif 2 (avec index)

Algorithme gÃ©nÃ©ral de choix de plan

Estimation de coÃ»t

Statistiques et catalogues

Estimation du nombre de rÃ©sultats et facteur de rÃ©duction

Ãquivalences de l'algÃ¨bre relationnelle

Autres Ã©quivalences

ÃnumÃ©ration de plans

ModÃ¨le de calcul

Cas mono-relation

Estimation du coÃ»t pour les plans mono-relation

Exemple de calcul de coÃ»t

RequÃªtes multi-relations

ÃnumÃ©ration des plans gauches en profondeur 1/2

ÃnumÃ©ration des plans gauches en profondeur 2/2

RequÃªtes imbriquÃ©es

Apprentis 4^Ã¨me annÃ©e

Ãquivalences de l'algÃ¨bre relationnelle

ÃnumÃ©ration de plans

ÃnumÃ©ration des plans gauches en profondeur 1/2

ÃnumÃ©ration des plans gauches en profondeur 2/2