Bases de donnÃ©es

Polytech Paris-Sud

@@ -90,7 +90,7 @@ pages

Reserves: 40 octets/enr., 100 enr/page, 1000 pages

Boats: non utilisÃ© dans la suite

Boats: 20 octets/enr., 200 enr/page, 200 pages

@@ -100,7 +100,7 @@ annotÃ©s avec un algorithme particulier.

Pour une requÃªte donnÃ©e, quels plans doit-on considÃ©rer +
Pour une requÃªte donnÃ©e, quels plans doit on considÃ©rer ?
Comment peut on estimer le coÃ»t total d'un plan

@@ -116,9 +116,9 @@

Cout: 500+500*1000 E/S (pourquoi ?)
CoÃ»t: 500+500*1000 E/S (pourquoi ?)
Plusieurs occasions manquÃ©es : pas d'utilisation d'index, on - aurait pu pousser la selection sous la jointure, â¦
Notre but est de trouver des plans d'exÃ©cution plus efficaces qui calculent le mÃªme rÃ©sultat

@@ -127,15 +127,15 @@

Plan alternatif 1 (sans index)

On pousse la sÃ©lection sous la jointure (car - selection AND). On suppose qu'on a 100 + sÃ©lection AND). On suppose qu'on a 100 bateaux, 10 notes et distributions uniformes.

Scan Reserves (1000 E/S) et Ã©criture de 10 pages dans T1
Scan Sailors (500 E/S) et Ã©criture de 250 pages dans T2
Scan Reserves (1000 E/S) et Ã©criture de 10 pages dans T1
Scan Sailors (500 E/S) et Ã©criture de 250 pages dans T2
Tri T1 (3*10 E/S), Tri T2 (8*250 E/S), fusion (10+250 E/S)
Total: 4050 E/S
Si on pousse la projection, T1 ne contient que sid, T2 - uniquement sid et sname (cout < 2000 E/S)
Si on pousse la projection, T1 ne contient que sid, T2 + uniquement sid et sname (cout < 2000 E/S)

@@ -260,13 +260,13 @@ Exemples de facteurs de rÃ©duction:

Autres Ã©quivalences

-Une projection commute avec une selection qui utilise uniquement +Une projection commute avec une sÃ©lection qui utilise uniquement les attributs de la projection
Une selection entre des attributs de deux arguments d'un +
Une sÃ©lection entre des attributs de deux arguments d'un produit cartÃ©sien peut Ãªtre converti en jointure: σ_φ (R × S) â¡ R &join;_φ S
Une selection sur des attributs de R commute avec la +
Une sÃ©lection sur des attributs de R commute avec la jointure R&join;S (c'est Ã dire: σ(R&join;S) â¡ σ(R)&join;S )
RÃ¨gle similaire pour pousser les projections sous jointure

ModÃ¨le de calcul

Les SGBD modernes utilisent un modÃ¨le de - calcul pull. L'opÃ©rateur le plus Â« haut Â» (racine) - dans l'arbre de requÃªte Â« tire Â» (pull) le rÃ©sultat de ses - sous-arbres (similaire Ã l'appel de next sur les iterateurs + calcul pull. L'opÃ©rateur le plus Â« haut Â» (racine) + dans l'arbre de requÃªte Â« tire Â» (pull) le rÃ©sultat de ses + sous-arbres (similaire Ã l'appel de next sur les itÃ©rateurs de la bibliothÃ¨que standard Java). Cela permet de pipeliner les opÃ©rateurs. Certains opÃ©rateurs Â« bloquent Â» le pipeline (en particulier les tris et - aggrÃ©gats). + agrÃ©gats).

Cas mono-relation

Dans le cas mono-relation (i.e. sans jointure), la requÃªte est - composÃ©e forcÃ©ment de selections, projections et aggrÃ©gats + composÃ©e forcÃ©ment de sÃ©lections, projections et agrÃ©gats (max, count, average, â¦)

Pour chaque sous-terme, on considÃ¨re tous les accÃ¨s possibles @@ -304,15 +304,15 @@ Une projection commute avec une selection qui utilise uniquement
Estimation du coÃ»t pour les plans mono-relation
- Si on a un index I pour une selection sur clÃ© primaire : +
- Si on a un index I pour une sÃ©lection sur clÃ© primaire : Hauteur(I) + 1 pour un arbre B+, 1.2 pour un hash-index
- Si on a un index I groupant pour plusieurs - selection σ₁, â¦, σ_n :
  + sÃ©lection σ₁, â¦, σ_n :
  (NPages(I) + NPages(R))* RF(σ₁) * â¦ * RF(σ_n)
- Si on a un index I non-groupant pour plusieurs - selection σ₁, â¦, σ_n :
  + sÃ©lection σ₁, â¦, σ_n :
  (NPages(I) + NEnr(R))* RF(σ₁) * â¦ * RF(σ_n)
- Scan sÃ©quentiel Ã R: NPages(R)
ÃnumÃ©ration des plans gauches en profondeur 1/2
@@ -375,24 +375,226 @@ Une projection commute avec une selection qui utilise uniquement deux Ã deux les rÃ©sultats de la passe (n-1)

Comment sÃ©lectionner les Â« meilleurs Â» jointures - ? On garde pour chaque ordre de - rÃ©sultat intermÃ©diaire celle de moindre coÃ»t +

Comment sÃ©lectionner les Â« meilleures Â» jointures ? + On garde pour chaque ordre de + rÃ©sultat intermÃ©diaire celle de moindre coÃ»t

ÃnumÃ©ration des plans gauches en profondeur 2/2

Exemple: si on a la possibilitÃ© de faire une jointure itÃ©rative de - cout 1000, une jointure par hash de coÃ»t 500 et une jointure - sort-merge de coÃ»t 1500, on garde les version hash - et ~~sort-merge~~ (car il est possible que le fait d'avoir les - rÃ©sultats dÃ©jÃ triÃ© rendent le coÃ»t moindre Ã l'Ã©tape suivante) +

Points Ã prendre en compte pour le calcul du coÃ»t d'un plan

Ãviter les plans qui gÃ©nÃ¨rent des produits cartÃ©siens, sauf si + c'est indispensable
Les projections, sÃ©lections, et jointures itÃ©ratives par index + peuvent Ãªtres faites en pipeline (ou streaming sans + itÃ©ration/matÃ©rialisation des rÃ©sultats intermÃ©diaires +
Cela peut valoir le coup d'utiliser un merge-sort join + (possiblement coÃ»teux) si on demande les rÃ©sultats dans un certain + ordre (ORDER BY compatible avec celui de la jointure). Cela Ã©vite de faire + une jointure suivie d'un tri. +
Pousser les sÃ©lections/projections plus bas dans le plan + permet de faire diminuer la taille des rÃ©sultats + intermÃ©diaires. Attention cependant, appliquer une sÃ©lection ou une + projection Ã une table T munie d'un index crÃ©e une table T' plus + petite mais sans + index. +

Exemple

ConsidÃ©rons la requÃªte :


+  SELECT sname, bname FROM Boats B, Sailors S, Reserves R WHERE
+  B.bid = R.bid AND S.sid = R.sid AND S.rating > 8
+

Deux jointures (B &join; R et R &join; S) et une +sÃ©lection sur S. On suppose un hash-index sur S.sid et un +hash-index sur B.bid, les valeurs de notes vont de 1 Ã 10, +uniformÃ©ment rÃ©parties. Tous les sid et tous les bid sont prÃ©sents + dans R. + Les hash-index sont non-groupants et de coÃ»t + d'accÃ¨s 2. + Quels sont les plans possibles ?

+ +

Exemple (Calculs prÃ©liminaires)

+ +

Taille d'une page : 4000 octets
Taille de S : 500 pages, 40 000 enr.
Taille de R : 1000 pages, 100 000 enr.
Taille de B : 200 pages, 40 000 enr.
Taux de sÃ©lectivitÃ© de rating > 8 : 20%
σ_rating>8(S) : 8000 enr. ou 100 pages

+ +

+ + +

Exemple (Plan 1)

+ + + +On choisi de faire d'abord une jointure entre B et S (i.e. un produit +cartÃ©sien car il n'y a pas de condition de jointure entre ces deux +tables). Puis la jointure de la table rÃ©sultante avec B sur les +attributs (bid,sid). +

ManiÃ¨re la plus efficace de calculer S : appliquer la sÃ©lection + directement sur S, puis la jointure B &join; + (σ(S)). Pas d'utilisation d'index possible, jointure page + Ã page (car on gÃ©nÃ¨re tout le produit cartÃ©sien) : 100 Ã + (100 + 200) = 30 000 E/S (pages) ou 19 200 000 enr. +

Puis jointure itÃ©rative page Ã page avec R (pas d'index sur R, pas d'index + sur le rÃ©sultat prÃ©cÃ©dent qu'on vient de crÃ©er en mÃ©moire): + 1 000 Ã (30 000 + 1000) = 31 000 000 E/S. +

CoÃ»t total: 31 300 000 E/S (les projections sont faites + en pipline Ã la fin)

Plan complÃ¨tement inefficace. On ignorera les plans contenant un + produit cartÃ©sien, sauf si c'est le seul moyen de calculer la + requÃªte (SELECT * FROM A, B). +

+ +

Exemple (Plan 2 v1)

+ + + +On choisi de faire d'abord une jointure entre R et B, sur +l'attribut bid puis jointure du rÃ©sultat intermÃ©diaire +sur sid.

+ +

On dispose d'un index sur B.bid. On effectue une + jointure itÃ©rative par index : 1000 + 100 000 Ã 3 : + 301 000 E/S (2 pour le hash-index et 1 pour la lecture des + donnÃ©es depuis l'index). +

La deuxiÃ¨me jointure peut Ãªtre faite Ã la volÃ©e (jointure itÃ©rative + par index sur S.sid) et la condition de sÃ©lection testÃ©e Ã + la volÃ©e. CoÃ»t total 100 000 Ã 3 (pour chacun des enregistrement + prÃ©cÃ©dents, on paye un accÃ¨s d'index + un accÃ¨s Ã la ligne + correspondante dans S). +

CoÃ»t total: 601 000 E/S (les projections sont faites en pipline Ã la fin)

+ +

Exemple (Plan 2 v2)

+ + + +On choisi de faire d'abord une jointure entre R et B, sur +l'attribut bid puis jointure du rÃ©sultat intermÃ©diaire +sur sid.

+ +

On n'utilise pas l'index sur B.bid. On effectue une + jointure itÃ©rative page Ã page : 200 + 200 Ã 1000 : + 200 200 E/S . On a 100 000 rÃ©sultats (car tous les B.bid + sont prÃ©sents dans la table R). Un enregistrement du + rÃ©sultat fait environ 40+20 = 60 octets donc 66 enregistrements par + pages de 4000 octets donc 1515 pages de rÃ©sultats. +

CoÃ»t total: 102 630 E/S (les projections sont faites en pipline Ã la fin)

+ + + +

Exemple (Plan 3)

+ + + +On choisi de faire d'abord une jointure entre R et S, sur +l'attribut sid puis jointure du rÃ©sultat intermÃ©diaire +sur bid.

+ +

On effectue une jointure itÃ©rative page Ã page : 100 + 100 Ã 1000 : + 100 100 E/S . On a 100 000 rÃ©sultats (car tous les S.sid + sont prÃ©sents dans la table R, ~~mÃªme aprÃ¨s sÃ©lection~~ car + distribution uniforme). Un enregistrement du + rÃ©sultat fait environ 40+50 = 90 octets donc 44 enregistrements par + pages de 4000 octets donc 2272 pages de rÃ©sultats. +

On garde les ORDER BY, GROUP BY, aggrÃ©gats, â¦ - pour la fin, en profitant si possible des ordres des rÃ©sultats faits - par les jointures prÃ©cÃ©dentes

CoÃ»t total : 555 200 E/S

Exemple (conclusion)

+ +

Utiliser l'index n'est pas toujours payant, surtout s'il est + non-groupant, car on ajoute un facteur qui est le nombre de + rÃ©sultats, pas le nombre de pages
On a fait certaines approximations Â« Ã la louche Â» (taille des + enregistrements rÃ©sultants d'une jointure, nombre des + enregistrements rÃ©sultants)
On n'a pas considÃ©rÃ© le fait que pousser les projections plus + bas pour ne garder que les colonnes strictement nÃ©cessaires pouvait + faire baisser la taille des tables intermÃ©diaires +

+ + +

Bases de donnÃ©es

Polytech Paris-Sud

Plan alternatif 1 (sans index)

Autres Ã©quivalences

ModÃ¨le de calcul

Cas mono-relation

Estimation du coÃ»t pour les plans mono-relation

RequÃªtes multi-relations

ÃnumÃ©ration des plans gauches en profondeur 1/2

ÃnumÃ©ration des plans gauches en profondeur 2/2

Exemple

Exemple (Calculs prÃ©liminaires)

Exemple (Plan 1)

Exemple (Plan 2 v1)

Exemple (Plan 2 v2)

Exemple (Plan 3)

Exemple (conclusion)

RequÃªtes imbriquÃ©es

Bases de donnÃ©es

Polytech Paris-Sud

Plan alternatif 1 (sans index)

Autres Ã©quivalences

ModÃ¨le de calcul

Cas mono-relation

Estimation du coÃ»t pour les plans mono-relation

RequÃªtes multi-relations

ÃnumÃ©ration des plans gauches en profondeur 1/2

ÃnumÃ©ration des plans gauches en profondeur 2/2

Exemple

Exemple (Calculs prÃ©liminaires)

Exemple (Plan 1)

Exemple (Plan 2 v1)

Exemple (Plan 2 v2)

Exemple (Plan 3)

Exemple (conclusion)

RequÃªtes imbriquÃ©es

ÃnumÃ©ration des plans gauches en profondeur 1/2

ÃnumÃ©ration des plans gauches en profondeur 2/2