But du cours

+ Le but du cours est de donner une formation avancÃ©e sur un + aspects central des bases de donnÃ©es : l'Ã©valuation de + requÃªtes. Le plan suivi par le cours est le suivant: +

Rappels de l'algÃ¨bre relationnelle et d'SQL (rapide)
PropriÃ©tÃ©s physiques des disques (Rotatifs, SSD), notion + de page mÃ©moire, hierarchie d'accÃ¨s mÃ©moire
Index: gÃ©nÃ©ralitÃ©s, coÃ»t, structures de donnÃ©es (Arbres + B+, Hash Index, Bitmap Index)
Algorithmes de jointure
Plan de requÃªte et optimisations algÃ©briques
Bonus: ce que vous voulez (XML, Cloud, J2SE, â¦)

Organisation du cours

9 sÃ©ances de 4h:

+ + + + + + + + + + + + + + + +
Date Type Heure
3/2 Cours/TD 13h-17h
5/2 Cours/TD 8h-12h
6/2 TP au PUIO, 13h-17h
10/2 Cours/TD 13h-17h
12/2 TP au PUIO, 8h-12h
13/2 TP au PUIO, 13h-17h
31/3 Cours/TD 13h-17h
3/4 TP au PUIO, 13h-17h
9/4 Cours bonus/exam 8h-12h
+

Date	Type	Heure
3/2	Cours/TD	13h-17h
5/2	Cours/TD	8h-12h
6/2	TP	au PUIO, 13h-17h
10/2	Cours/TD	13h-17h
12/2	TP	au PUIO, 8h-12h
13/2	TP	au PUIO, 13h-17h
31/3	Cours/TD	13h-17h
3/4	TP	au PUIO, 13h-17h
9/4	Cours bonus/exam	8h-12h

Cours/TD : Kim Nguyen
TP: Andres Romero (certains TP seront notÃ©s)

AlgÃ¨bre relationnelle

Qu'est-ce que l'algÃ¨bre relationnelle?

Une algÃ¨bre (ou structure algÃ©brique) est un + ensemble d'objets (que l'on Ã©tudie) muni d'un ensemble + d'opÃ©rations (qui permettent de manipuler les objets)

+ +

Les objets manipulÃ©s par l'algÃ¨bre + relationnelle sont les relations i.e. + des ensembles de n-uplets.

(Rappel: une + relation n-aire est juste un ensemble de n-uplets. Par exemple, + la relation d'Ã©galitÃ© sur les entiers est l'ensemble qui + contient tous les + couples (0,0), (1,1), (2,2)â¦ )

On ne considÃ¨re que des relations finies, sur des + n-uplets fixes dont les composantes ont un + type simple

{ (1, "Kim", 32, T), (3,"Foo", 28, F), (2, "Bar", 77, T) }

Les relations reprÃ©sentent des tables: ensemble + finis
Les relations contiennent des n-uplets de la mÃªme + taille
Un n-uplet ne peut pas contenir un ensemble (pas de table + dans une table)
(optionel) on ajoute un schema Ã la relation + (ex. (id, nom, age, prof)).

Les opÃ©rateurs de l'algÃ¨bre relationnelle (1/2)

(attention, plusieurs + prÃ©sentations possibles)

R et S sont deux relations, munies chacune + d'un schÃ©ma (â=(a₁,â¦,a_m) + et ð=(b₁,â¦,b_n))

OpÃ©rateurs ensemblistes: + + + + + + + + + + + + + + + + +
Union : R âª S â { r | r ∉ R â¨ r ∈ S } (requiert â = ð)
DiffÃ©rence : R â S â { r | r ∈ R â§ r ∉ S } (requiert â = ð)
Produit : R Ã S â { + (r₁,â¦,r_m,s₁,â¦,s_n) + | + (r₁,â¦,r_m) ∈ R â§ + (s₁,â¦,s_n) ∈ S }
+

Q1: A-t-on besoin de l'intersection ? (R â© S) +

R1: Non car R â© S = (R âª S) â ((S â R)âª(R â S)) +

Les opÃ©rateurs de l'algÃ¨bre relationnelle (2/2)

(attention, plusieurs + prÃ©sentations possibles)

R est une relation, munie + d'un schÃ©ma (â=(a₁,â¦,a_m))

OpÃ©rateurs relationnels: + + + + + + + + + + + + + + + + +
Projection : π_{a₁,â¦,a_k}(R) + â { (r.a₁,â¦,r.a_k) | r ∈ R }
SÃ©lection : σ_φ(R) â { r ∈ R | σ(r) } σ est une formule + logique sur r
Renommage : ρ_{a₁↦b₁,â¦}(R) + associe R au schÃ©ma â'=(b₁,â¦)
+

OpÃ©rateurs dÃ©rivÃ©s

R et S sont deux relations, munies chacune + d'un schÃ©ma (â et ð)

Jointure: â=(a₁,â¦,a_m,c₁,â¦,c_l) + et ð=(b₁,â¦,b_n,c₁,â¦,c_l)+ R â¨ S â { + (r.a₁,â¦,r.a_m,r.c₁,â¦,r.c_l,s.b₁,â¦,s.b_n) + | r ∈ R â§ s ∈ S â§ â 1 â¤ i â¤ l, r.c_i = s.c_i } +
Intersection : R â© S = { r | r ∈ R â§ r ∈ S }
Division : R Ã· S â T, telle que T Ã S â + R (les attributs de S sont un sous-ensemble des + attributs de T

Pourquoi utiliser l'algÃ¨bre relationnelle ?

ModÃ¨le abstrait qui permet de raisonner sur les requÃªtes + sans se soucier de la syntaxe
Permet de dÃ©duire des optimisations + algÃ©briques +
Par exemple:+ σ_φ(R âª S) = σ_φ(R) âª σ_φ(S) + + Avantageux si R et S ont beaucoup + d'Ã©lÃ©ments mais que σ_φ en sÃ©lÃ©ctionne peu. +
+

SQL

SQL (Structured Query Language) est un langage de + programmation dÃ©diÃ© permettant de manipuler les donnÃ©es d'une BD + relationnelle. Il permet de: +

CrÃ©er et dÃ©truire des tables
InsÃ©rer, supprimer, modifier des lignes d'une table
Interroger des tables
â¦

+ +

SQL `â` AlgÃ¨bre relationnelle

Table â Relation : les tables peuvent + avoir plusieurs copies de la mÃªme ligne, alors que les + relations sont des ensembles
OpÃ©rations de comptage, d'agrÃ©gat, groupage, â¦
Les types sont finis et ont toujours une taille fixe + (INTEGER, VARCHAR[40], DATE, â¦)

CrÃ©ation/destruction de table

+CREATE TABLE MaTable ( + att₁ type₁ [constr_col₁], â¦, att_n type_n [constr_col_n] + [, constr_table]);

MaTable : nom de la table
att_i : nom de l'attribut i
att_i : type de + l'attribut i. Exemples de + types: INTEGER, VARCHAR[n], â¦ (~~dÃ©pend du + systÃ¨me utlisÃ©~~)
constr_col_i : contrainte sur la + colonne i. Exemple de contraintes: PRIMARY + KEY, NOT NULL, DEFAULT n, â¦
constr_table : contrainte de table. Exemple de + contrainte de table: CHECK cond, UNIQUE + (col1, â¦, coln), â¦

+DROP TABLE Table₁, â¦, Table_n [CASCADE];

CASCADE : dÃ©truit aussi les objets dÃ©pendants de la + table (vues, autres tables avec clÃ©s Ã©trangÃ¨res, â¦) (~~dÃ©pend du + systÃ¨me utilisÃ©~~)

Insertion/suppression/mise Ã jour

+ INSERT INTO MaTable [ (col₁,â¦,col_n) ] VALUES (val₁,â¦,val_n); +

Si la liste de colonnes est prÃ©cisÃ©e les valeurs sont insÃ©rÃ©es + dans les colonnes correspondantes, sinon dans l'ordre du schÃ©ma

+ + DELETE FROM MaTable [ WHERE condition ]; +

Supprime les lignes pour lesquelles condition + est vraie (expression boolÃ©ene sur les + colonnes). Si WHERE est absent, supprime toutes les lignes.

+ + UPDATE MaTable SET col₁=val₁, â¦, col_n=val_n [ WHERE condition ]; +

Mise Ã jour de toutes les colonnes i des lignes pour lesquelles condition + est vraie (expression boolÃ©ene sur les + colonnes). Si WHERE est absent, modifie toutes les lignes.

+ +

RequÃªtes SQL 1/3


+ SELECT [ALL|DISTINCT] res₁, â¦,  res_n
+  FROM tab_ref₁, â¦,  tab_ref_m
+  [WHERE condition_w]
+  [GROUP BY col₁, â¦,  col_k]
+  [HAVING  condition_h]
+  [ORDER BY col₁,  â¦,  col_; [ASC|DESC]]

ALL force Ã garder tous les + rÃ©sultats, DISTINCT retire les doublons
res_i peut Ãªtre un nom de colonne, * + (toutes les colones), un agrÃ©gat (SUM(price), + Ã©ventuellement nommÃ© : AS TotalPrice)
tab_ref_i est soit un nom de table, soit une + sous-requÃªte ((SELECT â¦ )) Ã©ventuellement nommÃ© (AS T1)
condition_w est une condition boolÃ©enne sur les attributs + des m tables mentionnÃ©es
GROUP BY et HAVING dÃ©finissent des conditions + de groupage
ORDER BY trie les rÃ©sultats en ordre croissant (par + dÃ©faut ou ASC) ou dÃ©croissant (DESC)

RequÃªtes SQL 2/3


+          (req₁) UNION [ALL]  (req₂)
+          (req₁) INTERSECT  (req₂)
+          (req₁) EXCEPT  (req₂)
+

Union, intersection et diffÃ©rence de deux requÃªtes. Par dÃ©faut, + retire les doublons des rÃ©sultats des requÃªtes (comportement + ensembliste) sauf pour UNION ALL ou si SELECT ALL + a Ã©tÃ© utilisÃ© dans les sous-requÃªtes

RequÃªtes SQL 3/3

Exemple de conditions de groupage. On considÃ¨re une table + d'employÃ©s (nom), appartenant chacun Ã un dÃ©partement + (num_dept) et ayant chacun un salaire (sal). On + souhaite avoir les salaires moyens, pour chaque dÃ©partement, pour + les dÃ©partements ayant plus de 10 employÃ©s.

+ +


+    SELECT num_dept, AVERAGE(sal)
+    FROM TABLE_EMP
+    GROUP BY num_dept
+    HAVING COUNT(nom) >= 10;
+

HAVING est nÃ©cessaire car la clause WHERE + s'applique ligne Ã ligne, ici on veut groupe Ã groupe (i.e. pour + chaque dÃ©partement, i.e. pour toutes les lignes qui ont le mÃªme + departement).

Bases de donnÃ©es

Polytech Paris-Sud

Apprentis 4^Ã¨me annÃ©e

Cours 2 : Stockage

+ kn@lri.fr
+ http://www.lri.fr/~kn +

Introduction

OÃ¹ stocker les donnÃ©es ?

Hierarchie mÃ©moire :

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

Type	AccÃ¨s	Taille max	CoÃ»t	durÃ©e de vie
Registre	`<` 1ns	128 bits	TrÃ¨s cher	alimentÃ©
Cache L1/2/3	~ 10 ns	1ko ~ 1Mo	TrÃ¨s cher	alimentÃ©
RAM	~ 50 ns	10 Go	Cher	alimentÃ©
Disque SSD	~ 0.1ms	1 To	- Cher	Ãcritures limitÃ©es
Disque dur	~ 5ms	10 To	Peu cher	Fragiles
Bandes	10 s	1 Po/Eo	DonnÃ©	Bonne

+ +

RAM : mÃ©moire primaire
Disques : mÃ©moire secondaire
Bandes magnÃ©tiques/Disques optiques : mÃ©moire tertiaire

Quels types de mÃ©moire pour une BD ?

On attend en gÃ©nÃ©ral d'une BD:

Stockage d'un nombre important de donnÃ©es
Interrogation rapide (et si possible, mise Ã jour rapide + aussi)
Resistance aux pannes, aux corruptions
â¦

CelÃ implique l'utilisation de mÃ©moire primaire (comme toutes + les applications) et secondaire

Pas d'adressage direct du disque par le processeur, nÃ©cessitÃ© de + Â« monter Â» les donnÃ©es en RAM

Goulet d'Ã©tranglement : facteur 10 000 (SSD) ~ 100 000 (HDD) entre + mÃ©moire et disques

~~PrioritÃ© des SGBD~~ (ce qu'on prÃ©sente dans ce cours) : + limiter les accÃ¨s disque

Aspects bas-niveau

CaractÃ©ristiques physiques de disques

Disques rotatifs:

Chaque plateau a deux faces
Un plateau est composÃ© de pistes concentriques
Les pistes sont dÃ©composÃ©es en secteurs
Une tÃªte de lecture/Ã©criture travaille secteur par + secteur
Un secteur fait plusieurs octets (typiquement 512)
Un cylindre est l'ensemble des pistes situÃ©es Ã la + mÃªme positions sur tous les plateaux

Temps d'accÃ¨s Ã un disque

AccÃ¨s Ã un secteur arbitraire :

Positionner la tÃªte sur la bonne piste (recherche)
Attendre que le bon secteur soit sous la tÃªte + (rotation)
Parcourir le secteur et renvoyer les donnÃ©es en mÃ©moire + (transfert)

Tout cela constitue la latence du disque

Une fois qu'on a payÃ© le temps de latence, lire le secteur + suivant ne demande que le temps de transfert

On va donc essayer d'organiser les donnÃ©es de maniÃ¨re Ã©viter + les dÃ©placements arbitraires

UnitÃ© de transfert

On appelle page (ou bloc) la quantitÃ© de + mÃ©moire que le disque dur transfert de maniÃ¨re atomique en + mÃ©moire. En pratique 512o ~ 4ko (dÃ©pendant des disques). +

On doit lire/Ã©crire ~~au moins une page~~ mÃªme si on ne + dÃ©sir lire/Ã©crire qu'un octet

Exemple : on souhaite stocker 5 chaines de caractÃ¨res de 200o + chacunes sur le disque

Si placÃ©s sur blocs diffÃ©rents (arbitraires) : 5 pages + montÃ©es en mÃ©moire, 5 * temps de latence
Si placÃ©s sur deux blocs consÃ©cutifs : temps de + latence + temps de transfert (on gagne un facteur presque 5) +

StratÃ©gies de placement

On peut placer en prioritÃ© les donnÃ©es Â« reliÃ©es Â» (qu'on + veut utiliser en mÃªme temps):

Sur des pistes proches

La liste des blocs occupÃ©s par un Â« fichier Â» (i.e. qui + stocke des informations reliÃ©es Ã la mÃªme donnÃ©e logique)

On ne travaille pas page Ã page : on alloue + un buffer de pages

+ + + +
+ P1 P132 + P10 P99
+ P2 P1000 P507 +
+

+ On maintient pour chaque page : un compteur + d'utilisation et un dirty-bit qui indique si la + page a Ã©tÃ© modifiÃ©e (on doit donc l'Ã©crire sur le disque Ã un + moment donnÃ©).
+ Lorsque le buffer est plein, il faut supprimer des pages (et + en monter d'autres en mÃ©moire) suivant une stratÃ©gie: + LRU, MRU, Random, FIFO, LIFO, â¦ +

Qui gÃ¨re les accÃ¨s disques bas-niveau, le buffer, â¦ ?

Dans le temps, le SGBD + directement
De nos jours, le systÃ¨me + d'exploitation via ses systÃ¨mes de fichiers et gestion de la + mÃ©moire virtuelle (swap ou fichier d'echange)

Les systÃ¨mes d'exploitation ont Ã©normÃ©ment progressÃ© + (les SGBD ne pouvaient pas reposer sur quelque chose d'aussi + primitif que FAT ou NTFS, mais les systÃ¨mes de fichier modernes + sont plus performant que le traitement natif du disque fais par + les SGBD, en particulier pour les SSD).
+ Pour prÃ©dire le bon comportement d'un SGBD il faut connaÃ®tre + non seulement ce dernier, ~~mais aussi~~, de maniÃ¨re + dÃ©taillÃ©e, les caractÃ©ristiques de l'OS et du systÃ¨me de + fichier. +

Un mot sur les SSD

Pas de temps de recherche et de rotation, uniquement temps + de transfert. AccÃ¨s arbitraires aussi rapides que les + sÃ©quentiels

Couteux
Ãcriture ~~trÃ¨s~~ complexe (Ã©crire dans une cellule + impose de l'effacer avant, nombre de cycle d'effaÃ§age limitÃ©, + etc) +
NÃ©cessite une coopÃ©ration Ã tous les niveaux, seul le + systÃ¨me d'exploitation peut bien le gÃ©rer (bibliothÃ¨que + systÃ¨me, gestion de la mÃ©moire virtuelle, systÃ¨me de fichier, + pilote du disque et firmware).

Stockage pour les SGBD

Utilisation du disque par les SGBD

table = ensemble de lignes = fichier
base = ensemble de tables = ensemble de fichiers

recherche d'un enregistrement (SELECT)
ajout d'un enregistrement Ã une table + (INSERT)
mise Ã jour d'un enregistrement (UPDATE)
suppression d'un enregistrement (DELETE)

Champs de taille fixe + (VARCHAR[50], INTEGER (32 bits), â¦) +

+ + +
C₁ C₂ C₃ C₄ C₅
+ + +
B L₁ L₂ L₃ L₄ L₅

+Pour accÃ©der au i^Ã¨me champ d'un enregistrement en + connaissant l'addresse de base B, on ajout Ã B + les longueurs des champs 0, 1, â¦, i-1.
+ adresse de C₄ = B + L₁ + L₂ + L₃
+

Champs de taille variables (blobs de texte) +

+ + +
C₁ $ C₂ $ C₃ $ C₄ $ C₅
+ On utilise un sÃ©parateur spÃ©cial entre les champs (scan linÃ©aire + pour arriver au i^Ã¨me champ.
+ + +
L₁ L₂ L₃ L₄ L₅ C₁ C₂ C₃ C₄ C₅
+ On stocke les longueurs dans l'enregistrement +

MÃ©ta-donnÃ©es

taille totale de l'enregistrement (avec entÃªte)
date de derniÃ¨re mise Ã jour
information de gestion des valeurs nulles: +
- Stockage d'une valeur spÃ©ciale (pas toujours + possible)
- Stockage d'un bitmap (masque) : 26₁₀ = + 11010₂ : valeur nulle dans les champ 0 et 2
+

Stockage des enregistrements dans une page

Chaque enregistrement Ã une adresse (rid : record id) + constituÃ©e de l'adresse de la page et de la position de + l'enregistrement au sein de la page

Lors d'une insertion, on doit trouver un emplacement libre + dans la page

Stockage compact vs non compact (taille fixe)

+ + +

Stockage compact (taille variable)

+ +

Tiers de confience

Tiers de confiance

Les tiers de confiance sont des entitÃ©s (Ã©tats, associations, compagnies privÃ©es) qui se chargent de vÃ©rifier les clÃ©s publiques d'autres entitÃ©es. C'est une vÃ©rification physique (documents administratifs, â¦). @@ -312,10 +312,10 @@

Tiers de confience

Tiers de confiance

Attaques contre les authoritÃ©s de certifications - (tiers de confience): difficiles, mais pas impossible. Certains - tiers de confience sont douteux (Ã©tats voyous, compagnie + (tiers de confiance): difficiles, mais pas impossible. Certains + tiers de confiance sont douteux (Ã©tats voyous, compagnie piratÃ©es dont les clÃ©es ~~privÃ©es~~ sont compromises,â¦)
~~Attaques d'implÃ©mentation~~ (plus probables) : on exploite un ~~bug~~ dans le code des serveurs web ou des diff --git a/themes/uPsud.css b/themes/uPsud.css index e64202f..6d4777c 100644 --- a/themes/uPsud.css +++ b/themes/uPsud.css @@ -270,4 +270,13 @@ div.twocol > div:last-child { vertical-align:text-top; right: 0pt; top:0pt; +} +table.withborder { + border-collapse: collapse; +} +table.withborder td { + border-style: solid; + border-width: 1pt; + min-width:20pt; + height: 20pt; } \ No newline at end of file

Union :	`R âª S â { r \| r ∉ R â¨ r ∈ S }`	(requiert `â = ð`)
DiffÃ©rence :	`R â S â { r \| r ∈ R â§ r ∉ S }`	(requiert `â = ð`)
Produit :	`R Ã S â { + (r₁,â¦,r_m,s₁,â¦,s_n) + \| + (r₁,â¦,r_m) ∈ R â§ + (s₁,â¦,s_n) ∈ S }`

Projection :	`π_{a₁,â¦,a_k}(R) + â { (r.a₁,â¦,r.a_k) \| r ∈ R }`
SÃ©lection :	`σ_φ(R) â { r ∈ R \| σ(r) }`	σ est une formule + logique sur `r`
Renommage :	`ρ_{a₁↦b₁,â¦}(R)` + associe R au schÃ©ma `â'=(b₁,â¦)`

Bases de donnÃ©es

Polytech Paris-Sud

Apprentis 4Ã¨me annÃ©e

Cours 1 : GÃ©nÃ©ralitÃ©s & rappels

Avant-propos

But du cours

Organisation du cours

AlgÃ¨bre relationnelle

Qu'est-ce que l'algÃ¨bre relationnelle?

Les opÃ©rateurs de l'algÃ¨bre relationnelle (1/2)

Les opÃ©rateurs de l'algÃ¨bre relationnelle (2/2)

OpÃ©rateurs dÃ©rivÃ©s

Pourquoi utiliser l'algÃ¨bre relationnelle ?

SQL

SQL

SQL â AlgÃ¨bre relationnelle

CrÃ©ation/destruction de table

Insertion/suppression/mise Ã jour

RequÃªtes SQL 1/3

RequÃªtes SQL 2/3

RequÃªtes SQL 3/3

Bases de donnÃ©es

Polytech Paris-Sud

Apprentis 4Ã¨me annÃ©e

Cours 2 : Stockage

Introduction

OÃ¹ stocker les donnÃ©es ?

Quels types de mÃ©moire pour une BD ?

Aspects bas-niveau

CaractÃ©ristiques physiques de disques

Temps d'accÃ¨s Ã un disque

UnitÃ© de transfert

StratÃ©gies de placement

Mise en place de la stratÃ©gies de placement

Qui gÃ¨re les accÃ¨s disques bas-niveau, le buffer, â¦ ?

Un mot sur les SSD

Stockage pour les SGBD

Utilisation du disque par les SGBD

ReprÃ©sentation des enregistrements fixes

ReprÃ©sentation des enregistrements variables

MÃ©ta-donnÃ©es

Stockage des enregistrements dans une page

Stockage compact vs non compact (taille fixe)

Stockage compact (taille variable)

Tiers de confience

Tiers de confiance

Tiers de confience

Tiers de confiance

Apprentis 4^Ã¨me annÃ©e

SQL `â` AlgÃ¨bre relationnelle

Apprentis 4^Ã¨me annÃ©e

Qui gÃ¨re les accÃ¨s disques bas-niveau, le buffer, â¦ ?