Résumé "Analyse des Données" (c) 2003-03-24 Fabian M. Suchanek http://www.mpi-inf.mpg.de/~suchanek/personal/texts/summaries/maths.txt Ceci est le résumé du cours "Analyse des Données", donné par M Rachdi en hiver 2002 à l'Université Pierre-Mendès-France Grenoble. Ce résumé reprend le polycopié de M Rachdi, qui est -- comme c'est toujours le cas dans les cours de maths -- précis et complet. (Since this text is supposed to be in French, I could not avoid using non-ASCII characters, sorry for that to all foreign readers) Ce résumé n'est pas admis pour l'examen partiel comme il contient aussi l'essentiel de tous les exercises. La version pour l'examen se trouve dans mathsex.txt. Le lecteur, en lisant le texte ci-dessous, accepte que l'auteur décline toute responsabilité concernant des informations fausses ou incomplètes. Si quelqu'un trouve une faute, je lui serais reconnaissant de bien vouloir me le dire. C'est le seul moyen de profiter moi-même de la publication de ce résumé. Mon e-mail est f.m.suchanek@zweb.de, mais il faut effacer la lettre 'z' dans l'adresse. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Révision de l'Algèbre linéaire ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ cf aussi algebra.txt (en allemand) cf aussi analysis.txt (en allemand) cf aussi algebra.htm (en allemand) cf aussi statistik.txt (en allemand) Ensemble: Une collection non rangée d'éléments non identiques. M = {x1, x2, ..., xn} est l'ensemble de x1 x2, ... xn M = {x | f(x) } est l'ensemble de tous les x pour lesquels f(x) est vrai Anglais: Set Application: Un classement f qui accepte un élément appartenant à un ensemble A (ou à plusieurs ensembles) et qui repond avec un élément appartenant à un ensemble B. f: A -> B f(a)=b, où a appartient à A et b appartient à B Exemple: L'addition classique peut être considerée comme application, qui prend deux nombres réels et rend un nombre réel. Anglais: Function Paramètre d'une application: Une valeur qu'on donne à cette application. Operateur: Une application avec deux paramètres. Au lieu de f(a,b), on écrit aussi a f b. Exemple: +(a,b) = a + b Commutativité: La propriété d'une application avec plusieurs paramètres de rendre le même résultat, quel que soit la suite des paramètres. f(a,b) = f(b,a) Associativité: La propriété d'une application f avec deux paramètres de rendre le même résultat, quel que soit le groupement . f(f(a,b),c) = f(a,f(b,c)) Si une application est associative, on peut enlever les paranthèses d'une expression de cette application. Sous ensemble d'un ensemble M: Un ensemble T tel que tous les éléments appartenant à T appartiennent à M. On dit que T est inclu dans M. T < M Anglais: Subset Groupe: Un ensemble tel que * Il y a une application "+" qui prend deux éléments appartenants à cet ensemble et qui en rend un * "+" est associative * Il existe un élément neutre "0" de cet ensemble tel que a+0=0+a=a quel que soit a appartenant à l'ensemble * Pour chaque élément a appartenant à cet ensemble, il existe un élément inverse -a tel que a + -a = 0 Addition d'un groupe: Son application "+". zéro d'une addition: Son élément neutre. Corps: Un ensemble C tel que * Il y a une application "+" telle que C est un groupe avec "+" * Il y a une application "*" telle que C est un groupe avec "*", sauf qu'il n'existe pas d'élément invers pour zéro * a*(b+c)=a*b + a*c, quel que soient a,b,c appartenants à C Les nombres réels forment un corps R. Scalaire: Un élément d'un corps. Multiplication d'un corps: Son application "*". Racine carrée: L'application sqrt qui prend une valeur réelle et rend une valeur réelle positive dont le produit par lui-même est le paramètre. y=sqrt(x) => y*y=x. Module, valeur absolue: L'application abs qui prend une valeur réelle et rend abs(x)=sqrt(x*x). Puissance: La multiplication repétée d'une valeur par elle-même. Au lieu de x*x*x*...*x, on écrit aussi x^n. Tuple: Une collection rangée d'objets. v = (v[1], v[2], ... v[n]) Anglais: Tupel Couple: Un tuple de deux éléments. Espace vectoriel: Un ensemble de tuples tel que: * les tuples sont composés de scalaires du même corps * l'ensemble est un groupe avec une addition * il y a une application "*" qui prend un scalaire et un tuple et rend un tuple * quel que soient les tuples v,w et quel que soient a,b scalaires il est valable: * a*(b*v)=(a*b)*v * 1*a=a => 1*v=v * a*(v+w)=a*v+a*w * (a+b)*v=a*v+b*v Exemple: L'ensemble de tous les tuples de 3 nombres réels {(x,y,z) | x, y et z réels} Anglais: Vector space Vecteur: Un élément d'un espace vectoriel. Multiplication scalaire d'un espace vectoriel: Son application "*". Multiple d'un vecteur: Le résultat d'une multiplication scalaire. Somme: Le résultat d'une addition. Au lieu de "a1+a2+...an", on écrit aussi "SUM i=1..n a[i]", où "SUM" est la lettre majuscule sigma. Subtraction: L'application "-" qui prend deux éléments d'un groupe et rend la somme du premier et de l'inverse du deuxième. Difference: Le résultat d'une subtraction. Division: L'application "/" qui prend deux éléments d'un corps et rend le produit du premier par l'inverse du deuxième (l'inverse par rapport à la multiplication). Produit: Le résultat d'une multiplication de deux ou plusieures valeurs. Au lieu de "a1*a2*...an", on écrit aussi "PROD i=1..n a[i]", où "PROD" est la lettre majuscule pi. Sous espace vectoriel: Un sous ensemble d'un espace vectoriel tel que le sous ensemble est lui-même un espace vectoriel. Combinaison linéaire: Une somme de vecteurs, multipliés par des scalaires. Exemple: Soient v1 et v2 des vecteurs, soient a et b scalaires, alors a*v1 + b*v2 est une combinaison linéaire. Le résultat est un vecteur. Combinaison linéaire nulle: Une combinaison linéaire dont tous les scalaires sont nuls. Système générant: Un ensemble de vecteurs qui peuvent produire tous les vecteurs d'un espace vectoriel par des combinaisons linéaires. Exemple: Soit E={(x,y) | x,y réels}, alors un système générant est B={(1,0), (0,1)}, parce que n'importe quel vecteur de forme (x,y) peut être exprimé par (x,y)=x*(1,0)+y*(0,1) Vecteurs linéairement indépendants: Un ensemble de vecteurs pour lequel la seule combinaison linéaire qui donne zéro est la combinaison linéaire nulle. Cela veut dire: Il est impossible de produire n'importe quel vecteur appartenant à cet ensemble par une combinaison linéaire des autres. Vecteurs colinéaires: Des vecteurs non linéairement indépendants. Base: Un système générant dont les vecteurs sont linéairement indépendants. Base canonique: La base B={(1,0,0,...), (0,1,0,...), ...} de R^n. Dimension d'iun espace vectoriel V: Le nombre d'éléments d'une base de V, notée par dim(V). Coordonnées d'un vecteur v par rapport à un système générant S: Les scalaires de la combinaison linéaire de S qui donne v. Exemple: (6,8) = 6*(1,1) - 2*(0,1), alors 6 et 2 sont les coordonnées du vecteur (6,8) par rapport à la base {(1,1),(0,1)} Origine: Le vecteur zéro, noté par 0. Espace engenderé par une base b: Un espace vectoriel qui est donné par b: Vec( b ) = {x|x est combinaison linéaire de b} Droite par l'origine: L'espace engenderé par un seul vecteur. Produit scalaire normal: L'application "*" qui prend deux vecteurs a et b de n éléments et qui rend un scalaire tel que a*b = SUM i=1..n a[i]*b[i] Annotation: "*" est maintenant utilisé dans ce texte pour - la multiplication classique entre deux scalaires - la multiplication scalaire entre un scalaire et un vecteur - le produit scalaire entre deux vecteurs - plusieurs applications suivront (overloading) Anglais: Dot product Matrice: Un tuple de vecteurs du même espace vectoriel, donc un tableau. M = ( (v[1][1], v[1][2], ... v[1][n]), ... (v[m][1], v[m][2], ... v[m][n])) Les matrices du même format forment un groupe. Dans toute la suite, des matrices sont notées par des majuscules. Anglais: Matrix Ordre d'une matrice: Un tuple du nombre des lignes et du nombre des colonnes. Exemple: L'ordre de la matrice ci-dessus est (m,n) Terme d'une matrice: Un élément de cette matrice. Le terme à la ligne l et colonne c d'une matrice A est appellé a[l][c]. Vecteur-ligne: Une matrice avec une seule ligne (et pour cela un vecteur). Vecteur-colonne: Une matrice avec une seule colonne (et pour cela un vecteur). Matrice carrée: Une matrice, dans laquelle le nombre des lignes est égal au nombre des colonnes. Dans toute la suite, "n" signifie le nombre des lignes de la matrice carrée dont on parle. Anglais: Square matrix Rang d'une matrice: Le nombre maximum de vecteurs-colonne qui sont linéairement indépendants. Addition des matrices: L'addition dans un ensemble de matrices du même ordre telle que A + B = C <=> c[i][j] = a[i][j] + b[i][j] pour toutes les lignes i et colonnes j Multiplication scalaire des matrices: L'application "*" qui prend un scalaire et une matrice et rend une matrice telle que a * B = C <=> c[i][j] = a*b[i][j] pour toutes les lignes i et colonnes j Multiplication de matrices: L'application qui prend une matrice d'ordre (m,n) et une matrice d'ordre (n,m) et rend une matrice d'ordre (m,m) telle que A * B = C <=> c[i][j] = SUM a[i][k]*b[k][j] pour toutes les lignes i et colonnes j La multiplication de matrices est associative mais non commutative: * A*B != B*A * ((A * B) * C) = ( A * (B * C)) Au lieu de calculer le produit de A * B, on peut de même multiplier chaque colonne de A avec la ligne correspondante de B. On obtient m matrices, dont la somme est A*B. Manière francaise pour calculer le produit: Mets les parentheses de la future matrice C Écris A à la gauche de C et B en dessus de C Calcule chaque valeur c[i][j] de C comme étant le produit scalaire du vecteur-ligne de A à la gauche de c[i][j] et du vecteur colonne de B en dessus de c[i][j] Diagonale, Diagonale principale d'une matrice carrée A: Le tuple de tous les termes a[i][i]. Transposition: L'application t qui prend une matrice A d'ordre (n,m) et rend une matrice B d'ordre (m, n) telle que b[i][j]=a[j][i] pour toutes les lignes i et colonnes j. Cela veut dire que A est tournée par sa diagonale principale. Il est valable: * t(A+B) = t(A) + t(B) * t(A*B) = t(B) * t(A) * t(A) * B = t(B) * A Trace: L'application "tr" qui prend une matrice carrée A et redonne la somme de tous les termes de la diagonale principale. Tr(A) = SUM i=1..n a[i][i] Il est valable: * Tr(k*A) = k*Tr(A) quel que soit k scalaire * Tr(A+B) = Tr(A) + Tr(B) quel que soit la matrice B * Tr(A*B) = Tr(B*A) quel que soit la matrice B Matrice triangulaire inférieure: Une matrice carrée dont tous les éléments au-dessus de la diagonale (a[i][j], ij) sont zéro. Exemple: 1 2 3 0 4 5 0 0 9 Matrice diagonale: Une matrice triangulaire inférieure et supérieure. Cela veut dire que tous les éléments qui ne sont pas sur la diagonale sont nuls. Une telle matrice X est notée par diag(x[1][1],...x[n][n]). Identité, unité: La matrice diagonale dont les éléments de la diagonale sont tous égaux à 1. Dans toute la suite, I sera l'identité, quel que soit son ordre. L'identité est l'élément neutre pour la multiplication des matrices: A*I = I*A = A quel que soit la matrice A Inversion: L'application ^-1 qui prend une matrice A carrée et rend une matrice carrée B telle que A*B = B*A = I. L'application n'est pas définie pour toutes les matrices. L'inversion est notée de sorte que le nom de l'application suit le paramètre. Il est valable: * (A*B)^-1 = A^-1 * B^-1 * A^-1 existe <=> toutes les vecteurs-colonnes (et vecteurs-lignes) de A sont linéairement indépendantes * A est diagonale <=> A^-1 est la matrice diagonale des valeurs 1/a[i][i] Matrice inverse: Le résultat d'une inversion. Car l'inversion n'est pas définie pour toutes les matrices, la matrice inverse n'existe pas forcément. Matrice régulière, matrice inversible: Une matrice qui possède une matrice inverse. Matrice singulière: Une matrice qui ne possède pas de matrice inverse. Application linéaire: Une application u d'un espace vectoriel E à un autre espace vectoriel, telle que u(k*x) = k*u(x) quel que soient les k scalaires et les x appartenants à E u(x+y) = u(x) + u(y) quel que soient les x,y appartenants à E Matrice associée à une application linéaire u:E->F: La matrice qui a comme colonnes les vecteurs u(e1)...u(en) (où {e1,...en} est la base de E). Soit M la matrice associée à u, alors u(x) peut être calculé par M*x. Manière allemande pour calculer M*x: Ècris M avec beaucoup d'espace blanc Ècris x comme vecteur-ligne au dessus de M Fais "tomber" x dans la matrice de sorte que chaque élément de x se trouve dans chaque ligne de sa colonne, auprès des éléments de la matrice Calcule le résultat de chaque ligne de M comme étant la somme des produits des éléments de x et de M Application associée à une matrice M: L'application linéaire qui calcule son résultat pour x comme M*x. Kern d'une application linéaire f: L'ensemble des paramètres pour lesquels f rend 0: kern(f) = {x | f(x)=0} La dimension du kern est égal au nombre des valeurs propres nulles de la matrice associée à f. Image d'une application linéaire f: L'ensemble de tous les résultats de f: Im(f)={y | Ex x: f(x)=y} Il est valable: dim(Im(f)) + dim(Kern(f)) = dim(V), si V est la matrice associée à f. Endomorphisme: Une application linéaire qui prend un élément d'un espace vectoriel et rend un élément du même espace. f:E->E Ressemblance de deux matrices carrées A et B: La propriété d'avoir une matrice P telle que A = P^-1 * B * P. Cela veut dire que les applications associées à A et B calculent les mêmes résultats -- sauf que chacune d'elles travaille sur une base différente. P transforme alors un paramètre donné par la base de A à la base de B. B calcule son résultat et après, la transformation est "annullée" par P^-1. Matrice idempotente: Une matrice qui est égale à son carré. Cela veut dire: L'application associée f rend le paramètre lui-même, si le paramètre a déjà été transformé par f: f(f(x))=f(x) pour la matrice associée M: M*M = M Déterminant: L'application "det" qui prend une matrice carrée et rend un certain scalaire. Ce scalaire sert pour déterminer les propriétés de la matrice. Pour une matrice carrée A d'ordre (2,2), le déterminant est det(A)=a[1][1]*a[2][2] - a[1][2]*a[2]][1], c'est-à-dire: "diagonale \" - "diagonale /" Pour une matrice carrée A d'ordre (3,3), le déterminant est det(A)=+a[1][1]*a[2][2]*a[3][3] +a[2][1]*a[3][2]*a[1][3] +a[3][1]*a[1][2]*a[2][3] -a[1][3]*a[2][2]*a[3][1] -a[2][3]*a[3][2]*a[1][1] -a[3][3]*a[1][2]*a[2][1] Manière allemande pour calculer det(A) d'une matrice d'ordre (3,3): Écris A Écris A une deuxième fois à coté Calcule et écris le produit de la diagonale principale Écris un "+" Calcule et écris le produit de la diagonale auprès de la diagonale principale, qui commence par a[1][2] et a[2][3] dans la première A et continue par a[3][1] dans la deuxième A Écris un "+" Calcule et écris le produit de la troisième diagonale Calcule et écris les produits des trois diagonales "/", précédés par un "-" Calcule le résultat C'est-à-dire: "\" + "\" + "\" - "/" - "/" - "/" Calculer le déterminant d'une matrice d'ordre n>3: Grâce aux propriétés mentionnées ci-dessous, le déterminant de A peut être calculé en transformant A en I. On peut additioner un multiple d'une ligne à une autre ligne. On peut diviser une ligne par un scalaire, ce qui cause le déterminant d'être multiplié par ce scalaire. On sait que det(I)=1. Si on n'arive pas à I, deux vecteurs-lignes sont linéairement dépendantes, donc det(A)=0-. Il est valable: det(A*B) = det(B*A) det(t(A)) = det(A) det(A^-1) = det(A)^-1 si A est inversible det(D) = PROD i=1..n d[i][i] pour une matrice diagonale D det(I) = 1 det(A)=0 <=> A singulière <=> il y a deux colonnes linéairement dépendantes det((v[1], ...,r*v[k], ...v[n])) = r*det((v[1],...v[n])) det((v[1], ...,a+v[k], ...v[n])) = det((v[1],...v[k],...,v[n])) + det((v[1],...a, ...,v[n])) det((v[1],...,v[i],...,v[j],...v[n])) = - det((v[1],...,v[j],...,v[i],...v[n])) det((v[1],...,v[i] ,...,v[j],...v[n])) = det((v[1],...,v[i]+r*v[j],...,v[j],...v[n])) Annotation: Le déterminant correspond au volume engendré par les vecteurs-lignes de la matrice. Vecteur propre d'une matrice carrée: Un paramètre non nul pour lequel l'endomorphisme associé rend un multiple. C-est-à-dire: Un vecteur u d'une matrice carrée A tel que il existe k scalaire tel que A*u = k*u. Valeur propre d'une matrice carrée: Un scalaire associé à un vecteur propre. La valeur propre peut être associée à plusieurs vecteurs propres. Particulièrement, tout multiple d'un vecteur propre est de même un vecteur propre associé à la même valeur propre. Il est valable: * det(A - k*I)=0 pour une matrice A et une valeur propre k Le polynôme résultant de cette équation peut être utilisé pour calculer les valeurs propres. Par A*x=k*x, on peut calculer les vecteurs propres x. * A*x=k*x => A*(r*x)=k*(r*x) pour toute valeur propre k, vecteur propre x et scalaire r * La somme de toutes les valeurs propres d'une matrice est égale à sa trace * A est semblable à B => A et B ont les mêmes valeurs propres * A est symétrique et inversible => les valeurs propres de A^-1 sont les inverses des valeurs propres de A, les vecteurs propres sont les mêmes * dim(Kern(A)) est le nombre de valeurs propres nulles Cf aussi "Matrice diagonalisable" Vector propre d'ordre k d'une matrice M: Le vecteur propre de M qui est associé à la k-ème valeur propre de M, si on classe les valeurs. Spectre d'une matrice: L'ensemble de ses valeur propres. Polynôme: Une somme de multiples d'une variable élevée à 0,1,...n. a[n]*x^n + ... a[1]*x^1 + a[0]*x^0 Polynôme caractéristique d'une matrice carrée A: Le polynôme det(A - x*I). Multiplicité: L'exponent e[i] d'une valeur b[0] dans un polynôme écrit comme (b[0]-x)^e[0] * (b[1]-x)^e[1] ... * (b[n]-x)^e[n] Sous espace propre d'une valeur propre d'une matrice: Un espace vectoriel qui a comme base l'ensemble de tous les vecteurs propres associés à cette valeur propre. Matrice diagonalisable: Une matrice qui est semblable à une matrice diagonale. * Si A est diagonisable avec A=P*D*P^-1, alors les éléments diagonaux de D sont les valeurs propres et les colonnes de P sont les vecteurs propres. Cela veut dire: En changeant la base à la base donnée par les vecteurs propres, A ne calcule que des multiples des coordonnées. * Toute matrice est diagonisable si elle possède n valeurs propres distinctes * Toute matrice qui possède n vecteurs linéairement indépendants (i.e. toute matrice inversible et donc régulière) est diagonisable. * Toute matrice est diagonisable si toute valeur propre est réelle et de multiplicité égale à la dimension de son sous espace propre * Si A est diagonisable, alors sa trace est égale à la somme de ses valeurs propres Tr(A)=Tr(P*D*P^-1)=Tr(P^-1*P*D)=Tr(I*D)=TR(D) * Si A est diagonisable, alors son déterminant est égal au produit de ses valeurs propres det(A)=det(P*D*P^-1)=det(P)*det(D)*det(P^-1)=det(P)*det(D)*1/det(P) =det(D) Matrice symétrique: Une matrice carrée qui est égale à sa transposée. Si une matrice est symétrique, alors * elle est diagonisable * ses valeurs propres sont toutes réelles * si x et y sont deux vecteurs propres, alors t(x)*A*y = t(y)*A*x Cela veut dire: Deux vecteurs propres associés à deux valeurs propres différentes sont orthogonals (voir ci-dessous) Forme bilinéaire: Une application qui prend deux vecteurs réels et rend un nombre réel et qui est linéaire pour tous les deux paramètres. Matrice associée à une forme bilinéaire: Une matrice M d'une forme bilinéaire u telle que m[i][j]=u(e[i],e[j]) où les e[i] sont la base canonique. Par conséquence, il est u(x,y)=t(u)*M*y. Matrice définie positive: Une matrice réelle symétrique M telle que t(x)*M*x > 0 pour tout vecteur x non nul. Il est valable: * D matrice diagonale définie positive <=> d[i][i]>0, d[i][j]=0 * M définie positive inversible <=> M^-1 définie positive inversible * M définie positive <=> toutes ses valeurs propres sont strictement positives * Toute matrice définie positive est un produit d'une autre matrice inversible par sa transposée * Tout produit d'une matrice inversible par sa transposée est définie positive Produit scalaire: Une forme bilinéaire définie positive. L'application est notée de sorte que le nom de l'application entoure les paramètres: M = t(x)*M*y. Pour M=I, le produit scalaire est le produit scalaire normal. Les conditions pour un produit scalaire sont les suivantes: * = r* + pour tout réel r et tout vecteur x,y,z * = * = 0 <=> x = 0 Matrice D-symétrique: Une matrice A telle que D = D pour tout vecteur x,y. Forme bilinéaire symétrique: Une forme bilinéaire commutative. En ce cas, la matrice associée est aussi symétrique. Forme quadratique associée à une forme bilinéaire u: Une application f telle que f(x)=u(x,x). Métrique: Une matrice symétrique définie positive. Cette matrice peut être utilisée pour installer une mesure dans un espace vectoriel: Une longeuer et une distance. Norme par une matrice M: L'application ||.||M, qui prend un vecteur réel x et rend ||x||=sqrt(M) Il est valable: * ||x||=0 <=> x=0 * ||a*x|| = abs(a)*||x|| pour tout scalaire a et tout vecteur x * ||x+y|| =< ||x|| + ||y|| pour tous vecteurs x et y (inégalité trianguliaire) L'application est donc notée de sorte que le nom de l'application entoure le paramètre. La norme peut être considerée comme "longueur" du vecteur. Avec M=I, la norme donne la longueur classique du vecteur dans l'espace euclidien. Vecteur normé: Un vecteur dont la norme est 1. Un vecteur peut être normé par une divison par sa norme: x/||x|| est normé. Distance: L'application d qui prend deux vecteurs réels et rend la norme de leur difference. d(x,y)=||x-y||M M-Orthogonalité de deux vecteurs: La propriété d'avoir un produit scalaire de zéro. M=0 <=> (x,y) M-orthogonal Dans l'espace euclidien avec M=I, cela veut dire que les vecteurs forment un angle de 90 degrées. Théorème de Pythagore: L'équation ||a-b||^2 = ||a||^2 + ||b||^2, où a et b sont des vecteurs orthogonaux. L'équation provient de ||a-b||^2 = = + - - comme a et b sont orthogonaux, et sont nuls = + = ||a||^2 + ||b||^2. Angle: Un couple de vecteurs. Annotation: Cela n'est pas vraiment une bonne définition, mais pour définir un angle, il faudrait le arccos: angle(x,y)=arccos( / ||x|| / ||y||) Cosinus: L'application qui prend un angle (x,y) et rend cos( (x,y) ) = M / ||x||M / ||y||M Base orthogonale: Une base telle que tous ses vecteurs sont orthogonaux aux autres vecteurs. Chaque base peut être transformée à une base orthogonale. Complément orthogonal d'un sous espace: L'espace engenderé par ces vecteurs d'une base orthogonale de l'espace entourant, qui n'engendrent pas le sous espace. Exemple: Soit V un espace vectoriel Soit B={e1,e2,e3,e4,e5} une base orthogonale de V Soit U = Vec({e1,e2,e3}) un sous espace de V Alors comp(U) = Vec({e4,e4}) est le complément de U Le complément orthogonal est lui-même un sous espace. Chaque élément d'un espace vectoriel V est la somme d'un vecteur d'un sous espace U et un vecteur de son complément comp(U): All x à V: Ex y à U: Ex z à comp(U): x = y + z Projecteur: Une métrique idempotente. Cela veut dire: Si un vecteur est projecté deux fois, il ne change plus. Soit P un projecteur de E dans W, alors * Kern(P)=comp(W) * P(x-P(x))=0, alors x-P(x) appartient à Kern(P) * E = Kern(P)+Im(P) * 1 et 0 sont les seules valeurs propres de P * P(v)=*w[1] + ... *w[n], si les w[i] sont une base orthogonale de W * P = X*(t(X)*X)^-1*t(X), si X est la matrice qui a la base de W comme vecteur-colonnes * Parmi tous les éléments de W, P(x) est le vecteur de W dont la distance à x est minimale. Projection orthogonale: L'application qui prend un vecteur réel x, une matrice réelle M et un vecteur réel u et rend P*x = h(x) = M * u / ||u||M^2 P*x = h(x) = * u si ||u||=1 P = u*t(u)*M / (t(u)*M*u)^2 Cette projection "jette" le point donné par x sur la droite par l'origine donnée par u. La projection est M-orthogonale: = - = - < * u / ||u||^2,u> = - / ||u||^2 * = - / ||u||^2 * ||u||^2 = - = 0 Annotation: Le carré manque dans le polycopié. Matrice orthogonale: Une matrice dont tous les vecteur-colonnes sont orthogonaux. Par conséquent, il est valable: A^-1 = t(A) Si la matrice est non seulement orthogonale, mais encore symétrique, il est valable: A^-1 = A Infini: La valeur théorique INF qui est plus grande que toutes les valeurs réelles. Limes: La valeur théorique d'une expression avec une variable ayant une valeur avec laquelle on ne peut pas calculer. On écrit: lim variable->valeur expression = limes Exemple: lim n->INF 1/n = 0 Dérivée d'une fonction f:R^n->R par le i-ème paramètre: L'application df/dx[i] qui prend des paramètres x[1],...x[n] et redonne lim h->0 (f(x[1],x[2],...x[n])-f(x[1],x[2],... x[i]+h, ... x[n]))/h La dérivée mesure alors le changement de f, quand on secoue x[i]. Il est: ( a(x)/b(x) ) / dx = ( a(x)/dx * b(x) - b(x)/dx * a(x) ) / b(x)^2 Gradient d'une fonction: Le vecteur donné par les dérivées de f par tous les paramètres. df/dx = ( df/x[1], ..., df/x[n] ) Il est valable: * d(t(a)*x)/dx = a si a est un vecteur constant * d(t(x)*A*x)/dx = A*x + t(A)*x * d(t(x)*A*x)/dx = 2*A*x si A est symétrique * Soient A et B des matrices symétriques et inversibles du même ordre, alors t(x)*A*x/(t(x)*B*x) est maximal pour le premier vecteur propre de B^-1*A * t(u)*A*u est maximal, si u est le premier vecteur de A, parce que t(u)*x est maximal, si u et x sont colinéaires, alors x=k*u. Comme x=A*u, on a A*u=k*u. Relation, Relation binaire: Un sous ensemble de tous les couples, dont le premier élément appartient à un ensemble A et le deuxième élément appartient à un ensemble B. Pour dire que un couple (a,b) appartient à la relation R, on écrit: * (a,b) appartient à R * R(a,b) * a R b Relation asymétrique: Une relation R telle que (a,b) n'appartient pas à R si (b,a) appartient à b. Si R(b,a) alors (a,b) n'appartient pas à R Relation transitive: Une relation R telle que R(a,b) et R(b,c) implique R(a,c). Relation complète: Une relation R telle que R(a,b) ou R(b,a), quel que soient a et b. Ordre linéaire: La relation ">", qui est asymétrique, transitive et complète. pi: La valeur 3.141592653589793238462... e: La valeur 2.7182818... ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Révision de la Statistique ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Statistique inférente: La théorie de la vérification d'une thèse par des données observées. Statistique déscriptive: La théorie de l'analyse des données. En général, on collectionne et dépeint les caractères de certains individus. Individu: Un objet d'intérêt. Exemples: Une glace, un homme politique, une ville... Population: L'ensemble de tous les individus. Échantillon: Un sous ensemble de la population. Dans toute la suite le nombre des individus de l'échantillon est noté par n. Poids d'un individu: Un nombre réel associé à cet individu tel que la somme des poids de tous les individus de l'échantillon est 1. SUM i=1..n p[i] = 1 Ce poid donne l'importance de cet individu, alors le facteur avec lequel il sera compris dans le calcul. Si p[i]=1/n pour toutes les i, tous les individus ont la même importance. Matrice diagonale des poids: La matrice diagonale D d'ordre (n,n) telle que D=diag(p[1], ...p[n]). Les mesures par la métrique D sont donc normées par le nombre d'individus. Produit scalaire statistique: Le produit scalaire par D D = 1/n * SUM i=1..n x[i]*y[i] Variable, Caractère: Un attribut d'un individu. Dans toute la suite, une variable est donnée par le tuple de ses valeurs pour les individus 1..n. Exemple: X peut signifier le goût d'une glace, soit "c" pour "chocolat" ou "v" pour "vanille". Si on avait n=4 glaces, X pourrait être (c,c,v,c). Variable numérique, Variable quantitative: Une variable dont les valeurs possèdent un ordre linéaire. Annotation: Pour être rigoureux, il faudrait encore distinguer les variables quantitatives, qui possèdent un ordre, mais pas d'addition (par ex. les niveaux de force de vent) et les variables quantitatives, qui possèdent un ordre, une addition, mais pas de multiplication (par ex. la température en Celsius). Dans toute la suite, on admet que les variables quantitatives possèdent l'ordre, l'addition et la multiplication et sont exprimées par des nombres réels. Variable continue: Une variable quantitative, pour laquelle il y a entre deux valeurs possibles toujours une autre valeur possible. Exemple: Le poids: Pour deux valeurs, il y a (théoriquement) toujours un valeur entre elles. Variable discrète: Une variable non continue. Exemple: Le nombre d'enfants: Il n'y a pas de valeur possible entre 1 et 2. Variable qualitative: Une variable dont les valeurs ne possèdent pas d'ordre linéaire. Exemple: La couleur des yeux. Modalité d'une variable qualitative: Une valeur possible de cette variable. Dans la suite, on parle d'une seule variable qualitative avec plusieures modalités. Exemple: "bleu" est une modalité de la couleur des yeux. Effectif, Fréquence absolue: L'application N qui prend une modalité et rend le nombre d'individus qui possèdent cette modalité. Fréquence, Fréquence relative: L'application F qui prend une modalité et rend l'effectif divisé par le nombre total des individus. La fréquence relative est donc l'effectif normé. Variable indicatrice d'une modalité pour un individu: La valeur 1 si l'individu possède cette modalité et 0 sinon. Tableau disjonctif complet: Une matrice dont chaque ligne correspond à un individu, chaque colonne à une modalité et dont chaque terme x[i][j] est la variable indicatrice du i-tième individu et de la j-tième modalité. Alors x[i][j]=0, si l'individu numéro i possède la modalité j, 0 sinon. Il est valable: * Chaque ligne contient un seul 1 -- car une seule modalité applique à un individu. * Le produit du tableau par sa transposée rend une matrice diagonale, dont les éléments sont les effectifs des modalités. * La norme d'une colonne (par le produit scalaire statistique) est égale à la fréquence relative de cette modalité. Coder une variable, quantifier une variable: Associer à chacune des modalités de cette variable qualitative un nombre réel. Le résultat est une variable quantitative. Le vecteur des valeurs de cette variable quantitative pour tous les individus peut être obtenu par la multiplication du tableau disjonctif complet par le vecteur des codes. Dans toute la suite, on admet que les variables qualitatives sont codées. Les variables sont donc des vecteurs réels. Moyenne pondérée d'une variable x: La valeur bar(x) = SUM i=1..n x[i]*p[i], alors la somme pondérée des valeurs de ce caractère pour tous les individus. Il est valable: bar(a*x+b)=a*bar(x)+b bar(x) = <(1,1,1,...),x>D = (1,1,1,...)*D*x Moyenne d'une variable x: La moyenne pondérée avec p[i]=1/n pour tous les i. La moyenne est alors la somme des valeurs d'un caractère, normée par le nombre des individus. Variable centrée: Une variable dont la moyenne est 0. Une variable peut être centrée par la subtraction de sa moyenne de toutes ses valeurs. x - bar(x) est centré Variance d'une variable x: La valeur var(x) = ( SUM i=1..n (x[i]-bar(x))^2) / n, alors une mesure des écarts des valeurs de x de sa moyenne. Il est valable: var(a*x+b)=a^2*var(x) La variance d'une variable centrée est égal au carré de sa norme (par le produit scalaire statistique): var(x) = ||x||D^2 si x est centré var(x) = t(x)*x/n si de plus chaque individu a le poids 1/n Écart-type d'une variable: La racine carrée de sa variance. sigma(x) = sqrt(var(x)) L'écart-type a alors la même unité que le caractère. L'écart-type d'une variable centrée est égal à sa norme (par le produit scalaire statistique): sigma(x) = ||x||D si x est centré Variable réduite: Une variable dont la variance est 1. Une variable centrée peut être réduite par la division de toutes ses valeurs par son écart-type. Il est valable x/sigma(x) = x/||x||D est normé si x est centré, alors var(x/sigma(x)) = || x/||x||D ||D^2 = 1 Covariance de deux variables x et y: La valeur cov(x,y) = 1/n * SUM i=1..n (x[i] - bar(x)) * (y[i] - bar(y)) La covariance est une mesure des points communs de deux caractères. Si les deux caractères augmentent avec i allant de 1 à n, la covariance est grande. Si l'un des deux augmente et l'autre se réduit, la covariance est negative. Si il n'y a pas de rapport linéaire, la covariance est 0. Il est valable: cov(x,y) = D si x et y sont centrés cov(x,y) = t(x)*y/n si de plus tout individu a le poids 1/n Corrélation de deux variables x et y: La covariance, normée par les écart-types de x et y. R(x,y) = cov(x,y) / sigma(x) / sigma(y) La corrélation est alors une mesure normée des point communs de deux caractères x et y . Le résultat est un nombre réel entre -1 et 1. La corrélation est 1, si les variables sont colinéaires et 0, si les variables sont orthogonales. Il est valable: R(x,y) = D / ||x||D / ||y||D si x et y sont centrés R(x,y) = cos(x,y) si x et y sont centrés R(x,y) = cov(x,y) = D si x et y sont centrés et réduits R(x,y) = t(x)*y/n si de plus tout individu a le poids 1/n La corrélation correspond au cosinus de la pente de la droite dans l'espace des individus. Statistique déscriptive multivariée: La statistique déscriptive qui s'occupe de plusieurs caractères. L'idée générale est de diminuer le nombre de caractères tout en gardent les mêmes informations. Tableau de données multidimensionelles: La matrice X dont les lignes représentent les individus et dont les colonnes représentent les caractères. Le caractère j d'un individu i est noté par x[i][j], où i est écrit en dessous et j est écrit en dessus de l'x. Dans toute la suite * n signifiera le nombre des individus * p sera le nombre des caractères * caractère[j] sera le j-ième des p caractères, donc la colonne j * individu[i] sera le i-ième des n individus, donc la ligne i Exemple: goût qualité glace1 1 10 glace2 2 10 glace3 2 2 Espace des variables: L'espace vectoriel des caractères, c'est-à-dire l'espace vectoriel auquel toutes les colonnes du tableau appartiennent. L'espace des variables est donné par (R^n, B, D) où D est la matrice des poids. Si l'espace des variables est à représenter graphiquement, on dessine les variables centrées comme des flèches. Leur longueur est donné par leur norme et l'angle entre elles est donné par cos(x,y) = /||x||/||y|| Annotation: On pourrait dire qu'un caractère (c'est-à-dire "une propriété") n'est que l'ensemble des individus pour lesquels la propriété est valable, voir http://www.mpi-inf.mpg.de/~suchanek/personal/philo.txt Espace des individus: L'espace vectoriel des individus, c'est-à-dire l'espace vectoriel auquel toutes les lignes du tableau appartiennent. L'espace des individus est donné par (R^p, B, I(n)) Annotation: De même, on pourrait dire qu'un individu n'est que l'ensemble de ses propriétés. Centre de gravité: Le vecteur des moyennes pondérées des caractères. / bar(caractère[1]) \ g=t(X)*D*(1,1,1,...1)= | ... | \ bar(caractère[p]) / C'est-à-dire que ce vecteur donne cette constellation de caractères qu'on va entendre si tous les individus crient leurs propriétés avec une force donnée par ses poids. g correspond à l'espérance E. Si les variables de X sont centrées, alors g est nul. On obtient la matrice centré de X par X - (1,1,1,...1)*t(g) Matrice de variance-covariance, Matrice de covariance: La matrice carrée V d'ordre (p,p) telle que v[i][j]=cov(caractère[i],caractère[j]). Alors la diagonale de V sera var(caractère[i]). V peut être calculée comme étant V = t(X)*D*X - g*t(g) Cette équation correspond à var(X) = E(X^2) - E(X)^2 et donc à la variance de la statistique inférente, voir plus loin pour "espérance". Il est valable: V = t(X)*D*X si les variables sont centrées V = 1/n * t(X)*X si les individus ont de plus tous le même poids Distance entre deux caractères: La distance donnée par la métrique D: d(caractère[i],caractère[j]) = || caractère[i] - caractère[j] ||D C'est-à-dire: Si les caractères prennent des valeurs différentes pour un individu important, alors les caractères auront une grande différence. Distance euclidienne entre deux individus: La distance donnée par la metrique I: d(individu[i],individu[j]) = || individu[i] - individu[j] ||I Distance mahalanobisienne entre deux individus: La distance donné par la metrique V^-1: d(individu[i],individu[j]) = || individu[i] - individu[j] ||(V^-1) Matrice des inverses des écart-types: La matrice Ds telle que ds[i][j] = 1 / sigma(caractère[i]) / sigma(caractère[j]) . On obtient la matrice réduite à partir de la matrice centrée X en calculant X*Ds. Matrice de corrélation: La matrice carrée R d'ordre (p,p) telle que r[i][j]=R(caractère[i], caractère[j]) Alors la diagonale sera R(caractère[i], caractère[i])=1. R peut être calculée comme étant R = Ds * V * Ds Cette multiplication ne fait que une division de chaque terme de V par les écart-types correspondants: r[i][j] = v[i][j] / sigma(caractère[i]) / sigma(caractère[j]) Si les variables sont centrées et réduites, alors V est égal à R. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Mesure de la liaison entre variables ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Translation: L'addition d'un vecteur à un autre vecteur ou à chaque vecteur d'un ensemble de vecteurs. Hyperplan: Un sous espace vectoriel translaté de dimension n-1, où n est la dimension de l'espace entourant. Un hyperplan peut être défini en donnant * un vecteur de translation et * les scalaires d'une combinaison linéaire de n-1 vecteurs. Chaque vecteur qui peut résulter de cette combinaison linéaire plus la translation appartient à l'hyperplan. Exemple: Avec les notions de la géométrie classique, on peut dire: Dans un espace de dimension 1, un hyperplan est un point. Dans un espace de dimension 2, un hyperplan est une droite. Dans un espace de dimension 3, un hyperplan est un plan. Variable expliquée: Une variable dont on veut exprimer les valeurs par les valeurs d'autres variables. Dans toute la suite, on admet que la variable expliquée est centrée. Variable explicative: Une variable qui sert à exprimer la valeur d'une variable expliquée. Dans toute la suite, on admet que les variables explicatives sont centrées et linéairement indépendantes. Ils forment donc une base de l'espace des individus. Regression, Regression multiple: L'expression d'une variable expliquée centrée par un ensemble de variables explicatives. Soit y le vecteur des valeurs de la variable expliquée pour tous les individus, soit X le tableau de données multidimensionelles des variables explicatives. Soient a et e des vecteurs réels. Alors la regression multiple a la forme: y[i] = a[1]*x[i][1] + ... a[p]*x[i][p] + e[i] Pour le vecteur y, cela devient: y = a[1]*caractère[1] + ... a[p]*caractère[p] + e Et matriciellement: y = X*a + e Coefficients de la regression: Le vecteur a de la regression. Les valeurs de a doivent être trouvées telles que la norme de l'erreur est minimale. Erreur de la regression, résidu de la regression: Le vecteur e dans la regression. Pour chaque individu, il donne l'écart de la valeur théorique X*a de la valeur observée y. Dans toute la suite, on admet que l'erreur en général n'est pas zéro (pourqu'on se trouve dans un espace des individus de dimension p+1). Interprétation de la regression dans l'espace des individus: Dans l'espace des individus, les individus peuvent être considerés comme vecteurs, dont les éléments sont donnés par les caractères. Ayant les p variables explicatives et une variable expliquée, on se trouve donc dans un espace de dimension p+1. L'équation y = a[1]*caractère[1] + ... a[p]*caractère[p] + e décrit maintenant un hyperplan qui passe le plus près des individus, c'est-à-dire cet hyperplan pour lequel la valeur théorique a[1]*x[i][1] + ... a[p]*x[i][p] est plus proche à la valeur observée y[i] pour chaque individu i. Interprétation de la regression dans l'espace des variables: Dans l'espace des variables, chaque variable peut être considerée comme vecteur, dont les éléments sont donnés par les individus. Ayant n individus, on se trouve donc dans un espace de dimension n, dans lequel il y a les p variables explicatives et une variable expliquée. Admettant que les p variables explicatives sont linéairement indépendants, ils engendrent un sous espace dans l'espace des variables. La variable expliquée n'appartient pas à cet sous espace. On veut maintenant exprimer la variable expliquée par une combinaison linéaire des variables expliquatives. Cela revient à chercher ce vecteur dans le sous espace, qui est le plus proche au vecteur de la variable expliquée. Pour ce vecteur, l'erreur est minimal. Ce vecteur est donc donné par la projection de la variable expliquée au sous espace. Solutionner une regression: Donner les coefficients de la regression tels que la norme de l'erreur soit minimal. Si P est le projecteur de l'espace des variables au sous espace des variables expliquatives, l'interprétation ci-dessus nous donne: X*a = P*Y Alors, comme P=X*(t(X)*X)^-1*t(X): X*a = X*(t(X)*X)^-1*t(X)*Y Et par conséquent: a = (t(X)*X)^-1*t(X)*Y Dans ce cas, le moyen de l'erreur est zéro. La matrice t(X)*X est la matrice de covariance, multipliée par n. Équation de l'analyse de la variance: L'équation var(y) = var(X*a) + var(e), alors la variance totale est la variance expliquée plus la variance résiduelle. Cette équation provient de: Y = X*a + e => e = Y-X*a => e = Y-P*Y car X*a = P*Y => P(e)=0 car P(Y-P(Y))=0 => e appartient à comp(X) => =0 => ||Y||^2 = ||X*a||^2 + ||e||^2 selon Pythagore => var(Y) = var(X*a) + var(e) car Y, X*a et e centrés Car la variance est invariante pour des translations, l'équation vaut aussi pour des variables non centrées. Rapport de corrélation, coefficient de détermination: La valeur R^2 = var(X*a) / var(Y) = ||X*a||^2 / ||Y||^2, alors le rapport de la variance expliquée à la variance observée. Ce coefficient mesure la qualité de l'approximation. Coefficient de corrélation multiple: La racine carrée du coefficient de détermination. Regression simple: La regression avec une seule variable expliquative x. Dans ce cas * y = a*x + e Si y et x ne sont pas normés, on a y-bar(y) = a*(x-bar(x) + e <=> y = a*x + b + e avec b=bar(y)-a*bar(x) * a = cov(x,y) / var(x) = 1/n * SUM i=1..n (x[i]-bar(x))*(y[i]-bar(y)) / var(x) * Le coefficient de corrélation multiple est le coefficient de corrélation connu: R^2 = var(x*a) / var(y) = a^2*var(x)/var(y) = cov(x,y)^2/var(x)^2*var(x)/var(y) = cov(x,y)^2/var(x)/var(y) => R = cov(x,y) / sigma(x) / sigma(y) = R(x,y) // Remarques 2.7.1 & 2.7.2 ? Tableau des effectifs observés, Tableau de contingence: Le produit O de la transposée d'un tableau disjonctif complet par un autre tableau disjonctif complet. Le résultat est une matrice, dont l'élément à la i-tième ligne et la j-tième colonne donne le nombre des individus qui possèdent à la fois la i-tième modalité de la première variable et la j-tième modalité de la deuxième variable. Le tableau de contingence est alors le cas général du produit d'un tableau disjonctif complet par lui-même: Ce produit donne le nombre des individus qui possèdent "la même modalité à la fois" -- et donc l'effectif de cette modalité. Parfois, on note à la droite du tableau la somme de chaque ligne et donc l'effectif de la modalité de cette ligne. De même, on note en dessous du tableau la somme de chaque colonne et donc l'effectif de la modalité de cette colonne. Tableau des fréquences observées: La matrice F obtenue par la divison de chaque terme du tableau des effectifs observés par le nombre des individus. Le terme f[i][j] donne alors la fréquence relative des individus qui possèdent à la fois la modalité i de la première variable et la modalité j de la deuxième variable. On note à la droite du tableau la somme de chaque ligne i et donc la fréquence relative f[i][.] de la modalité de cette ligne. De même, on note en dessous du tableau la somme de chaque colonne j et donc la fréquence relative f[.][j] de la modalité de cette colonne. Tableau des profils des lignes: La matrice obtenue d'un tableau des effectifs observés par la divison de chaque terme par l'effectif de sa ligne. Un terme à la position i,j donne alors le rapport de ces individus qui possèdent à la fois la modalité i et la modalité j au nombre de tous les individus qui possèdent la modalité i. On note à la droite du tableau les fréquences relatives f[i][.] et en dessous du tableau les fréquences relatives f[.][j]. Tableau des profils des colonnes: La matrice obtenue d'un tableau des effectifs observés par la divison de chaque terme par l'effectif de sa colonne. Un terme à la position i,j donne alors le rapport de ces individus qui possèdent à la fois la modalité i et la modalité j au nombre de tous les individus qui possèdent la modalité j. On note à la droite du tableau les fréquences relatives f[i][.] et en dessous du tableau les fréquences relatives f[.][j]. Tableau des fréquences théoriques: La matrice obtenue d'un tableau des fréquences observés, dont le terme à la position i,j est égal à f[i][.] * f[.][j] -- donc au produit des fréquences relatives de la modalité i de la première variable et la modalité j de la deuxième variable. Cela veut dire: Si les deux variables étaient indépendantes (v. ci-dessous), alors la fréquence des individus possedant à la même fois la modalité i et la modalité j serait la valeur à la ligne i et à la colonne j. Tableau des effectifs théoriques: La matrice T obtenue d'un tableau des fréquences théoriques par la multiplication de chaque terme par le nombre des individus. Cela veut dire: Si les deux variables étaient indépendantes (v. ci-dessous), alors le nombre des individus possedant à la même fois la modalité i et la modalité j serait la valeur à la ligne i et à la colonne j. khi-deux: La valeur khi-deux = SUM i=1..p1 SUM j=1..p2 (o[i][j]-t[i][j])^2 / t[i][j] obtenue d'un tableau des effectifs observés O et le tableau des effectifs théoriques T correspondant. p1 est le nombre des lignes des tableaux, p2 est le nombre des colonnes. khi-deux est donc une mesure de la différence des deux tableaux. Si khi-deux est petit, les valeurs théoriques sont très proches aux valeurs observées. Cela veut dire: L'hypothèse de l'indépendance des variables (v. ci-dessous) était bonne. khi-deux peut également être calculé comme étant khi-deux = SUM i SUM j (o[i][j] - t[i][j] )^2 / t[i][j] = n * SUM i SUM j (f[i][j] - f[i][.]*f[.][j])^2 / (f[i][.] * f[.][j]) = n * SUM i SUM j (f[i][j]^2 - 2*f[i][j]*f[i][.]*f[.][j] + f[i][.]^2*f[.][j]^2) / f[i][.] / f[.][j] = n * SUM i SUM j f[i][j]^2 / f[i][.] / f[.][j] - 2*f[i][j] + f[i][.]*f[.][j] = n * SUM i SUM j f[i][j]^2 / f[i][.] / f[.][j] - n * SUM i SUM j 2*f[i][j] + n * SUM i SUM j f[i][.]*f[.][j] = n * SUM i SUM j f[i][j]^2 / f[i][.] / f[.][j] - n * 2 * 1 + n * 1 = n * (SUM i SUM j f[i][j]^2 / (f[i][.] * f[.][j])) - n = (SUM i SUM j o[i][j]^2 / t[i][j]) - n = n * (SUM i SUM j o[i][j]^2 / (n*f[i][.] * n*f[.][j]) - n La dernière formule permet de calculer khi-deux directement du tableau des effectifs observés: n*f[i][.] est la somme d'une ligne et n*f[.][j] est la somme d'une colonne. Indépendance de variables qualitatives: La propriété d'un couple de deux variables qualitatives de posseder une valeur khi-deux inférieure à celle donnée dans la liste officielle des khi-deux. L'"indépendance" est donc un concept flou (fuzzy), mais plus les deux variables sont indépendantes, plus les valeurs théoriques sont proches aux valeurs observées, plus khi-deux est proche à 0. "Grand tableau disjonctif": La matrice obtenue de plusieures variables qualitatives en mettant ses tableaux disjonctifs complets l'un à coté de l'autre. Tableau de Burt: La matrice B obtenue de plusieurs variables qualitatives de sorte que B = t(G)*G, où G est le grand tableau disjonctif des variables. Ce tableau croise alors les modalités des variables: * b[i][j] donne le nombre des individus qui possèdent la modalité i et la modalité j à la fois * Un terme b[i][i] de la diagonale donne l'effectif de la modalité i * La somme d'une ligne i donne l'effectif de cette modalité, multiplié par le nombre des variables * Tous les tableaux de contingence de deux variables se trouvent dans B, à la position k,l se trouve le tableau de contingence croisant les variables k et l * B est symétrique ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Digression à la Statistique inférente ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ // Il s'agit du traitement de la fiche No 1 Variable alléatoire, v.a.: Un caractère théorique pour toute la population. Probabilité d'une variable alléatoire X et une valeur x: Le rapport du nombre des individus dont la X vaut x au nombre de tous les individus de la population: P(X=x). Cette valeur théorique appartient à la statistique inférente, elle correspond au poids. Espérance d'une variable alléatoire X: La moyenne des valeurs de X, notée E(X). Cette valeur théorique appartient à la statistique inférente, elle correspond à la moyenne pondérée. Il est valable: * E(c*X) = c*E(X) pour toute valeur réelle c * E(X+Y) = E(X) + E(Y) * E(c) = c pour toute valeur réelle c Variance d'une variable alléatoire X: La valeur var(X) = E(X^2) - E(X)^2 = E( (X-E(X))^2 ), donc le correspondant de la variance. Densité: L'application de la statistique inférente qui prend une variable alléatoire X et une valeur x et rend la probabilité du cas où la variable a la valeur x. fX(x) = P(X = x) Loi normale: Le phénomène qu'une variable alléatoire a la densité fX(x) = e^(-0.5*(x-E(X))^2/var(X)) / sqrt(var(X)*2*pi) On dit: X suit la loi normale N(E(X), sigma(X)) X ~ N(E(X), sigma(X)) fX forme une courbe de la forme d'une cloche: Le cas X = E(X) est le cas le plus probable et plus x s'éloigne de E(X), mois probable est X = x. Toute combinaison linéaire de variables alléatoires normales est de même normale. Variable normale: Une variable alléatoire qui obeit une loi normale. Degré de liberté d'une variable alléatoire X: Le nombre de variables indépendantes ayant une influence sur X (?). Loi de khi-deux: Le phénomène qu'une variable alléatoire se comporte comme une somme de carrées de variables normales. X = SUM j=1..p Y[p]^2 Si Y[i] ~ N(E(Y[i]), sigma(Y[i])), alors X ~ ki^2(ddl) où ddl est le degré de liberté de X. Variable khi-deux: Une variable alléatoire qui obeit une loi khi-deux. Loi de Student: Le phénomène qu'une variable alléatoire se comporte comme une variable normale divisée par la racine du quotient d'une variable khi-deux et un son degré de liberté. Ce degré de la variable khi-deux est de même le degré de liberté de la variable qui obeit la Loi de Student. X = Y / sqrt(Z/ddl) Si Y ~ N(E(Y), sigma(Y)) et Z ~ ki^2(ddl), alors X ~ S(ddl). Modèle thèorique: L'équation y[i] = a[0] + SUM j=1..p a[j]*x[i][j], où * y[i] est la valeur prédite d'une variable alléatoire à expliquer * les x[][j] sont des variables alléatoires connues qui agissent comme des variables expliquatives * les a[j] sont des coefficients Les coefficients du modèle théorique sont considérés comme des valeurs fixes, qu'il faut estimer grâce à une regression multiple. Modèle observé: L'équation y[i] = a[0] + SUM j=1..p a[j]*x[i][j] + e[i], où * y est une variable alléatoire à expliquer * les x[][j] sont des variables alléatoires connues qui agissent comme des variables expliquatives * les a[j] sont des coefficients * les e[i] indiquent la différence entre la valeur théorique et la valeur vraie Modèle estimé: L'équation y^[i] = â[0] + SUM j=1..p â[j]*x[i][j], où * y^[i] est la valeur estimé d'une variable alléatoire à expliquer * les x[][j] sont des variables alléatoires connues qui agissent comme des variables expliquatives * les â[j] sont des coefficients qu'on a trouvés à partir d'un échantillon avec la regression multiple Il est valable: bar(y) = bar(y^) alors E(y) = E(y^) (?) Estimateur: Une valeur â[j] d'un modèle estimé. Comme cette valeur dépend de l'échantillon, elle peut être considérée comme une variable alléatoire. Biais d'un estimateur â d'un coefficient a: La valeur E(â)-a. Estimateur sans biais: Un estimateur â d'un coefficient a tel que E(â) = a. Estimateur asymptotiquement sans biais: Un estimateur â d'un coefficient a tel que lim n->INF E(â) = a Estimateur consistent, estimateur convergent: Un estimateur â d'un coefficient a tel que lim n->INF var(â) = 0 Erreur quadratique d'un estimateur, EQM, MSE: La valeur E(ô-o)^2 d'un estimateur ô d'un coefficient o. Il est valable: E(ô-o)^2 = E(ô-o -E(ô) +E(ô))^2 = E( (ô-E(ô)) + (E(ô)-o) )^2 = ( E(ô-E(ô)) + E(E(ô)-o) )^2 = E(ô-E(ô))^2 + 2* E(ô-E(ô)) * E(E(ô)-o) + E(E(ô)-o)^2 = var(ô) + 2*(E(ô)-E(E(o^)))*(E(E(ô))-E(o)) + (E(E(ô))-E(o))^2 = var(ô) + 2*(E(ô)-E(ô)) *(E(ô)-E(o)) + (E(ô)-E(o))^2 = var(ô) + 2* 0 *(E(ô)-E(o)) + (E(ô)-o)^2 = var(ô) + biais^2 Pour montrer que l'EQM d'un estimateur va vers 0, il suffit de montrer que l'estimateur est asymptotiquement sans bias (biais^2 --> 0) et consistent (var(ô) --> 0). Dans ce cas, on dit que ô va vers o en moyenne quadratique. Le biais des estimateurs d'une regression simple: Pour une regression simple, il est valable: y[i] = a[0] + a[1]*x[i] + e[i] bar(y[i]) = a[0] + a[1]*bar(x) + bar(e) => y[i]-bar(y) = a[1]*(x[i]-bar(x)) + (e[i]-bar(e)) On calcule â[1]: â[1] = 1/n * SUM i=1..n (x[i]-bar(x))*(y[i]-bar(y)) / var(x) = 1/n * SUM i=1..n (x[i]-bar(x))* (a[1]*(x[i]-bar(x)) + (e[i]-bar(e))) / var(x) = 1/n * SUM i=1..n (a[1]*(x[i]-bar(x))^2 + (x[i]-bar(x))*(e[i]-bar(e))) / var(x) = a[1] + 1/n * SUM i=1..n (x[i]-bar(x))*(e[i]-bar(e)) / var(x) L'estimateur â[1] est alors la somme du vrai coefficient a[1] et un autre terme. On suppose que e suit une loi normale N(0,sigma(e)), alors E(e)=0. On calcule l'espérance de â[1]: E(â[1]) = E(a[1] + 1/n * SUM i=1..n (x[i]-bar(x))*(e[i]-bar(e)) / var(x)) = E(a[1] + 1/n * SUM i=1..n (x[i]-bar(x))* e[i] / var(x)) = E(a[1]) + 1/n * SUM i=1..n (x[i]-bar(x))* E(e[i]) / var(x) = a[1] + 1/n * SUM i=1..n (x[i]-bar(x))* 0 / var(x) = a[1] Par conséquent, â[1] est sans biais. Puis, on a bar(y^) = â[0] + â[1]*bar(x) bar(y^) = bar(y) = a[0] + a[1]*bar(x) + bar(e) = a[0] + a[1]*bar(x) alors â[0] = a[0] + a[1]*bar(x) - â[1]*bar(x) = a[0] + (a[1] - â[1])*bar(x) On calcule l'espérance de â[0]: E(â[0]) = E(a[0] + (a[1] - â[1])*bar(x)) = a[0] + E(a[1] - â[1])*bar(x) = a[0] + 0 *bar(x) = a[0] Alors a[0] est aussi sans biais. On note le résultat â[1] = a[1] + 1/n * SUM i=1..n (x[i]-bar(x))*(e[i]-bar(e))/var(x) <=> -(a[1]-â[1])*n*var(x) = SUM i=1..n (x[i]-bar(x))*(e[i]-bar(e)) La consistence des estimateurs d'une regression simple: var(â[1]) = E( (â[1] - E(a[1]))^2 ) = E( (â[1] - a[1])^2 ) Par la calculation de ci-dessus, on remplace = E( (1/n * SUM i=1..n (x[i]-bar(x))* e[i] / var(x))^2 ) On remplace le terme constant de x par w[i] = E( (SUM i=1..n w[i]* e[i])^2 ) = E( SUM i=1..n w[i]^2* e[i]^2 + 2*SUM 0 0 Par conséquent, les estimateurs â[0] et â[1] s'approchent aux vraies valeurs a[0] et a[1] en moyenne quadratique. L'erreur de la regression simple: e[i] = y[i] - y^[i] = y[i] - â[0] - â[1]*x[i] = y[i] - â[0] - â[1]*x[i] - â[1]*bar(x) + â[1]*bar(x) = y[i] - â[0] - â[1]*bar(x) - â[1]*x[i] + â[1]*bar(x) = y[i] - bar(y^) - â[1] * (x[i]-bar(x)) = y[i] - bar(y) - â[1]*(x[i]-bar(x)) = a[0]+a[1]*x[i]+e[i] - a[0]-a[1]*bar(x)-bar(e) - â[1]*(x[i]-bar(x)) = a[1]*(x[i]-bar(x)) + e[i]-bar(e) - â[1]*(x[i]-bar(x)) = (a[1]-â[1])*(x[i]-bar(x)) + e[i]-bar(e) L'espérance de la variance de l'erreur de la regression simple: E(n*var(e)) = E(SUM i=1..n (e[i]-bar(e))^2) = E(SUM i=1..n e[i]^2 - 2*bar(e)*e[i] + bar(e)^2 ) = E(SUM i=1..n e[i]^2 - 2*bar(e)*SUM i=1..n e[i] + n*bar(e)^2 ) = E(SUM i=1..n e[i]^2 - 2*bar(e)*bar(e)*n + n*bar(e)^2 ) = E(SUM i=1..n e[i]^2 - n*bar(e)^2 ) = E(SUM i=1..n e[i]^2) - E( n*(1/n*SUM i=1..n e[i])^2 ) = E(SUM i=1..n e[i]^2) - 1/n * E( (SUM i=1..n e[i])^2 ) = E(SUM i=1..n e[i]^2) - 1/n*E( SUM i=1..n e[i]^2 + 2*SUM 0 (2*A*u) * (t(u)*u) = (2*u) * (t(u)*A*u) <=> A*u*t(u)*u = u*t(u)*A*u <=> A*u = u * (t(u)*A*u / (t(u) * u)) Comme t(u)*A*u/(t(u)*u) est réel, u doit être un vecteur propre de A. Pourque en même temps t(u)*A*u/(t(u)*u) soit maximal, u doit être le vecteur propre associé à la plus grande valeur propre de A. Alors a[1] est le vecteur propre normé de 1/n*t(X)*X, qui est associé à la plus grande valeur propre. Cela revient au fait que C[k] est le k-ème vecteur propre de X*t(X)/n: 1/n*X*t(X)*C[k] = b[k]*C[k] <=> 1/n*X*t(X)*X*a[k] = b[k]*X*a[k] on multiplie par t(X) <=> 1/n*t(X)*X*t(X)*X*a[k] = b[k]*t(X)*X*a[k] mult. par (t(X)*X)^1 <=> 1/n*t(X)*X*a[k] = b[k]*a[k] Étape k d'ACP: La détermination d'un caractère artificiel C[k] , qui a la plus grande corrélation avec les caractères du tableau. On pose la contrainte que la corrélation entre C[k] et les C[i] précedentes soit zéro, ce qui revient à l'orthogonalité. Alors le facteur a[k] doit être le vecteur propre de 1/n*t(X)*X associé à sa k-ème valeur propre. Les matrices 1/n*t(X)*X et 1/n*X*t(X) ont les mêmes vecteurs propres. Comme 1/n*t(X)*X est la matrice de corrélation, qui a des uns dans la diagonale, on trouve que SUM k=1..p b[k] = Tr(1/n*t(X)*X) = SUM k=1..p 1 = p où b[k] sont les valeurs propres. Interprétation de l'ACP dans l'espace des individus: La ACP trouve des droites orthogonales, qui passent les plus proches des points dans l'espace des individus. Soit C[k][i] la coordonnée du point le plus proche à l'individu[i] sur la k-ème droite Dk. Alors il est valable selon Pythagore: d(0,individu[i])^2 = C[k][i]^2 + d(Dk, individu[i])^2 Et pour la somme pour tous les individus i=1..n: 1/n*SUM d(0,individu[i])^2 = 1/n*SUM C[k][i]^2 + 1/n*SUM d(Dk, individu[i])^2 Comme d(0,individu[i])^2 est constant, il faut maximiser 1/n*SUM C[k][i]^2 pour minimiser la distance entre la droite et les individus. Il est valable 1/n*SUM C[k][i]^2 = var(C[k]) Comme C[k] centré Une grande variance d'une composante correspond alors à une distance petite de l'axe aux individus. Plus grande sa variance, plus informative est donc la composante principale. Qualité de l'étape k, part de variance expliquée par l'axe k dans l'ACP: La valeur b[k] / p, où b[k] est le k-ème valeur propre de 1/n*t(X)*X. Selon l'interprétation dans l'espace des individus, la qualité expliquative d'une composante est mesuré par sa variance. Il est valable: var(C[k]) = 1/n*SUM i=1..n C[k][i]^2 Comme C[k] centré = 1/n*||C[k]||^2 = 1/n*||X*a[k]||^2 = 1/n*t(a[k])*t(X)*X*a[k] = t(a[k])*1/n*t(X)*X*a[k] = t(a[k])*b[k]*a[k] Comme a[k] vecteur propre = b[k] * ||a[k]||^2 = b[k] Comme ||a[k]|| = 1 Comme la somme des b[k] est égale à p, le rapport de la variance de C[k] aux autres variances est b[k]/p. Comme les valeurs b[k] décroitrent quand k augmente, l'information apportée par l'étape k+1 est moins utile que celle de l'étape k. Inertie: La variance d'une composante principale. Représentation des individus dans l'ACP: Une projection des individus sur le plan engendré par deux composantes principales. On projète les individus sur tous les plans de tous les couples de composantes. Les coordonnées de l'individu i sur le plan de C[r] et C[s] sont données par les valeurs C[r][i] et C[s][i]. Dans cette représentation, la distance entre deux individus est forcément égale ou plus petite que la distance vraie des deux individus. Qualité de représentation d'un individu i sur un axe r dans l'ACP: La valeur C[r][i]^2 / ||individu[i]||^2 = C[r][i]^2 / SUM j=1..p x[i][j]^2 Selon l'interprétation dans l'espace des individus, cette valeur mesure le rapport entre la norme du point projété et la norme du point vrai. Plus proche le quotient est à 1, plus proches sont les deux normes et plus exacte est la projection. Cette valeur n'est rien d'autre que cos(Dk,individu[i])^2. La somme des valeurs pour tous les axes 1..p est égale à 1. Supposant une valeur moyenne des normes des individus, un grand C[r][i] correspond à une bonne qualité de représentation. Contribution d'un individu i à la variance d'un axe r dans l'ACP: La valeur C[r][i]^2 / (n * b[r]), donc le rapport de la carrée de la coordonnée de cet individu à la somme de tous les autres: n*b[r] = n*var(C[r]) = n*1/n*SUM i=1..n C[r][i]^2 = SUM i=1..n C[r][i]^2 Cette valeur mesure la contribution de l'individu i à la calculation de l'axe r. La somme des contributions de tous les individus à un axe est 1. Cercle des corrélations, représentation des variables dans l'ACP: Une projection des caractères sur le plan engendré par deux composantes principales. On projète les caractères sur tous les plans de tous les couples de composantes. Les coordonnées du caractère j sur le plan de C[r] et C[s] sont données par R(caractère[j],C[r]) et R(caractère[j],C[s]) où R(caractère[j],C[r]) = cov(caractère[j],C[r]) / sigma(C[r]) = 1/n*t(caractère[j])*C[r] / sigma(C[r]) = 1/n*t(caractère[j])*C[r] / sqrt(b[r]) Comme var(C[r])=b[r] = 1/n*t(caractère[j])*X*a[r] / sqrt(b[r]) = b[r]*a[r][j] / sqrt(b[r]) = sqrt(b[r])*a[r][j] Donc tous les caractères se trouvent dans un cercle de rayon 1. Le cosinus de l'angle des deux variables est approximativement leur corrélation. De même, on peut retrouver la liaison entre les caractères et les composantes dans le cercle. Qualité de représentation d'une variable j dans le plan de C[r],C[s]: La valeur R(caractère[j],C[r])^2+R(caractère[j],C[s])^2 Plus cette valeur est grande, plus le caractère est bien représenté. Cela se montre dans la représentation par un point très proche du bord du cercle. Dans ce cas, l'angle entre deux caractères permet une bonne prédiction de leur corrélation. Une ACP complète: L'algorithme suivant // Calculation 1. Calcule les moyens et les écart-types de chaque caractère bar(caractère[j]) et sigma(caractère[j]) 2. Centre et réduis chaque valeur du tableau par la soustraction de bar(caractère[j]) et la division par sigma(caractère[j]). Le tableau resultant soit X. 3. Calcule la matrice de corrélation R = 1/n*t(X)*X 4. Calcule les vecteurs propres et les valeurs propres de R par le polynôme caractéristique det(R-lambda*I)=0 5. Soit k=1 6. Introduis le k-ème facteur a[k] comme étant le vecteur propre associé à la k-ème valeur propre 7. Exprime la k-ème composante principale comme étant le produit C[k] = X*a[k] = a[k][1]*caractère[1] + a[k][2]*caractère[2]... 8. Calcule la variance expliquée b[k] / p. 9. Si la somme des variances expliquées SUM i=1..k b[i]/p est encore inférieure à 0.8, incrémente k et continue à 6 10. Prends deux composantes principales C[r] et C[s] 11. Dessine le cercle des corrélations de C[r] et C[s], où chaque caractère j à les coordonnées R(caractère[j],C[r]) = sqrt(b[r])*a[r][j] et R(caractère[j],C[s]) = sqrt(b[s])*a[s][j] 12. Calcule la qualité de la représentation des caractères comme étant R(caractère[j],C[r])^2 + R(caractère[j],C[s])^2 13. Si la qualité est proche à 1, calcule et interprète l'angle des deux caractères 14. S'il reste encore des couples de composantes principales, continue à 10 15. Prends deux composantes principales C[r] et C[s] 16. Dessine la représentation des individus, où chaque individu a les coordonnées C[r][i] et C[s][i] 17. Soit i=1 18. Calcule la qualité de représentation de l'individu i sur les axes r et s C[r][i]^2 / SUM j=1..p x[i][j]^2 de même pour s 19. Calcule la contribution de l'individu i à la variance des axes r et s C[r][i]^2 / (n * b[r]) de même pour s 20. Incrémente i et continue à 18, si i= C = X*A où A=(a[1], ... a[p]) => X = C*A^-1 => X = C*t(A) comme les a[j] sont orthogonaux => X = SUM k=1..p C[k]*t(a[k]) Comme on supprime les derniers composantes principales, le X reconstitué n'est pas exactement égal au tableau initial. Quand-même, la différence est negligeable, comme les derniers composantes ont une variance petite, donc un norme petit et donc des valeurs petites. Reconstitution de la matrice des corrélations: Le calcul de R = t(X)*X/n = A*(t(C)*C/n)*t(A) = SUM k=1..p b[k]*a[k]*t([k]) Variable supplémentaire: Une variable qui n'a pas fait partie de l'ACP. Néanmoins, cette variable (centrée réduite) peut être inclue après l'ACP dans le cercle des corrélations. Individu supplémentaire: Un individu qui n'a pas fait partie de l'ACP. Néanmoins, cet individu peut être inclue après l'ACP dans la représentation des individus. ACP non normée: Une ACP avec des données non réduites (mais quand même centrées). L'ACP non normée est très pareille à l'ACP normale, sauf que t(X)*X/n n'est plus la matrice des corrélations, mais plutôt la matrice de covariance. Par conséquent, on maximise SUM j=1..k cov(C[k],caractère[k])^2 et tombe sur les vecteurs propres de t(X)*X/n. L'ACP non normée mène à des composantes différentes si l'échelle des variables est changée. Changement d'échelle: La multiplication de chaque valeur d'un caractère par une constante. Les composantes principales d'une ACP non normée sont influencées drastiquement par un tel changement d'échelle. ACP avec une métrique quelconque: Une ACP avec une métrique qui n'est plus la métrique d[i][i]=1/n. Par conséquent, les individus ont des poids différents p[i]. Il s'agit de maximiser SUM i=1..n p[i]*C[k][i]^2 La variance et la covariance deviennent: cov(X,Y) = SUM i=1..n p[i]*X[i]*Y[i] var(X) = SUM i=1..n p[i]*X[i]^2 Les facteurs principaux sont les vecteurs propres de t(X)*D*X, les composantes principales sont les vecteurs propres de X*t(X)*D. ACP synthèse: On cherche la droite qui passe le plus proche aux individus. Elle est donnée par un vecteur directeur a, ||a||=1. La projection d'un individu x sur cet axe est P*x = *a / ||a||^2 = *a La coordonnée de l'individu x est donc || P*x || = || *a || = *||a|| = Le vecteur des coordonnées est alors X*a. Il s'agit d'une variable artificielle, qui est combinaison linéaire des autres. Pourque la distance des individus à la droite soit minimale, la variance des projections doit être maximale (selon Pythagore). var(X*a) = t(X*a)*X*a = t(a)*t(X)*X*a Alors a est le premier vecteur propre de t(X)*X, qui est le tableau de contingence. Si on note b la valeur propre, la variance est var(X*a) = t(a)*t(X)*X*a = t(a)*b*a = b*t(a)*a = b*||a|| = b La variance est égale à la valeur propre. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Analyse Canonique ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Analyse Canonique, AC: Le résumé de la relation entre deux tableaux de données multidimensionelles avec les mêmes individus. L'AC détermine des composantes canoniques, qui permettent de dire si les variables du premier tableau influencent les variables du deuxième tableau. Dans toute la suite, on admet que les colonnes des tableaux sont linéairement indépendantes et centrées. On note * X[t] le t-ème tableau de données, t=1 ou t=2 * caractère[t][k] le k-ème caractère du t-éme tableau * individu[i] le i-ème individu * x[t][i][j] la valeur à l'intersection de la ligne i et de la colonne j dans le t-ème tableau * W[t] l'espace vectoriel engendré par les variables du t-ème tableau * n le nombre des individus * p[t] le nombre des variables du k-ème tableau * P[t] le projecteur orthogonal sur l'espace W[t] On peut critiquer que l'AC ne décrit que les relations linéaires entre les variables. De plus, il peut être que les variables canoniques déterminées par l'AC sont seulement faiblement corrélées aux caractères des tableaux, ce qui complique leur interprétation. Premières composantes canoniques, premières variables canoniques: Les vecteurs z[1][1] et z[2][1], qui sont déterminés de sorte que z[t][1] = X[t]*a[t][1] où a[t][1] est un vecteur de p[t] lignes R(z[1][1], z[2][1]) maximale var(z[t][1]) = 1 z[t][1] appartient à W[t]. Comme R(z[1][1], z[2][1]) = cos(z[1][1], z[2][1]) est maximale, l'angle entre z[1][1] et z[2][1] est minimale. z[1][1] est le premier vecteur propre de P[1]*P[2], et z[2][1] est le premier vecteur propre de P[2]*P[1]. Démonstration: Pour z[1][1] donné, R(z[1][1], z[2][1])^2 est maximale, si z[2][1] est colinéaire à la projection orthogonale de z[1][1] sur z[2][1]. P[2]*z[1][1] = * z[2][1] / ||z[1][2]||^2 <=> P[2]*z[1][1] = R(z[1][1], z[2][1]) * z[2][1] / 1 => P[1]*P[2]*z[1][1] = R(z[1][1], z[2][1]) * P[1] * z[2][1] <=> P[1]*P[2]*z[1][1] = R(z[1][1], z[2][1])^2 * z[1][1] Alors la corrélation est maximale si z[1][1] est le vecteur propre de P[1]*P[2] associé à la plus grande valeur propre. De même, z[2][1] est le vecteur propre de P[2]*P[1] associé à la plus grande valeur propre. Les deux matrices ont le même spectre. Les P[t] sont symétriques. On peut montrer que z[1][1] appartient vraiement à W[1]: P[1]*P[2]*z[1][1] = b[1]*z[1][1] où b[1] est valeur propre => P[1]^2*P[2]*z[1][1] = b[1]*P[1]*z[1][1] <=> P[1]*P[2]*z[1][1] = b[1]*P[1]*z[1][1] <=> b[1]*z[1][1] = b[1]*P[1]*z[1][1] => z[1][1] = P[1]*z[1][1] => z[1][1] appartient à W[1] Comme ||z[1][1]|| = ||z[2][1]|| = 1, est le cosinus entre ces vecteurs. La valeur maximale est donc 1. Facteur canonique: Un a[t][k]. k-èmes composantes canoniques, k-èmes variables canoniques: Les vecteurs z[1][k] et z[2][k], qui sont déterminés de sorte que z[t][k] = X[t]*a[t][k] où a[t][k] est un vecteur de p[t] lignes R(z[1][k], z[2][k]) maximale var(z[t][k]) = 1 R(z[t][k], z[t][j])=0 pour tout j (R(z[1][1],z[2][1])^2 - R(z[1][2], z[2][2])^2) * t(z[1][1]) * z[1][2] = 0 <=> R(z[1][1],z[2][1])^2 = R(z[1][2], z[2][2])^2 ou t(z[1][1]) * z[1][2] = 0 <=> faux (comme les valeurs propres sont différentes) ou t(z[1][1]) * z[1][2] = 0 <=> t(z[1][1]) * z[1][2] = 0 <=> z[1][1] et z[1][2] sont orthogonaux De même pour z[2][1] et z[2][2] et en général pour tous z[t][k], z[t][j]. On peut de même montrer que tout z[t][i] est non corrélé avec tout z[3-t][j] (où pour t=1: 3-t=2 et pour t=2: 3-t=1): = t(z[t][i])*z[3-t][j] = t(P[t]*z[t][i])*z[3-t][j] comme z[t][i] est dans W[t] = t(z[t][i])*P[t]*z[3-t][j] comme P[t] symétrique = t(z[t][i])*R(z[t][i],z[3-t][j])*z[t][j] = R(z[t][i],z[3-t][j])* = R(z[t][i],z[3-t][j])*0 comme z[t][i], z[t][j] orthogonaux z[t][k] peut aussi être calculé comme étant z[t][k] = X[t]*a[t][k] où les a[t][k] satisfont l'équation suivante (pour t=1): P[1]*z[2][k] = R(z[1][k],z[2][k])*z[1][k] <=> P[1]*P[2]*z[1][k] = R(z[1][k],z[2][k])^2*z[1][k] z[1][k] projété deux fois <=> X[1]*(t(X[1])*X[1])^-1*t(X[1])* X[2]*(t(X[2])*X[2])^-1*t(X[2])* z[1][k] = R(z[1][k],z[2][k])^2* z[1][k] selon la définition de P[1] <=> X[1]*(t(X[1])*X[1])^-1*t(X[1])* X[2]*(t(X[2])*X[2])^-1*t(X[2])* X[1]*a[1][k] = R(z[1][k],z[2][k])^2* X[1]*a[1][k] comme z[1][k] = X[1]*a[1][k] <=> (t(X[1])*X[1])^-1*t(X[1])* X[1]*(t(X[1])*X[1])^-1*t(X[1])* X[2]*(t(X[2])*X[2])^-1*t(X[2])* X[1]*a[1][k] = R(z[1][k],z[2][k])^2* (t(X[1])*X[1])^-1*t(X[1])* X[1]*a[1][k] Multiplication par une matrice On suppose que X[s] de plein rang <=> (t(X[1])*X[1])^-1*t(X[1])* X[2]*(t(X[2])*X[2])^-1*t(X[2])* X[1]*a[1][k] = R(z[1][k],z[2][k])^2* a[1][k] Après la simplification <=> 1/n*(1/n*t(X[1])*X[1])^-1* n*1/n*t(X[1])*X[2]* 1/n*(1/n*t(X[2])*X[2])^-1* n*1/n*t(X[2])*X[1]*a[1][k] = R(z[1][k],z[2][k])^2*a[1][k] Multiplication par 1 <=> V[1][1]^-1*V[1][2]*V[2][2]^-1*V[2][1]*a[1][k] = R(z[1][k],z[2][k])^2*a[1][k] Avec V[i][j]=1/n*t(X[i])*X[j] Les a[1][k] sont alors les vecteurs propres de V[1][1]^-1*V[1][2]*V[2][2]^-1*V[2][1]. Relation barycentrique: La relation suivante entre a[1][k] et a[2][k]: P[1]*z[2][k] = R(z[1][k],z[2][k])*z[1][k] <=> X[1]*(t(X[1])*X[1])^-1*t(X[1])*z[2][k] = R(z[1][k],z[2][k])*z[1][k] Selon la définition de P[1] <=> X[1]*(t(X[1])*X[1])^-1*t(X[1])*X[2]*a[2][k] = R(z[1][k],z[2][k])*X[1]*a[1][k] Avec z[t][k] = X[t]*a[t][k] <=> t(X[1])*X[1]*(t(X[1])*X[1])^-1*t(X[1])*X[2]*a[2][k] = R(z[1][k],z[2][k])*t(X[1])*X[1]*a[1][k] Multiplication par t(X[1]) <=> t(X[1])*X[2]*a[2][k] = R(z[1][k],z[2][k])*t(X[1])*X[1]*a[1][k] Après la simplification <=> 1/n*t(X[1])*X[2]*a[2][k] = R(z[1][k],z[2][k])*1/n*t(X[1])*X[1]*a[1][k] Multiplication par 1 <=> V[1][2]*a[2][k] = R(z[1][k],z[2][k])*V[1][1]*a[1][k] <=> V[1][1]^-1*V[1][2]*a[2][k] = R(z[1][k],z[2][k])*a[1][k] Par symétrie, on a V[2][2]^-1*V[2][1]*a[1][k]= R(z[2][k],z[1][k])*a[2][k]. Nombre maximal d'étapes de l'AC: p=min(p[1], p[2]). Comme il ne peut pas y avoir plus de p[i] variables lineairement indépendantes pour chaque W[i], l'AC doit s'arrêter après avoir trouvé la dernière variable de l'espace avec la plus petite dimension. Interprétation de l'AC dans l'espace des individus: À chaque étape k, chacune des variables canoniques z[1][k] et z[2][k] prend n valeurs, une pour chaque individu. L'ensemble des variables canoniques z[1][1],...z[1][p] du premier tableau donne donc des coordonnées à chaque individu dans un espace de la dimension p. Pareil, l'ensemble des variables canoniques z[2][1],...z[2][p] du deuxième tableau donne aussi à chaque individu des coordonnées dans cet espace. Chaque individu est donc représenté par deux points. L'AC détermine les z[t][k] de sorte qu'en moyenne, ces 2 points sont le plus proche possible pour tout individu i: 1/n * SUM k=1..p (z[1][k][i]-z[2][k][i])^2 = 1/n * SUM k=1..p z[1][k][i]^2 - 1/n * 2 * SUM k=1..p z[1][k][i]*z[2][k][i] + 1/n * SUM k=1..p z[2][k][i]^2 = var(z[1][k]) - 2*R(z[1][k],z[2][k]) + var(z[2][k]) = 1 - 2*R(z[1][k],z[2][k]) + 1 = 2*(1-R(z[1][k],z[2][k])) Maximiser la corrélation entre z[1][k] et z[2][k] revient alors à minimiser la distance des deux points pour chaque individu. r-ème variable auxiliaire d'une AC: Le vecteur z[r]=1/2*(z[1][r]+z[2][r]) On montre que z[r] et z[s] sont non correlés et orthogonaux: R(z[r],z[s])*n = t(z[r])*z[s] = t(1/2*(z[1][r]+z[2][r])) * 1/2*(z[1][s]+z[2][s]) = 1/4*(t(z[1][r])*z[1][s] + 2*t(z[1][r])*z[2][s] +t(z[2][s])*z[2][r]) = n/4*(R(z[1][r],z[1][s]) + 2*R(z[1][r],z[2][s]) + R(z[2][s],z[2][r]) = n/4*( 0 + 0 + 0 ) = 0 Représentation des variables dans l'AC: Pour chaque couple d'étapes r et s, z[r] et z[s] engendrent un plan. Dans ce plan, on représente caractère[t][j] par les coordonnées R(z[r],caractère[t][j]) et R(z[s],caractère[t][j]). Si un caractère se trouve proche à un axe, cela veut dire que l'étape qui correspond à l'axe représente ce caractère. Représentation des individus dans l'AC: Chaque couple d'étapes r et s donne un plan dans lequel chaque individu i est représenté par deux points: Le point z[1][r][i],z[1][s][i] et le point z[2][r][i], z[2][s][i]. Comme les premières étapes ont un pouvoir explicatif maximal, on se limite à la représentation dans les plans engendrés par les premières étapes. L'écart résiduel aide l'interprétation du graphe. Écart résiduel d'un individu i à l'étape k: La valeur abs(z[1][k][i]-z[2][k][i]). L'AC essaye de minimiser cet écart. Si il est quand même grand, cela signifie que l'individu i joue un rôle particulier pour les caractéres représentés par l'étape k. AC avec des t(X)*X non inversibles: Si X[1] et X[2] ne sont pas de plein rang, il suffit de supprimer les colonnes dépendantes. Cela entraîne que t(X)*X est inversible et que l'AC peut être effectuée. ACG, Analyse Canonique généralisée: Le résumé des relations entre plusieurs tableaux de données multidimensionelles avec les mêmes individus. L'ACG n'est pas utilisée très souvent. On dispose des tableaux t=1..v et on utilise les mêmes notations que pour l'AC. On suppose que les P[t] sont tous du même ordre, que n>SUM t=1..v p[t] et que les W[t] sont de dimension p[t]. Première variable auxiliaire d'une ACG: Le vecteur z[1] qui est le plus proche à toutes ses projections dans les espaces des tableaux. On cherche donc z[1] tel que SUM t=1..v R(z[1], P[t]*z[1])^2 maximal sous la contrainte var(z[1])=1 Cela mène à: R(z[1], P[t]*z[1])^2 = cov(z[1],P[t]*z[1])^2 / var(z[1]) / var(P[t]*z[1]) = cov(z[1],P[t]*z[1])^2 / var(P[t]*z[1]) car var(z[1])=1 = (t(z[1])*P[t]*z[1]/n)^2 / (t(P[t]*z[1])*P[t]*z[1]/n) = (t(z[1])*P[t]*z[1]/n)^2 / (t(z[1])*t(P[t])*P[t]*z[1]/n) = (t(z[1])*P[t]*z[1]/n)^2 / (t(z[1])*P[t]*P[t]*z[1]/n) car P[1] symétrique = (t(z[1])*P[t]*z[1]/n)^2 / (t(z[1])*P[t]*z[1]/n) car P[1]^2=P[1] = t(z[1])*P[t]*z[1] / n On maximise donc: n * SUM t=1..v R(z[1], P[t]*z[1])^2 = n * SUM t=1..v t(z[1])*P[t]*z[1] / n // R(z[1], P[t]*z[1])^2 = t(z[1])*P[t]*z[1] ^2 // Il manque le carré (?) = t(z[1]) * (SUM t=1..v P[t]) * z[1] Cela revient à chercher le premier vecteur propre de (SUM t=1..v P[t]). k-ème variable auxiliaire d'une ACG: Le vecteur z[k] qui est le plus proche à toutes ses projections et qui de plus est non correlé aux variables auxiliaires précédentes: SUM t=1..v R(z[1], P[t]*z[1])^2 maximal var(z[k])=1 R(z[k],z[i])=0 pour tout iD * X / ||X||D ^2 = P*Y Trouver le facteur entre les variables (regression simple) revient donc à projeter une variable sur l'espace d'une seule autre variable (idée de la regression multiple). * L'ACP décrit un tableau X de p variables. Elle cherche la composante principale C[k] qui est la plus proche à toutes les variables. On a montré que C[k] est le k-ème vecteur propre de X*t(X)/n Si on interprète X comme étant p tableaux X[1],...X[p] dont chaqu'un comporte une seule variable, on peut aussi effectuer une ACG. On a: z[k] est le k-ème vecteur propre de SUM t=1..p P[t] En analysant cette expression, on trouve: P[t] = X[t]*t(X[t])*D / (t(X[t])*D*X[t])^2 = X[t]*t(X[t])/n / 1 = X[t]*t(X[t]) / n Si on note X[i][j] l'élément de la matrice X à la ligne i et à la colonne j, on déduit que les termes de la matrice SUM t=1..p P[t] s'écrivent comme étant (SUM t=1..p P[t])[i][j] = (SUM t=1..p X[t]*t(X[t]))[i][j] / n = (SUM k=1..n X[i][k]*X[j][k]) / n = (X*t(X))[i][j] / n Cela veut dire que SUM t=1..p P[t] = X*t(X)/n Et donc le C[k] de l'ACP n'est rien d'autre que le z[k] de l'ACG. L'ACP est un cas spécial de l'ACG. Annotation: Cette dernière preuve n'est pas vérifiée officiellement. __________ACG__________ tableaux: X[1], ... X[v] nb vars: p[1], ... p[v] ______/ \________ / \ ________AC_________ __________ACP__________ tableaux: X[1], X[2] tableaux: X[1], ... X[v] nb vars: p[1], p[2] nb vars: 1, ... 1 | | _Regression multiple_ tableaux: X[1], X[2] nb vars: 1, p | | _Regression simple_ tableaux: X[1], X[2] nb vars: 1, 1 Interprétations: Toutes les méthodes décrites ci-dessus créent des variables artificielles z[1],..z[p], dont les premières contiennent déjà presque toutes les informations des tableaux. Très souvent, les z[k] reprennent le rôle d'une variable originale ou bien résument plusieurs variables originiales. Pour déterminer ces variables, on mesure la corrélation de chaque variable originale avec z[k]: * Dans l'ACG, on peut calculer directement R(z[k],caractère[t][j]) * Dans l'AC, on dessine le cercle de corrélation, dans lequel on voit quelle variable originale est bien liée à z[k] * Dans la regression multiple, la covariance d'une variable X[j] avec la projection Ythéorique est immidiatement donnée par les éléments du vecteur a, comme X*a=Ythéorique * Dans la regression simple, la covariance se trouve dans le facteur a * Dans l'ACP, on dessine le cercle de corrélation Ces corrélations permettent aussi de déterminer les liaisons des variables originales entre elles. Au lieu d'avoir une matrice de corrélation avec une valeur pour chaque couple de variables, la densité d'information des z[k] permet de projeter toutes ces corrélations dans un plan de dimension 2: Le cercle de corrélations. Comme chaque z[k] a n composantes, on peut maintenant représenter les individus dans l'espace engendré par deux z[k],z[l]. La position d'un individu sur un axe z[k] correspond à sa position par rapport à ces variables originales, qui sont résumées par z[k]. Plus la variance d'une variable artificielle z[k] est grande, plus elle sépare les individus et plus elle contient d'information. Les z[k] qui suivent sont tous orthogonaux à leurs prédécesseurs et contiennent de moins en moins d'information. Comme l'ACG et l'AC traitent plusieurs tableaux de plusieures variables, elles admettent un critère d'interprétation supplémentaire: L'écart résiduel. Dans l'espace de z[k] et z[l], on dessine v points pour chaque individu, dont chaqu'un est donné par les coordonnées des projections P[t]*z[k],P[t]*z[l], t=1..v. Selon la construction, ces points vont être proches, ils se trouvent autour du point donné par z[k],z[l]. Si il y a quand même un écart entre les points d'un individu, cela veut dire que cet individu n'a pas pu être décrit d'une manière cohérente par z[k] et z[l]. L'individu joue donc un rôle exceptionnel par rapport aux variables résumés par z[k] et z[l]. Dans le cas de l'AC et ACG, le cercle de corrélation permet aussi de voir si les variables d'un tableau se déduisent des variables d'un autre tableau. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Analyse Factorielle des Correspondances ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Analyse Factorielle des Correspondances, AFC: Le résumé des liaisons entre deux variables qualitatives pour les mêmes individus. Les données peuvent se présenter sous deux formes: * Deux tableuax disjonctifs complets X[1] et X[2] (non centrés) ou * Un tableau de contingence t(X[1])*X[2] Le tableau de contingence est plus maniable pour un grand nombre d'individus De plus, on utilise les notations suivantes: * n est le nombre d'individus * p[t] est le nombre des modalités de la variable t On admet p[2]>p[1] * f[i][j] est le nombre des individus qui possèdent à la fois la modalité i de la première variable et la modalité j de la deuxième variable, divisé par n * f[i][.] est le nombre des individus qui possèdent la modalité i de la première variable, divisé par n * f[.][j] est le nombre des individus qui possèdent la modalité j de la deuxième variable, divisé par n * W[t] est l'espace engendré par les colonnes de X[t] * V[i][j] = 1/n*t(X[i])*X[j] À partir des deux tableaux X[1] et X[2], l'AFC peut être effectuée comme un cas spécial de l'AC. À partir du tableau disjonctif complet, l'AFC peut être effectuée comme deux ACPs: Une sur le profil des lignes et une sur le profil des colonnes. L'AFC par l'AC: Une AC sur X[1] et X[2]. Pour cela, il faut trouver les a[t][k] des équations suivantes: V[1][1]^-1*V[1][2]*V[2][2]^-1*V[2][1] * a[1][k] = R(z[1][k],z[2][k])^2 * a[1][k] et V[2][2]^-1*V[2][1]*V[1][1]^-1*V[1][2] * a[2][k] = R(z[1][k],z[2][k])^2 * a[2][k] Dans le cas de l'AFC, les observations suivantes simplifient le calcul: * V[1][1] est la matrice diagonale des fréquences relatives f[i][.] * V[1][1]^-1 est donc la matrice diagonale des valeurs 1/f[i][.] * V[2][2]^-1 est la matrice diagonale des valeurs 1/f[.][j] * V[1][2] est la matrice des valeurs f[i][j] * V[2][1] est la matrice t(V[1][2]) * V[1][1]^-1*V[1][2] a comme valeurs f[i][j]/f[i][.], c'est donc le profil des lignes * V[2][2]^-1*V[2][1] a comme valeurs f[j][i]/f[.][j], c'est donc la transposée du profil des colonnes Même si les tableaux sont non centrés, les variables canoniques seront centrés: (1,1,...) appartient à W[1] (c'est la somme des colonnes de X[1]) (1,1,...) appartient à W[2] (c'est la somme des colonnes de X[2]) => P[2]*P[1]*t((1,1,...)) = P[2]*t((1,1,...)) = t((1,1,...)) => (1,1,...) est vecteur propre de P[2]*P[1] associé à 1 (1,1,...) est le premier vecteur propre, comme 1 est la plus grande valeur propre possible P[2]*P[1] est symétrique => tous ses vecteurs propres sont orthogonaux => 0 = <(1,1,...),z[t][k]>D = 1/n*(1,1,...)*z[t][k] = bar(z[t][k]) Dans le cas des tableaux non centrés, la valeur propre triviale 1 apparaît. Si on supprime la première valeur propre et le premier vecteur propre, l'AC non centrée fournit les mêmes résultats que l'AC centrée. // Remarque 5.3.1 (?) Rapport entre l'AC et khi-deux: La relation SUM k=2..p[1] R(z[1][k],z[2][k])^2 = khi^2/n qui provient de SUM k=2..p[1] R(z[1][k],z[2][k])^2 = SUM k=1..p[1] valprop(P[1]*P[2]) -1 = tr(P[1]*P[2]) -1 = tr(X[1]*(t(X[1])*X[1])^-1*X[1] * X[2]*(t(X[2])*X[2])^-1*X[2]) -1 = tr( (t(X[1])*X[1])^-1*X[1] * X[2]*(t(X[2])*X[2])^-1*X[2] *X[1]) -1 = tr( V[1][1]^-1 * V[1][2] * V[2][2]^-1 * V[2][1]) -1 = SUM i=1..p[1] SUM j=1..p[2] f[i][j]^2/f[i][.]/f[.][j] -1 = (n * (SUM i SUM j f[i][j]^2/f[i][.]/f[.][j]) - n)/n = khi^2 / n Si les deux variables sont indépendantes, khi-deux vaut 0. Comme les valeurs propres sont toutes >= 0, elles ont toutes la valeur 0. Dans la représentation, les individus tombent tous dans l'origine. Si les deux variables sont parfaitement liées, le tableau de contingence est diagonal. Il est khi-deux = n * (valprop(P[1]*P[2]) - 1) = n * p[1] - n Représentation graphique de l'AFC par l'AC: Un système de coordonnées, dont chaqu'un des deux axes est donné par une étape, r et s. On calcule les variables canoniques à partir des a[t][k]: z[t][k] = X[t]*a[t][k] z[t][k] prend n valeurs, mais seules p[1] de ces valeurs sont différentes et correspondent aux p[1] valeurs prises par le facteur a[t][k] (?). On calcule maintenant les variables auxiliaires z[k]=1/2*(z[1][k]+z[2][k]). Dans le plan de z[r] et z[s], on représente la modalité i de la variable t par R(z[r],caractère[t][j]) et R(z[s],caractère[t][j]). Distance de khi-deux entre les modalités i1 et i2: La valeur d(i1,i2) = sqrt( SUM j=1..p[2] 1/f[.][j]*(f[i1][j]/f[i1][.] - f[i2][j]/f[i2][.])^2) Cette distance compare les deux profils des lignes des deux modalités -- pondérés par les fréquences. L'AFC par l'ACP: Une ACP sur le profil des lignes et une ACP sur le profil des colonnes. Dans la première ACP, les modalités de la première variable sont les individus et les modalités de la deuxième variable sont les caractères. On utilise la distance de khi-deux: d(i1,i2)^2 = SUM j=1..p[2] 1/f[.][j]*(f[i1][j]/f[i1][.] - f[i2][j]/f[i2][.])^2 = SUM j ( f[i1][j] / (f[i1][.]*sqrt(f[.][j])) - f[i2][j] / (f[i2][.]*sqrt(f[.][j])) )^2 Si on transforme le profil des lignes de sorte que chaque terme est f[i][j] / (f[i][.]*sqrt(f[.][j])) au lieu de f[i][j]/f[i][.], on peut effectuer l'ACP avec la distance usuelle. Si on note V[2][2]^-0.5 la matrice diagonale des 1/sqrt(f[.][j]), le profil transformé est X=V[1][1]^-1*V[1][2]*V[2][2]^-0.5. L'ACP cherche alors les valeurs propres et vecteurs propres de X*t(X)*D. Si V[1][1] joue le rôle de D, cela revient à V[1][1]^-1*V[1][2]*V[2][2]^-0.5 * V[1][1]^-1*V[2][1]*V[2][2]^-0.5 * V[1][1] = V[1][1]^-1*V[1][2]*V[2][2]^-0.5 *V[2][1]*V[2][2]^-0.5 = V[1][1]^-1*V[1][2]*V[2][2]^-1 *V[2][1] Cela est le profil des lignes, multiplié par la transposée du profil des colonnes. Les composantes principales C[k] sont les vecteurs propres de cette matrice. La deuxième ACP est effectuée sur la transposée du profil des colonnes: Les modalités de la première variable sont les caractères et les modalités de la deuxième variable sont les individus. On montre pareil que, avec la distance de khi-deux, cela aboutit à chercher les vecteurs propres de V[2][2]^-1*V[2][1]*V[1][1]^-1*V[1][2], alors du produit de la transposée du profil des colonnes par le profil des lignes. Même si les tableaux sont non centrés, les résultats sont les mêmes -- à la valeur propre triviale 1 près: Pour centrer les données f[i][j]/f[i][.] dans le profil des lignes, il faudrait soustraire de chaque colonne j son centre de gravité SUM i=1..p[1] f[i][.] * f[i][j]/f[i][.] somme sur poids données les individus = SUM i=1..p[1] f[i][j] = f[i][.] Il faut donc soustraire cette quantité de chaque f[i][j]/f[i][.] dans la matrice à diagonaliser. On montre que cela aboutit à la soustraction de la matrice A, où A[i][j]=f[j][i]: V[1][1]^-1*V[1][2]*V[2][2]^-1*V[2][1] - A et on note V4 - A Le vecteur (1,1,1...) est un vecteur propre de A, associé à la valeur propre 1. Il est aussi vecteur propre de V4 et donc aussi vecteur propre de V4 - A. Il va être une composante principale triviale. (?) Représentation graphique de l'AFC par l'ACP: Un système de coordonnées, dont chaqu'un des deux axes est donné par une étape, r et s. On représente les modalités i de la première variable par les composantes principales obtenues dans la première ACP: C1[r][i], C1[s][i]. On représente les modalités i de la deuxième variable par les composantes principales de la deuxième ACP: C2[r][i], C2[s][i]. On remarque que les composantes principales C1[k] et C2[k] d'une même étape k sont liées par la relation barycentrique: V[1][1]^-1*V[1][2]*C2[k] = R(z[1][k],z[2][k])*C1[k] <=> SUM j=1..p[2] f[i][j]/f[i][.]*C2[k][j] = R(z[1][k],z[2][k])*C1[k][i] Cette "double relation barycentrique" (qui existe aussi vice versa) indique qu'une modalité de la première variable est attirée (?) par les modalités de la deuxième variable, pour lesquelles elle possède des fréquences élevées. Dans cette représentation graphique, on devrait retrouver les mêmes relations que dans la représentation graphique résultant de l'AC. Contribution d'une modalité i de la première variable à la variance de l'axe r: La valeur f[i][.]*C1[r][i]^2 / b[r] où b[r] est la r-ème valeur propre. Le f[i][.] est le poids et remplace le 1/n de la formule originale. Pour la modalité j de la deuxième variable, la valeur est f[.][j]*C2[r][j]^2 / b[r] La somme des contributions de toutes les modalités d'une variable à l'axe r est 1. Les modalités qui contribuent fortement à la variance d'un axe "expliquent" cet axe. Qualité de représentation d'une modalité i de la première variable sur un axe r: La valeur C1[r][i]^2 / SUM j=1..p[2] 1/f[.][j]*(f[i][j]/f[i][.] - f[.][j])^2 Il s'agit du cosinus carré de l'angle entre l'axe r et la droite passant par le centre de gravité et le point de i: Le centre de gravité pour les modalités de la première variable a comme j-ème composante SUM i=1..p[1] f[i][.]*f[i][j]/f[i][.] = f[.][j] La distance de khi-deux du point i du centre de gravité est donc d(i,CdG) = sqrt( SUM j=1..p[2] 1/f[.][j]*(f[i1][j]/f[i1][.] - f[.][j] )^2 ) Le cosinus est le rapport entre la coordonnée de l'individu et sa distance au centre du nuage, donc le cosinus carré est C1[r][i]^2 / d(i,CdG)^2 // Est-ce que C1[r][i] donne aussi la coordonnée par rapport au // centre du nuage? Ou plutôt par rapport à l'origine (?) Les modalités qui sont bien représentées sont dites "expliquées" par cet axe. Principe d'équivalence distributionnelle, Principe de la repartition distributionelle: Le fait que la distance de khi-deux ne change pas si on agrège (additionne) deux colonnes avec le même profil. Soient j1 et j2 ces colonnes, alors le calcul comporte: 1/f[.][j1] * (f[i1][j1]/f[i1][.] - f[i2][j1]/f[i2][.])^2 + 1/f[.][j2] * (f[i1][j2]/f[i1][.] - f[i2][j2]/f[i2][.])^2 = 1/(f[.][j1] + f[.][j2]) * ( (f[i1][j1]+f[i1][j2])/f[i1][.] - (f[i2][j1]+f[i2][j2])/f[i2][.])^2 Comme f[k][j1] = f[k][j2] pour k=1..p[1]. Par conséquent, on peut additionner deux colonnes ou deux lignes du tableau de contingence, si elles sont linéairement dépendantes. On peut de même multiplier le tableau par une constante. Comme tout cela ne change pas la distance de khi-deux, l'AFC par ACP se sera pas affectuée. AFCM, Analyse factorielle des corespondances multiples: Le résumé des relations entre plusieures variables qualitatives. On dispose de v tableaux et on reprend les notations de l'AFC. L'AFCM peut être effectuée comme un cas spécial de l'ACG ou bien comme une AFC sur le tableau de Burt. L'AFCM par l'ACG: L'ACG sur les tableaux X[1],...X[v]. On cherche les z[k] comme étant les vecteurs propres de 1/v * SUM i=1..v P[i] Comme dans l'AFC par l'AC, le vecteur (1,1,...) est le premier vecteur propre et les z[k] sont tous centrés. Similaire à la réduction de l'ACP à l'ACG (cf ci-dessus), on montre que SUM i=1..v P[i] = SUM i=1..v X[i]*(t(X[i])*X[i])^-1*X[i] = SUM i=1..v X[i]*D^-1*t(X[i]) = X*D^-1*t(X) où X=(X[1],...X[v]) est la juxtaposition des X[i] Comme les z[k] sont les vecteurs propres de 1/v*SUM i=1..v P[i], on a: 1/v*X*D^-1*t(X)*z[k] = b[k]*z[k] où b[k] valeur propre = 1/v*X*D^-1*t(X)*X*u[k] = b[k]*X*u[k] avec z[k] = X*u[k] = 1/v*t(X)*X*D^-1*t(X)*X*u[k] = b[k]*t(X)*X*u[k] par la multiplication par t(X) = 1/v*D^-1*t(X)*X*u[k] = b[k]*u[k] par la multiplication par (t(X)*X)^-1 Alors les facteurs u[k] sont les vecteurs propres de 1/v*D^-1*t(X)*X. L'AFCM par AFC: L'AFC sur le tableau de Burt des variables. Le tableau de Burt contient v^2 sous matrices: À la position i,j se trouve le tableau de contingence de la variable i avec la variable j. La diagonale contient les effectifs de toutes les modalités. Le tableau de Burt est symétrique, il suffit donc une seule ACP. On calcule le profil des lignes et celui des colonnes, on multiplie le profil des lignes par la transposée du profil des colonnes et on effectue l'ACP. L'AFCM avec 2 variables: Une AFC. Il y a plusieures méthodes pour effectuer l'AFCM avec 2 variables, qui mènent toutes aux mêmes interprétations: * L'AC de X[1] et X[2], avec les valeurs propres b[k]=R(z[1][k], z[2][k])^2 * L'AFC du tableau X=(X[1], X[2]) (?), avec les valeurs propres b[k]=0.5*(1+R(z[1][k],z[2][k])) * L'AFC du tableau de Burt B=t(X[1], X[2])*(X[1], X[2]) b[k]=0.25*(1+R(z[1][k],z[2][k]))^2 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Analyse Factorielle Disciminante ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Analyse Factorielle Disciminante, AFD: L'analyse d'un tableau de données multidimensionnelles, dont les individus sont de plus groupés dans des classes. Le tableau X[1] contient les variables quantitatives. On suppose qu'il est centré. Le tableau X[2] est le tableau disjonctif complet de la variable qualitative qui donne le groupe d'un individu. Il contient un "1" à la position i,j, si l'individu i appartient au groupe j. Le but de l'AFD est de créer des variables artificielles z[k], qui permettent de distinguer les groupes. Si on représente les individus dans l'espace engendré par les z[k], les individus appartenant à un même groupe seront accumulés dans un nuage. On utilise les notations suivantes: * p[t] est le nombre de colonnes du tableau X[t] * n est le nombre d'individus * n[g] est le nombre des individus appartenant au groupe g Masse d'un groupe g: Le rapport pi[g] = n[g]/n. Matrice des effectifs des groupes: La matrice diagonale des n[g], g=1..p[2]. Il est DG = t(X[2])*X[2] Matrice des centres: La matrice G, dont la ligne i est le centre des individus appartenant au groupe i. Pour une ligne i, on additionne tous les individus appartenant au groupe i et on divise par n[i]. La matrice résultant est donc d'ordre (p[2],p[1]): G = DG^-1*t(X[2])*X[1] G = (t(X[2])*X[2])^-1 * t(X[2])*X[1] Nuage des centres: L'ensemble des vecteur-lignes de G. Matrice de covariance interne d'un groupe g: La matrice des covariances de X[1], dans lequel on a supprimé les individus qui n'appartiennent pas au groupe g. La matrice est notée V[g]. Matrice d'inertie intra-classe, Matrice de covariance interne: La somme des matrices de covariances internes de tous les groupes: W = SUM g=1..p[2] pi[g] * V[g] Matrice d'inertie inter-classe, Matrice de covariance externe: La matrice de covariance du nuage des centres. Les caractères sont ceux de X[1], mais les individus sont les centres: B = 1/n * G*DG*t(G) Matrice de covariance totale: La matrice de covariance des individus: V = 1/n * t(X[1])*X[1] Il est V = W + B. Variable discriminante: Une variable artificielle z[k] qui est déterminé de sorte qu'elle permet de distinguer les groupes. Les variables discriminantes sont centrées. Facteur discriminant d'une variable discriminante z[k]: Le vecteur u[k] tel que z[k]=X[1]*u[k]. La norme d'un tel facteur est 1, si on prend comme métrique la matrice de covariance de X[1]. Variance totale sur un axe k: La variance des individus pour la variable discriminante z[k]: VT[k] = 1/n * SUM i=1..n z[k][i]^2 = 1/n * t(z[k])*z[k] = 1/n * t(X[1]*u[k])*X[1]*u[k] = t(u[k]) * V * u[k] Centre du groupe g sur un axe k: La moyenne de ces valeurs de z[k], qui concernent les individus du groupe g: moy[g][k] = 1/n[g] * SUM i du groupe g z[k][i] moy[g][k] est notée z[g][k] dans le polycopié, où le z a une barre. Variance intra-classe d'un groupe g sur un axe k, Variance interne d'un groupe g sur un axe k: La variance des individus du groupe g pour la variable discriminante z[k]: VI[g][k] = 1/n[g] * SUM i du groupe g (z[k][i] - moy[g][k])^2 = t(u[k]) * V[g] * u[k] La variance du groupe g mesure l'homogénité du groupe. Variance inter-classe sur un axe k, Variance interne sur un axe k: La somme des variances pondérées de tous les groupes sur l'axe k: VI[k] = SUM g=1..p[2] n[g]/n * VI[g][k] = SUM g=1..p[2] n[g]/n * 1/n[g] * SUM i du groupe g (z[k][i] - moy[g][k])^2 = SUM g=1..p[2] 1/n * SUM i du groupe g (z[k][i] - moy[g][k])^2 = 1/n * SUM g=1..p[2] SUM i du groupe g (z[k][i] - moy[g][k])^2 = t(u[k]) * W * u[k] La variance interne mesure l'homogénité générale des groupes. Le but est une petite variance interne. Variance inter-classes sur un axe k, Variance externe sur un axe k: La variance pondérée des centres des groupes sur l'axe k: VE[k] = SUM g=1..p[2] n[g]/n * moy[g][k]^2 = 1/n * SUM g=1..p[2] 1/n[g] SUM i du groupe g z[k][i]^2 = t(u[k]) * B * u[k] La variance externe mesure la séparation des groupes. Le but est une grande variance externe. Il est valable: VT[k] = VE[k] + VI[k] parce que VI[k] = 1/n * SUM g=1..p[2] SUM i du groupe g (z[k][i] - moy[g][k])^2 = 1/n * SUM g=1..p[2] SUM i de g (z[k][i]^2 - 2*z[k][i]*moy[g][k] + moy[g][k]^2) = 1/n * SUM g=1..p[2] SUM i du groupe g z[k][i]^2 - 2/n * SUM g=1..p[2] SUM i du groupe g z[k][i]*moy[g][k] + 1/n * SUM g=1..p[2] SUM i du groupe g moy[g][k]^2 = 1/n * SUM i=1..n z[k][i]^2 - 2/n * SUM g=1..p[2] moy[g][k] * SUM i du groupe g z[k][i] + 1/n * SUM g=1..p[2] n[g] * moy[g][k]^2 = 1/n * SUM i=1..n z[k][i]^2 - 2/n * SUM g=1..p[2] moy[g][k] * moy[g][k]*n[g] + SUM g=1..p[2] n[g]/n * moy[g][k]^2 = VT[k] - 2*VE[k] + VE[k] = VT[k] - VE[k] Pouvoir discriminant d'une variable discriminante z[k]: Le rapport de la variance externe à la variance totale sur l'axe k: VE[k] / VT[k] Plus les groupes sont distincts, plus la variance externe est grande et plus le pouvoir discriminant est élevé. Il est quand même toujours compris entre 0 et 1, car VT[k] = VE[k] + VI[k]. Le but est de maximiser le pouvoir discriminant. Étape k de l'AFD: La détermination de la variable discriminante z[k] de sorte qu'elle a un pouvoir discriminant maximal et qu'elle est orthogonale aux variables discriminantes précédentes. On veut maximiser VE[k] / VT[k] = t(u[k]) * B * u[k] / ( t(u[k]) * V * u[k] ) Les vecteurs u[k] sont alors les vecteurs propres de V^-1 * B = (t(X[1])*X[1])^-1 * t(G)*DG*G Leur pouvoir discriminant est égal à la valeur propre associée. Si les u[k] sont déterminés de sorte que les u[k] sont normés par rapport à la métrique V, alors t(u[k])*V*u[k] = 1, VT[k]=1, VE[k] est la k-ème valeur propre. Nombre maximal d'étapes d'une AFD: min(p[1], p[2]-1). L'AFD cherche des vecteurs orthogonaux dans l'espace de X[1]. p[1] est alors une borne supérieure pour le nombre de vecteurs. Chaque groupe a besoin d'une seule variable discriminante supplémentaire (1 groupe => aucun axe, 2 groupes => 1 axe etc.). p[2]-1 est alors de même une borne supérieure. L'AFD comme AC: L'AFD est une AC particulière. Elle calcule les vecteurs propres de V4, où les observations suivantes simplifient le calcul: * V[1][1] = 1/n * t(X[1])*X[1] * V[2][2] = 1/n * t(X[2])*X[2] = 1/n * DG est la matrice diagonale des fréquences des groupes * V[2][2]^-1 = n * (t(X[2])*X[2])^-1 = n*DG^-1 * V[2][1] = 1/n * t(X[2])*X[1] = 1/n * DG * DG^-1 * t(X[2])*X[1] = 1/n * DG * G * V[1][2] = t(V[2][1]) = 1/n * t(G) * DG Alors on a V4 = n*(t(X[1])*X[1])^-1*1/n*t(G)*DG*n*DG^-1*1/n*DG*G = (t(X[1])*X[1])^-1 * t(G) * DG * G Les facteurs de l'AC sont alors exactement les facteurs discriminants de l'AFD. L'AFD comme ACP: L'AFD est une ACP avec la métrique de Mahalanobis V^-1 = (1/n * t(X[1])*X[1])^-1 Si on trouve la matrice T de sorte que t(T)*T = V^-1, alors le produit scalaire V^-1 devient t(x)*t(T)*T*y = t(T*x)*T*y. Il suffit donc de transformer la tableau par la matrice T pour effectuer une ACP avec la métrique V^-1. L'ACP trouve les composantes principales comme étant les vecteurs propres de G*t(T)*T*G*DG = G*(t(X[1])*X[1])^-1*t(G)*DG (?) Les facteurs discriminantes u[k] vérifient (t(X[1])*X[1])^-1 * t(G) * DG * G * u[k] = b[k]*u[k] => G*(t(X[1])*X[1])^-1 * t(G) * DG * G * u[k] = b[k]*G*u[k] Cela correspond alors aux composantes principales à une multiplication de G près. Distance entre un individu et le centre de son groupe: La distance entre la projection du centre et la projection de l'individu dans l'espace des z[k]. Pour calculer cette distance, il faudrait utiliser la distance mahalanobienne, mais dans un système de coordonnées centrés et orthogonales (comme celui des z[k]), la distance mahalanobienne revient à la distance euclidienne. On se limite aux premières variables discriminantes pour le calcul de la distance. Qualité d'une AFD: Le pourcentage des individus bien classés. Un individu est bien classé si sa distance à son centre est plus petite que sa distance à un autre centre. Classement d'un individu supplémentaire: La détermination du groupe d'un individu qui n'a pas participé à l'AFD. En général, on prend le groupe dont le centre est le plus proche à l'individu. Mais il faut tenir compte de la variance du groupe: Une grande variance agrandit la zone d'influence d'un groupe. AFD avec deux classes: L'AFD avec les simplifications suivantes: * B = p[1]*p[2]*(g[1]-g[2])*t(g[1]-g[2]) où g[i] sont les centres du groupe i * a[1] = k * V^-1 * (g[1]-g[2]) où k est déterminé de sorte que t(a[1])*V*a[1] = 1