La définition de Factorielle

L'analyse factorielle

Il s'agit d'une méthode d'analyse qui permet de définir ou de vérifier des systèmes de variables hypothétiques (des facteurs) dont les effets pourraient rendre compte des relations constatées entre variables observées.
L'expression a aussi été appliquée à des méthodes d'analyse des données, dans lesquelles on cherche à représenter de façon synthétique de grands tableaux de données essentiellement au moyen de projections sur un axe ou sur un plan judicieusement choisis.
L'analyse factorielle peut être utilisée sur un ensemble de n variables observées sur N individus, ensemble au sein duquel on constate l'existence de corrélations entre variables. Dans ce cas, on peut faire l'hypothèse qu'il existe d'autres variables sous-jacentes non directement observables (les facteurs), qui, ayant chacune un effet sur deux ou plusieurs variables observables, expliquent leurs corrélations et une partie au moins de la dispersion de chacune d'elles.

La méthode d'analyse en composantes principales

La méthode d'analyse en composantes principales, étudiée notamment par Harold Hotelling, propose d'offrir une description économique de données de ce type. Si l'on représente deux variables réduites par deux axes orthogonaux, chaque sujet sera représenté par un point dans l'espace défini par ces deux axes, point dont les coordonnées seront les mesures de ce sujet sur ces deux variables.
Le nuage de points représentant les N sujets aura approximativement, si la corrélation entre les deux variables n'est pas nulle, la forme d'une ellipse. L'axe principal de cette ellipse fournira la façon la plus économique de repérer aussi précisément que possible la position d'un sujet dans le nuage à l'aide d'une seule mesure. C'est une représentation de la première composante principale, variable dont les valeurs individuelles sont fournies par les projections des points-sujets et dont on montre qu'elle rend compte de la plus forte proportion de la variance des observations à partir d'une seule variable.
Dans notre exemple à deux variables observées, la seconde composante principale, représentée par le second axe de l'ellipse orthogonal au premier, apporte une contribution qui, ajoutée à celle de la première composante, achève de rendre compte de la variance des observations. Dans ses utilisations effectives, la méthode s'applique à un nombre de variables plus élevé dont la variance peut en général être expliquée en grande partie par un nombre de composantes inférieur au nombre des variables.

Les méthodes en facteurs communs et uniques

Cette famille de méthodes d'analyse factorielle se propose non plus de fournir une description économique des variables mais essentiellement d'expliquer leurs corrélations. Elles supposent que chaque variable observée peut être représentée comme une fonction linéaire de facteurs dont les uns ont un effet sur plusieurs variables observées (ce sont les facteurs communs, responsables des corrélations entre variables observées) alors que chaque facteur unique n'intervient que sur l'une de ces variables. Ce facteur unique peut être décomposé en un facteur spécifique, prenant théoriquement la même valeur pour un individu donné au cours de mesures répétées, et un facteur d'erreur, variant dans ces conditions de façon aléatoire.
Dans ces méthodes, l'intérêt se centre sur les facteurs communs qui peuvent recevoir une interprétation fondée sur les caractères communs aux variables sur lesquelles ils exercent une influence. On appelle saturation la corrélation entre un facteur et une variable observée. La part de la variance d'une variable observée expliquée par l'ensemble des facteurs communs s'appelle la communauté. Si les facteurs communs sont orthogonaux, c'est-à-dire indépendants, chacun contribue à la communauté d'une variable observée pour une part égale au carré de sa saturation dans cette variable. On montre que la corrélation entre deux variables observées peut être représentée comme une somme de produits, chacun étant le produit des deux saturations de ces variables dans un facteur qui leur est commun.
Les données observées fournissant une estimation des corrélations, on peut écrire un système d'équations comportant autant d'équations que de corrélations, les saturations étant les inconnues. On peut résoudre ce système, à certaines conditions. On limite le nombre des facteurs communs à ceux qui paraissent suffisants pour rendre compte des corrélations avec une approximation satisfaisante, compte tenu en particulier des erreurs qui entachent les estimations des corrélations. Mais, si le système a une solution, il en a une infinité. Le passage d'une solution à une autre se fait par une transformation appelée rotation des facteurs. Au cours de ces rotations, on peut laisser les facteurs communs indépendants entre eux (facteurs orthogonaux) ou leur assigner des corrélations (facteurs obliques). On cherche s'il existe, parmi les solutions possibles, une solution satisfaisant à certains critères posés à l'avance, ou du moins quelle est la solution du système qui est la plus proche d'une solution satisfaisant à ces critères.
Les critères dont il s'agit ne sont pas ou pas seulement ici des critères d'économie formelle comme celui qui fixe la position des composantes principales. Ils sont aussi définis de façon à faciliter l'interprétation des résultats de l'analyse ou en fonction d'une hypothèse que l'on cherche à éprouver.

L'histoire de l'analyse factorielle

L'analyse factorielle a d'abord été employée pour essayer de vérifier des hypothèses très générales sur l'organisation de l'intelligence. Charles Spearman pensait que les corrélations entre épreuves d'intelligence pouvaient s'expliquer par un seul facteur (le facteur général g).
Cyril Burt a ajouté à ce facteur général des facteurs de groupe n'affectant chacun qu'une catégorie d'épreuves. Ces facteurs de groupe peuvent former une hiérarchie, chacun pouvant se subdiviser en facteurs de groupe plus restreints.
Louis Thurstone a soutenu l'hypothèse d'une pluralité de facteurs ayant tous le même niveau et ne comportant pas, au moins à l'origine, de facteur général. Mais on a montré que l'opposition entre ces hypothèses n'était qu'apparente. Pour un échantillon d'épreuves d'intelligence raisonnablement représentatif, ces hypothèses peuvent, en général, se ramener toutes au modèle hiérarchique. En particulier, les facteurs définis par la structure simple thurstonienne sont souvent obliques. Leurs corrélations peuvent alors être expliquées par un facteur de second ordre, qui constitue un facteur général de niveau supérieur.
Aujourd'hui, les recherches utilisant l'analyse factorielle ne se proposent plus de problèmes aussi généraux. Lorsqu'elles visent à vérifier une hypothèse, il s'agit d'hypothèses beaucoup plus spécifiques. Aussi, de nouvelles méthodes de vérification adaptées à ce type d'hypothèses sont apparues:

Les rotations discriminantes de Françoise Bacher: elles placent un facteur dans la position pour laquelle il discrimine au mieux les saturations de deux groupes de variables établis en fonction de l'hypothèse, et la qualité de la discrimination ainsi obtenue constitue l'épreuve de l'hypothèse.
Les rotations procustéennes de Joy Guilford: elles amènent le tableau des saturations obtenues à l'issue de l'analyse des données aussi près que possible d'un tableau de saturations écrit à l'avance en fonction d'une hypothèse, et le degré de ressemblance entre le tableau ainsi obtenu et le tableau attendu constitue l'épreuve de l'hypothèse. Mais cette méthode a fait l'objet de critiques.
L'analyse factorielle confirmatoire: elle permet de mettre à l'épreuve une hypothèse factorielle sans passer par les rotations de facteurs. Elle utilise un modèle structural, le LISREL. Le modèle comporte un système d'équations linéaires décrivant les relations postulées entre deux catégories de variables hypothétiques non observables ayant respectivement le statut de variables indépendantes et de variables dépendantes. Certaines relations peuvent n'être pas orientées, mais traduire une simple interdépendance entre variables (par exemple, les corrélations entre facteurs communs). Certaines relations peuvent être posées comme nulles. Le modèle comporte aussi des équations exprimant les relations entre les variables latentes ci-dessus et les variables observées. Les hypothèses du chercheur se traduisent ainsi dans l'écriture du modèle. Les covariances et corrélations reconstituées à l'aide du modèle ainsi écrit sont alors comparées aux covariances et corrélations observées. Ainsi, on peut juger si les hypothèses que le modèle a formalisées sont acceptables ou non.