CultureMATH - accueil - contact


Les matrices :
formes de représentation et pratiques opératoires (1850-1930).

Frédéric Brechenmacher - Centre Alexandre Koyré

Article déposé le 20 décembre 2006. Toute reproduction pour publication ou à des fins commerciales, de la totalité ou d'une partie de l'article, devra impérativement faire l'objet d'un accord préalable avec l'éditeur (ENS Ulm). Toute reproduction à des fins privées, ou strictement pédagogiques dans le cadre limité d'une formation, de la totalité ou d'une partie de l'article, est autorisée sous réserve de la mention explicite des références éditoriales de l'article.

Importer l'article complet en version pdf (1,5 Mo - 65 p.) ou en version mdi (2,1 Mo - 65 p.) - Ecrire à l'auteur

SOMMAIRE

Introduction.

I. La théorie des matrices canoniques des années trente du XXe siècle.

  1. La nouveauté de la théorie des matrices des années 1920-1930.
  2. Les problématiques liées à l'histoire des procédés matriciels.
  3. La méthodologie des réseaux de textes.

II. Une première origine : les travaux de Sylvester et Cayley des années 1850.

  1. Origine des matrices comme mères des mineurs :  les travaux de Sylvester [1850-1851] sur les intersections de deux coniques.
  2. La théorie des matrices de Cayley.

III. Evolutions de la notion de matrice entre 1850 et 1890.

  1. Héritages de la théorie des matrices de Cayley dans les travaux de Sylvester de la période 1882-1885
  2. La formation des "espèces de matrices" d'Eduard Weyr.
  3. La rencontre de la théorie des formes bilinéaires et de la théorie des matrices.

Conclusion.

Bibliographie.

Notes.

Encarts

  1. An introduction to the theory of canonical matrices. Turnbul et Aitken , 1932.
  2. Le théorème de décomposition matricielle dans le traité de Mac Duffee de 1943.
  3. Extraits de la démonstration du théorème de Jordan dans le traité de Mac Duffee de 1943.
  4. Un exemple de représentation de réseaux de recherches (1880-1907).
  5. Les types d’intersections des coniques et la décomposition polynomiale du déterminant. (en version pdf)
  6. Les types d’intersection des quadriques
  7. Les perceptions du mémoire de Cayley (1858) à la fin du XIX e siècle et l’écriture d’une histoire.
  8. Quelques éléments biographiques sur Eduard Weyr.
  9. Plan d’une démonstration contemporaine du théorème de Jordan.
  10. Le rôle de la représentation matricielle dans la formulation contemporaine de la relation mathématique entre diviseurs élémentaires et forme de Jordan.
  11. Comparaison du calcul des matrices de Weyr et de la théorie des matrices de Cayley.
  12. Comparaison des définitions des matrices chez Weyr et Cayley.
  13. La forme canonique de Jordan en 1870.
  14. Pincherle et la recherche de sous variétés d'un espace vectoriel invariantes par rapport à une homographie A.
  15. Extraits de différents théorèmes énoncés dans des réseaux de recherches distincts.

Introduction.

Un jeu de couleurs porté sur un texte mathématique contemporain sollicite différents moments de l’histoire sur une  période longue et fait apparaître une interrogation historique.

La matrice suivante

peut non seulement représenter un tableau de nombres, mais aussi un déterminant, une famille de vecteurs,  une application linéaire E→ F,  un endomorphisme E→ E, un système d’équations différentielles linéaires, une forme bilinéaire. D’une part, le mathématicien contemporain peut interpréter de différentes manières une même représentation matricielle. D’autre part un même objet peut se représenter par des matrices différentes. Par exemple, la matrice A et la matrice B ci-dessous représentent une même application linéaire E→ E dans des bases différentes :

·        Matrice.

Sylvester, 1851. Géométrie. "I have in a previous paper defined a « Matrix » as a rectangular array of terms, out of which different systems of determinants may be engendered, as from the womb of a common parent […]." 

Cayley, 1858. Théorie des matrices. " […] a set of quantities arranged in the form of a square, e.g.

is said to be a matrix […]."

Weyr, 1890. Théorie des formes bilinéaires. “Eine Matrix nter Ordnung {ahk} oder A auf ein System von n Werten x1,...,xn oder kürzer (x) applicieren, heiβt ein Werthsystem y1,...,yn mittelst der n linearen Gleichungen

yh = ah1x1+...+ahnxn, (h=1,2,...,n)

ableiten. Diese n Gleichungen mögen durch die symbolische Gleichung

(y) = A(x)

ausgedrückt werden. »

·        Tableau.

Poincaré. 1884. Groupes de Lie. "Ecrivons le Tableau à double entrée des coefficients d'une substitution quelconque de ce groupe […].  Dans ce Tableau, séparons par des traits verticaux les α premières colonnes, puis les β suivantes etc., puis les x dernières. Séparons de même par des traits horizontaux les α premières lignes, puis les β suivantes, etc., puis les x dernières. Nous avons partagé nos coefficients en p2 systèmes. Si l'on choisit convenablement les n paramètres arbitraires en fonction desquels tous les coefficients du groupe s'expriment linéairement, un quelconque d'entre eux ne pourra entrer que dans les coefficients d'un seul des p2 systèmes. »

Châtelet, 1911. Théorie des nombres. « […], il m'a semblé commode d'introduire la notion de tableaux ou systèmes linéaires. De tels symboles ont en effet l'avantage de représenter des êtres mathématiques assez divers : systèmes de formes linéaires, forme bilinéaire, forme décomposable, substitution linéaire […]. »

·        Application linéaire.

 Jordan, 1870, Théorie des substitutions. "Réduction d'une substitution linéaire à sa forme canonique simple. »

Pincherle, 1899, Equations différentielles. "Décomposition d'un espace vectoriel en sous variétés invariantes par l'opération d'une homographie A."

·        Etc

Que l’on s’attache au terme de tableau, de forme bilinéaire, d'endomorphisme, d'équation différentielle, différents auteurs, différentes époques, différents contextes culturels sont mobilisés par la lecture d’un même texte. L'histoire de la notion de matrice débute-t-elle en 1858, date de parution d’un célèbre mémoire de Cayley? Doit-on s'attacher au calcul des Tableaux très employé en France, au XIXe siècle, de Cauchy à Poincaré? Faut-il remonter plus loin dans le temps et étudier les systèmes linéaires d’équations différentielles résolus par des savants du XVIIIe siècle comme d’Alembert, Lagrange et Laplace ? Y a-t-il une ou plusieurs notions de matrice dans l’histoire ? La question de l’identité du concept de matrice donne à cet article sa trame principale [1].

Au cours des années trente du XXe siècle, la notion de matrice est devenue un élément de base dans l’architecture du savoir algébrique. L’acquisition de ce statut élémentaire au sein d’une théorie, l’algèbre linéaire, a donné aux matrices une identité forte et, dans le même temps, a écrasé la pluralité de leur histoire. Porter un regard sur des périodes antérieures à l’algèbre linéaire des années 1930 nécessitera de distinguer, dans l’histoire d’une même notion, des concepts et des pratiques différentes qui ne sont pas étrangères à la variété de représentations qu’offre au mathématicien la notion de matrice. Nous verrons toutes les différences entre la notion originelle de James Joseph Sylvester (1851) d'une matrice comme mère des mineurs d’un déterminant, les lois du calcul des matrices d’Arthur Cayley (1858) ou encore les procédés de décomposition matricielle d’Eduard Weyr (1885). 

L’histoire de la notion de matrice ne peut pas se réduire à l’histoire d’une théorie avant l’algèbre linéaire des années trente du XXe siècle, elle doit plutôt s’envisager comme le filage en une tresse de fils reliant des époques et des contextes variés [2]. Plutôt que de proposer une vision schématique de la longue histoire séparant 1850 et 1930, cet article développe quelques moments particuliers afin de faire apparaître des implicites du savoir mathématique qui tiennent à des modes de pensées et à des pratiques indissociables d’un contexte culturel daté. Nous verrons que l'histoire des matrices permet de dévoiler des aspects culturels des mathématiques antérieurs aux théories structurelles et unificatrices comme l'algèbre linéaire des années 1930 [3]. La richesse de l’histoire des matrices provient souvent de ce qui échappe à une description mathématique contemporaine et, pour cette raison, des extraits de textes originaux accompagnent le texte principal sous forme d’encarts [4].

I. La théorie des matrices canoniques des années trente du XXe siècle.

Dans un premier temps, porter notre regard sur la période qui voit la notion de matrice acquérir un caractère universel au sein d'une théorie internationale va nous permettre de dégager les principales problématiques et la méthodologie de cet article.

1. La nouveauté de la théorie des matrices des années 1920-1930.

On publie beaucoup sur les matrices dans les années 1920-1930. Des formes de représentations imagées envahissent des textes mathématiques publiés dans toutes les langues, dans le domaine de la recherche comme dans celui de l'enseignement. Comment une notion, dont Cayley présentait déjà une théorie en 1858, peut-elle porter une nouveauté dans les années folles ? Regardons les arguments développés dans un ouvrage publié en 1932 par H.W. Turnbull et A.C. Aitken, An Introduction to the Theory of Canonical Matrices (encart 1). Selon l'introduction du traité, la nouveauté de la théorie des "matrices canoniques" est dans  l'utilisation des "propriétés" de l'"idiome matriciel" par opposition à une théorie classique, la théorie des formes bilinéaires, attachée à de grands noms de la fin du XIXe siècle comme Weierstrass, Kronecker et surtout Frobenius.

Notation matricielle : 

Notation des formes bilinéaires :

Selon Turnbull et Aitken (T&A), le recours à la notation matricielle marque une rupture par rapport à une pratique traditionnelle des traités d'algèbre des générations précédentes [5]. Deux arguments sont développés pour justifier cette évolution. D'abord, la notation matricielle est présentée comme efficace car permettant des énoncés de "théorèmes généraux" en un "minimum de place". Surtout, et comme tous les auteurs des années 1920-1930, T&A mettent en avant les valeurs pédagogiques d'une représentation présentée comme "simple". Dans l'introduction de son traité sur la théorie des groupes publié en 1916, Blichfeldt encourageait déjà l'étudiant à bénéficier des "avantages" procurés par l'"image mentale"  de la "forme matricielle" par opposition à la "représentation linéaire".

From the outset the student is urged to work with the matrix form of a linear representation. The practice thus gained is of great advantage […]; in particular the more difficult sections of Chapter XIII [group representation] will be mastered readily if the student has a clear mental image of the matrix form of the regular groups […]. [Blichfeldt, 1916, vii].

Traduction, F.B. :

Nous encourageons l’étudiant à travailler dès le départ avec la forme matricielle d’une représentation linéaire. Il y gagnera une pratique très avantageuse et les parties plus difficiles du chapitre XIII (sur la représentation des groupes) seront maitrisées rapidement si l’étudiant a une image mentale de la forme matricielle des groupes classiques.

Si, au début du siècle, les partisans de la représentation en tableau, comme Autonne et Chatelet en France, Cullis en Grande Bretagne, étaient encore rares, l'idée selon laquelle la maîtrise de la représentation matricielle permettrait d'assimiler plus "simplement" des "théorèmes généraux" de différentes théories est à la base des organisations didactiques de nombreux traités d'algèbre publiés dans les années 1930. Comme le montre l'introduction de l'ouvrage de T&A, la représentation matricielle ne peut être dissociée de l'objet même de la nouvelle organisation théorique développée dans le traité :

La théorie des matrices canoniques a pour objet l’investigation systématique des types de transformations qui réduisent les matrices à leur forme la plus simple et la plus pratique. [Turnbull et Aitken, 1932, 2, traduction F.B.].

La théorie porte sur les formes de représentation des matrices : il s'agit de réduire les matrices à leurs formes les plus simples ou formes canoniques, c'est-à-dire d'élaborer des pratiques de "transformations", de "réductions" des "formes", normées par un critère de "simplicité". Les résultats principaux énoncent des formes canoniques pour les relations d'équivalence, de similitude ou de congruence des matrices. Pour la relation de similitude, deux formes canoniques sont associées à un unique théorème de décomposition matricielle dont un énoncé est donné en encart 2 (dans la citation suivante, le symbole « . » représente la valeur 0) :

A =
B =
(13)

 

we may prove in the following manner that there exists a matrix H such that

HAH-1=B.

[Turnbull et Aitken, 1932, 2].

D'une part la matrice A, "forme de Jordan", est la forme la plus simple et donne une décomposition maximale ; d'autre part la matrice B, qualifiée de "forme rationnelle", est obtenue par des procédés effectif [6]. L'identité d'un unique théorème de décomposition en deux formes canoniques se décline sous une forme mathématique : on passe d’une forme canonique à l’autre par une méthode spécifique qui se caractérise comme une  combinatoire sur la représentation, sur la forme des matrices. Les premiers chapitres du traité de T&A développent une pratique algébrique de décomposition basée sur un caractère opératoire donné aux "sous-matrices" que l’on combine les unes avec les autres comme on le voit dans les extraits suivants :   

Matrices partitioned into Submatrices.

It is convenient to extend the use of the fundamental laws of combination for matrices to the case where a matrix is regarded as constructed not so much from elements as from submatrices, or minor matrices, of elements. For example, the matrix

can be written

A=

 

,

where

P =
Q=
R = [7, 8], S = [9].

Comme l’illustrent les extraits suivants et la démonstration du théorème de Jordan donnée en encart 3, un caractère opératoire est conféré à la représentation matricielle que l'on décompose en cultivant l'analogie avec les figures de la géométrie (on parle ainsi de rectangle, triangle, diagonale). La méthode matricielle se construit en articulant des pratiques combinatoires d’extractions de sous matrices, des décompositions polynomiales, un calcul symbolique des puissances de matrices, une arithmétique des lignes et des colonnes et le point de vue vectoriel de décomposition d'un espace en sous espaces stables par l'action d'une transformation linéaire.

Here the diagonal submatrices P and S are square, and the partitioning is diagonally symmetrical. In the general case there may evidently be n or fewer partitions row-wise or column-wise. Let B be a second square matrix of the third order similarly partitioned:

=

then by addition and multiplication we have

A+B =

AB =

as may readily be verified. In each case the resulting matrix is of the same order, and is partitioned in the same way, as the original matrix factors. For example, in AB the first element, PP1+QR1, stands for a square submatrix of two rows and columns: and this is possible, since, by definition, both products PP1 and QR1 consist of two rows and two columns. […]. Thus

PQ1 + QR1 =

giving the proper rectangular shape for the upper right hand minor. [Turnbull et Aiken, 5-6]

Les différentes démonstrations du théorème de Jordan, les applications à différents problèmes comme la recherche des matrices commutant avec une matrice donnée sont autant d’exemples de l’efficacité d’une pratique algébrique recourant à des formes, des images que Picard désignait encore en 1910 comme des "dessins" et qui, dans les années trente, envahissent les textes mathématiques comme dans les extraits ci-dessous du traité de T&A.  

 

=

[...] It is a help to form a staircase graphs of these chains as follows:

 

     
C=
 

   
     

 
       

β

Dans les années 1920-1930, les procédés opératoires portés sur la représentation matricielle sont l’objet de communications dans les congrès et de publications dans toutes les langues. Ces procédés fondent le caractère unificateur de la représentation matricielle à partir de pratiques algébriques auparavant distinctes, ils font de la théorie des matrices une théorie internationale qui participe à la réorganisation du savoir algébrique menée à cette époque avec l’élaboration de l’algèbre linéaire.

2. Les problématiques liées à l'histoire des procédés matriciels.

Les valeurs pédagogiques et les procédés pratiques mis en avant par des auteurs comme T&A peuvent surprendre venant d’une époque qui voit l’émergence de structures basées sur des nouvelles notions souvent qualifiées d’abstraites et unificatrices comme les groupes, les modules ou les vecteurs. Comme nous l'avons vu au paragraphe précédent, le caractère unificateur de la théorie des matrices dans les années trente est pourtant fondé sur des pratiques opératoires, qui, loin d’être abstraites, sont associées à une forme de représentation imagée. Pour cette raison, le problème de l’histoire des procédés matriciels est souvent passé inaperçu de travaux historiques focalisés sur les notions abstraites et structurelles de l'algèbre linéaire [7]. La représentation matricielle a d’ailleurs souvent été utilisée au sein des discours historiques comme une représentation inoffensive, naturelle, dénuée d'histoire [8]. Son histoire n’en pose pas moins une véritable problématique. Comment comprendre que la théorie des matrices canoniques s’unifie en 1930 autour de procédés opératoires alors que de tels procédés étaient déjà présents dans un mémoire de Cayley en 1858 ? Pourquoi cet écart de 80 ans ? Si l’on peut soupçonner que la notion de matrice du XXe siècle n’est pas la même que celle de Cayley, il faut alors poser la question des évolutions dans l’identité de la notion de matrice en portant notre attention sur les pratiques opératoires élaborées entre 1858 et 1930. Mais comment choisir les textes et les auteurs, sur lesquels porter notre étude ? Avant les années trente, le caractère opératoire de la représentation en tableau n’était pas identifié comme un problème mathématique. Au début du siècle, par exemple, le rapport de Picard sur la thèse de Chatelet (1910), consacrée à expliciter les pratiques du « calcul des tableaux », manifestait un grand scepticisme sur l’intérêt mathématique d’un travail de doctorat consacré à des « dessins ». Si le calcul des tableaux renvoyait déjà au temps de Chatelet à une tradition ancienne, forte des contributions de Cauchy, Hermite, Jordan ou Poincaré, les procédés associés restaient implicites [9]. Comment aborder l'histoire des procédés opératoires associés aux matrices alors que la représentation qui les sous-tend n'est pas identifiée comme problématique avant la théorie des matrices canoniques des années trente ?

3. La méthodologie des réseaux de textes.

La méthodologie qui a été mise en œuvre au sein de la thèse de doctorat dont cet article est issu repose sur l’établissement de réseaux de textes. Après avoir choisi un moment de référence, les années trente, une recherche bibliographique a été menée sur toutes les références des traités parus dans les années 1920-1930 [10] Ce premier corpus de textes a ensuite été complété par épuisement systématique des références bibliographiques. L’examen du corpus général obtenu a permis de fixer une périodisation, allant de 1850 à 1930, dont un découpage plus précis a nécessité d’étudier la manière dont les textes et acteurs des périodes considérées s’organisent en réseaux. L’analyse des références bibliographiques permet de distinguer des réseaux cohérents de textes, essentiellement distincts les uns des autres et ne correspondant pas globalement à des théories. Des graphes comme celui de l'encart 4 permettent de représenter les liens entretenus par les différents textes d’un même réseau, ils  montrent notamment l’existence de points de convergence, de nœuds, dans l’entremêlement des références bibliographiques. La méthodologie des réseaux permet de préciser la métaphore de la tresse appliquée à la notion contemporaine de matrice en introduction : les différentes pratiques qui s’entrelacent dans les procédés matriciels des années 1930 comme nous le voyons par exemple dans l’encart 3 (analogies géométriques, pratiques combinatoires, décompositions polynomiales, calcul symbolique, arithmétique, point de vue vectoriel etc.) sont élaborées souvent indépendamment les unes des autres et dans de réseaux distincts. Il faut donc décrire les conditions de ces élaborations avant de poser la question des communications, des convergences, c'est-à-dire de la manière dont des cultures locales se tressent et participent d'une histoire plurielle.

La seconde partie de cet article propose de suivre quelques fils de la tresse que constitue la représentation matricielle des années trente. Nous nous attacherons à l’examen d’un réseau particulier représenté en encart 4 et dont les points de convergence mettent en avant les noms de Sylvester, Cayley, Weyr ou Frobenius.

II. Une première origine : les travaux de Sylvester et Cayley des années 1850.

Les termes « matrice » et « mineurs » sont introduits par Sylvester en 1851 dans le cadre de travaux géométriques. Entre 1850 et 1851, Sylvester publie quatre mémoires consacrés au problème des intersections de deux coniques ou quadriques [11]. Ces publications successives permettent de suivre l’élaboration progressive d’une méthode qui se caractérise par une traduction de propriétés géométriques ou analytiques dans le cadre du calcul des déterminants. Les notions de « matrices » et « mineurs » apparaissent d’abord, pour reprendre les termes de l’auteur, comme des « résultats collatéraux » avant de devenir les principaux objets d’étude de Sylvester.

1. Origine des matrices comme mères des mineurs :
 les travaux de Sylvester [1850-1851] sur les intersections de deux coniques.

Le mémoire intitulé "On the intersections, contacts and other correlations of two conics expressed by indeterminate coordinates" [Sylvester, 1850a], publié en novembre 1850 dans le Cambridge and Dublin Mathematical Journal, porte sur l’étude des différents types d’intersection de deux coniques. La caractérisation des intersections de coniques avait déjà a été traitée par Plücker en 1828 et l’originalité du travail de Sylvester réside surtout dans le recours au calcul des déterminants par opposition à la méthode analytique développée par les savants français de l’Ecole Polytechnique comme Hachette et Poisson (1802), Cauchy ou Biot (1826). Pour Sylvester, la méthode analytique traditionnelle est encombrée de la considération d’équations "arbitraires", au contraire du caractère intrinsèque du calcul des déterminants. Nous verrons que la nature des types de contacts de deux coniques U et V, « traduite dans le langage des déterminants », est liée à l'étude de la multiplicité des trois racines de l'équation |U+mV|=0 [12]. Mais il existe cinq cas d'intersections et seulement trois types de multiplicités des racines (3 racines simples, 1 double, 1 triple), les occurrences de racines doubles et triples nécessitent donc chacune l’examen de deux sous cas comme le détaille l’encart 5 (en version pdf). Afin de caractériser les cinq types d’intersection, Sylvester va comparer les décompositions algébriques du polynôme |U+mV| aux décompositions du déterminant |U+mV| en "mineurs" extraits d’une matrice [13].

Dans son premier article de 1850, Sylvester reprend à son compte la caractérisation faite par Cayley de l'intersection de deux coniques U et V comme formant un « quadrangle » comportant trois paires de cotés et quatre « sommets» [14].

Caractériser l’intersection des coniques revient alors à étudier la nature des sommets ou des paires de côtés du « quadrangle » (réels-imaginaires, distincts-confondus) :

If all the points of the quadrangle of intersection are real, the three vertices and the three pairs of sides are all real. If only two points of the quadrangle are real, one vertex and one of the three pairs of sides will be real; the other two vertices and two pairs of sides being imaginary. If all four points of the quadrangle are unreal, one pair of sides will be real and the other two pairs imaginary, as in the last case; but all the three vertices will remain real, as in the first case. [Sylvester, 1850a, 263].

Traduction, F.B.

Si tous les points du quadrangle d’intersection sont réels, les trois sommets et les trois paires de côtés sont tous réels. Si seulement deux points du quadrangle sont réels, l’un des sommets et l’une des trois paires de côtés seront réels ; les deux autres sommets et paires de côtés étant imaginaires. Si tous les quatre points du quadrangle sont non réels, une paire de côtés sera réelle et les deux autres paires imaginaires comme dans le cas précédent et, comme dans le premier cas, les trois sommets seront réels.

Toutes les coniques représentées par U+mV, avec m variable, se coupent en un même quadrangle. Le quadrangle lui-même correspond aux valeurs de m pour lesquelles la conique U+mV est une paire de droites, c'est-à-dire, en termes contemporains, une conique dégénérée du faisceau U+mV [15]:

Hence we have a direct and simple criterion for distinguishing the case of mixed intersection from intersection wholly real or wholly imaginary; namely, that the cubic equation of the roots of which coordinates of the vertices are real linear functions shall have a pair of imaginary roots. This is the sole and unequivocal condition recquired. The equation in question is, or ought to be, well known to be the determinant in respect to x, h, z  of lU+mV. [Sylvester, 1850a, 264].

Traduction. F.B.

Nous avons donc un critère simple et direct pour distinguer le cas d’intersection mixte des cas d’intersections entièrement réelles ou entièrement imaginaires ; l’équation cubique dont les coordonnées des sommets sont des fonctions linéaires des racines doit avoir une paire de racines imaginaires. Cette condition et la seule requise. L’équation en question est bien connue comme étant le déterminant de lU+mV par rapport à x, h, z (les coordonnées projectives).

La caractérisation du contact des coniques est ainsi ramenée à l’examen des racines de l’équation |U+μV|=0. L’occurrence de trois racines distinctes traduit l'existence d'un quadrangle formé par trois paires de droites distinctes.

Mais le seul degré de multiplicité des racines du déterminant de U+mV s’avère un critère insuffisant pour distinguer deux types de contact de second degré correspondant à l’occurrence d’une ou deux ‘tangentes doubles’ à la conique U (encart 5 - version pdf).

 

The classification of contacts between two conics may be stated as follows :
Simple contact = one case.
Second degree contact = 2 cases: common curvature or double contact.
Third degree contact = one case, namely, contact in four consecutive points
These four cases of course correspond to the several suppositions of there being two equal roots, three equal roots, two pairs of equal roots, or four equal roots in the biquadratic equation obtained between two variables by elimination performed in any manner between the given equations in the two conics. [Sylvester, 1850a, 266].

Traduction. F.B.

L’énoncé suivant donne la classification des contacts entre deux coniques :
Contact simple = 1 cas.
Contact de second degré = 2 cas : courbure commune ou contact double.
Contact du troisième degré = 1 cas correspondant au contact en quatre points consécutifs.
Ces quatre cas correspondent aux différentes occurrences d’égalités entre les racines, selon qu’il y ait deux racines égales, trois racines égales, deux paires de racines égales ou quatre racines égales […].

Sylvester traduit l'occurrence de racines doubles dans le langage des déterminants. Des facteurs communs doivent apparaître dans le développement polynomial du déterminant:

= Ap2+Bq2+Cr2+2Fqr+2Grp+2Hpq,

where all the coefficients are quadratic functions of m, and make

A=0, B=0, C=0, F=0, G=0, H=0,

each of these six equations in m will have one and the same root in common. 

[…] I must observe that besides the equations involved in the condition that A, B, C, F, G, H, or which is the same thing, that any three of them shall all have a factor in common, we must have det(U+lV) containing the square of such common factor. [Sylvester, 1850a, 271].

Traduction. F.B.

[…] Je dois observer qu’en raison des équations caractérisant la condition selon laquelle  A, B, C, F, G, H, doivent avoir un facteur commun, le carré d’un tel facteur commun doit être contenu dans det(U+lV).

Il y a donc une relation  entre  les types d’intersections des coniques et  les types de facteurs communs intervenant dans le développement polynomial du déterminant |U+μV| (encart 5 - version pdf). L’étude des différentes décompositions polynomiales de la « caractéristique » U+μV va alors se substituer aux préoccupations géométriques initiales et devenir le principal objet d’étude de Sylvester. C’est dans ce cadre que Sylvester introduit la notion de "mineurs" du déterminant |U+mV| comme le montre l’extrait suivant dans lequel l’auteur fait le récit de l'évolution de ses travaux sur les coniques (la notation det(U+lV) désigne le déterminant de U+lV ):

Wishing to subject it to analytical test, he found it necessary to obtain the condensed forms which serve to characterize the confluent contact of conics. In this way he became aware of the great utility of these condensed forms, and of the desideratum to be supplied in obtaining a complete list of them applicable to all varieties of contact. The happy thought then occurred to him of inverting the process which he had applied in the treatment of the contacts of conics, in the November Number of the Cambridge and Dublin Mathematical Journal ; for whereas the nature of the contacts was there assumed and translated into the language of determinants, he soon discovered that it was the more easy and secure course to assume the relations of every possible immutable kind that could exist between the complete and minor determinants corresponding to characteristics, by aid of these relations to construct the characteristics, and from the characteristics so obtained, determine the geometrical character of each resulting species of contact.  […] It is easily seen that to every relation of equality between the roots of the determinant of U+lV must correspond a particular species of contact between the loci which U and V characterize. But we should make a great mistake were we to suppose that every such relation of equality between the roots of the determinant of U+lV must correspond a particular species of contact; for instance, the characteristics of U and V of two conics are functions of three letters, and det(U+lV ) will be a cubic function of l. Such a function may have two roots, or all its roots equal: this would seem to give but two species of contact, whereas we well know that there are no less than fours species of contact possible between two conics. Accordingly we shall find, that, in order to determine the distinctive characters of each species of contact, we must look beyond the complete determinant, and examine into the relations of the several systems of minor determinants that can be formed from U+lV […]. If U and V are characteristics of the two loci whose contacts are to be considered, U+lV will be the function, the properties of whose complete determinant, and of minor systems of determinants belonging to it, will serve to specify the nature of the contact. [Sylvester, 1851a, 295].

Traduction. F.B.

Désirant soumettre (la caractérisation des contacts de coniques) à un questionnement analytique, il (Sylvester) pensa nécessaire d’obtenir les formes condensées permettant de caractériser le cas de « confluent  contact » des coniques (c'est-à-dire la décomposition polynomiale de la caractéristique, voir encart 5 - version pdf). Il réalisa alors la grande utilité de telles formes condensées et conçu le désir d’en obtenir une liste complète applicable à tous les cas de contact. Il lui vînt alors l’idée heureuse d’inverser le procédé qu’il avait mis en œuvre pour son étude des contacts des coniques […] ; en effet, alors que, dans un premier temps, la nature des contacts avait était envisagée par une traduction dans le langage des déterminants, il découvrit qu’il était en fait plus rapide et plus sûr de commencer par étudier les différentes relations possibles entre le déterminant correspondant à la caractéristique et ses mineurs puis de construire les caractéristiques afin de déterminer finalement le caractère géométrique des espèces de contacts correspondantes aux caractéristiques obtenues […]. Il est facile de voir qu’a toute occurence d’égalité entre les racines du déterminant de U+lV doivent correspondre des espèces particulières de contacts entre les lieux caractérisés par U et V. Mais nous ferions une grave erreur si nous supposions qu’à chaque relation d’égalité entre les racines correspond une espèce particulière de contact ; par exemple, les caractéristiques de deux coniques U et V sont des fonctions de trois lettres et det(U+lV)  est donc une fonction cubique de l. Une telle fonction peut avoir deux ou trois de ses racines égales, ce qui ne donnerait que deux espèces de contacts entre deux coniques alors qu’il est bien connu qu’il n’y a pas moins de quatre espèces de contacts possibles. Afin de déterminer le caractère distinctif de chaque espèce de contact, nous devons par conséquent conclure qu’il est nécessaire des regarder au-delà du déterminant en examinant les relations entre les différents systèmes de mineurs susceptibles d’être formés à partir de U+lV […]. Si U et V sont les caractéristiques des lieux dont les contacts sont étudiés, la nature du contact sera caractérisée par les propriétés des systèmes de mineurs contenus dans le déterminant de la fonction U+lV.

Afin de caractériser les différents cas d’intersections correspondant à une même décomposition polynomiale de la caractéristique |U+mV|, il faut aller « au-delà du déterminant » et considérer les différents « systèmes de mineurs » que l’on peut en extraire. Comme on peut le voir en encart 5 (en version pdf), Sylvester associe à chaque type d’intersection la décomposition en "systèmes de mineurs" de l’expression |U+λV| [16]. Le cas de « confluent contact » se caractérise par exemple par l’occurrence d’une racine triple et de « l’annulation simultanée des mineurs » :

If the determinant of this function (U+mV) have two equal roots, the conics simply touch; if it have three equal roots, the conics have a single contact of a higher order, that is, the same curvature; if its six first minors become zero simultaneously for the same value of m, which makes all these first minors zero, be at the same time not merely a double root (as of analytical necessity it always must be) but a triple root of det(U+mV) =0. Then the conics have a single contact of the highest possible order short of absolute coincidence, that is, they meet in four consecutive points. [Sylvester, 1851a, 296].

Traduction. F.B.

Si le déterminant de cette fonction (U+mV) a deux racines égales, les coniques se touchent simplement, dans le cas où il a trois racines égales, les coniques ont un contact de plus grand ordre, c'est-à-dire la même courbure : si tous les six premiers mineurs s’annulent simultanément pour la même valeur de m, det(U+mV) =0, on aura alors une racine triple. Le contact des coniques sera alors du plus grand ordre qu’il est possible d’obtenir, en dehors du cas où elles seraient confondues, les coniques se rencontreront donc en quatre points consécutifs.

·       Généralisation de la méthode de Sylvester et introduction des matrices.

Dans deux mémoires publiés en 1851, Sylvester généralise ses travaux aux intersections de quadriques et, plus généralement, à des formes quadratiques U et V portant sur « n lettres ».  L’extraction effective des mineurs d’un déterminant d’ordre n s’appuie alors sur une représentation en tableau rectangulaire que Sylvester dénomme la "matrice" des "mineurs":

[…] we must commence, not with a square, but with an oblong arrangement of terms consisting, suppose, of m lines and n columns. This will not in itself represent a determinant, but is, as it were, a Matrix out of which we may form various systems of determinants by fixing upon a number p and selecting at will p lines and p columns, the square corresponding to which we may be termed determinants of the pth order. [Sylvester, 1851a, 296].

Traduction. F.B.

[…] Nous devons commencer avec, non pas un carré, mais un arrangement oblong de termes constitué, par exemple, de m lignes et n colonnes. Cet arrangement lui-même ne représente pas un déterminant mais une Matrice à partir de laquelle nous pouvons former différents systèmes de déterminants en fixant un nombre p and et en sélectionnant à volonté p lignes and p colonnes, les carrés correspondants pouvant être dénommés déterminants du pe ordre. [Sylvester, 1851a, 296].

Le  mémoire, « On the relations between the minor determinants of linearly equivalent quadratic functions » [1851b], est consacré à l'énoncé des propriétés des mineurs comme l’invariance par transformation linéaire. C'est dans ce cadre qu'est définie explicitement la notion de "matrice" comme mère des mineurs d'un déterminant [17]:

I have in previous papers defined a « Matrix » as a rectangular array of terms, out of which different systems of determinants may be engendered, as from the womb of a common parent ; these cognate determinants being by no means isolated in their relations to one another, but subject to certain simple laws of mutual dependence and simultaneous deperition. The condensed representation of any such matrix, according to my improved Vandermondian notation, will be

.

[…] It is wonderful that a theory so purely analytical should originate in a geometrical speculation. My friend M. Hermite has pointed out to me, that some faint indications of the same theory may be found in the Recherches Arithmétiques of Gauss. The notation which I have employed for determinants is very similar to that of Vandermonde, with which I have become acquainted since writing the above, in Mr Spottiswoode’s valuable treatise On the elementary Theorems of Determinants. Vandermonde was evidently on the right road. I do not hesitate to affirm, that the superiority of his and my notation over that in use in the ordinary methods is as great and almost as important to the progress of analysis, as the superiority of the notation of the differential calculus over that of the fluxional system. For what is the theory of determinants? It is an algebra upon algebra; a calculus which enables us to combine and foretell the results of algebraical operations, in the same way as algebra itself enables us to dispense with the performance of the special operations of arithmetic. All analysis must ultimately clothe itself under this form. [Sylvester, 1851b, 296].

Traduction. F.B.

J’ai défini dans une publication précédente une “Matrice” comme une suite rectangulaire de termes de laquelle différents systèmes de déterminants peuvent être engendrés, comme de l’utérus d’un parent commun ; ces déterminants apparentés sont loin d’être isolés dans leurs relations l’un à l’autre, ils sont sujets à certaines lois simples de dépendance mutuelle et d’annulation simultanée. La représentation condensée d’une telle matrice, reprenant la notation que j’ai développée à partir de celle de Vandermonde, sera

[…] Il est fantastique qu’une théorie d’une telle pureté analytique trouve son origine dans des speculations géométriques. Selon mon ami Hermite quelques indications pouraient laisser supposer qu’une théorie semblable se trouverait dans les Recherches Arithmétiques de Gauss. Ma notation est similaire à celle de Vandermonde et j’en suis devenu familier depuis la publication de mon précédent mémoire [celui de novembre 1850] à l’aide du remarquable traité de Spottiswoode, Théorèmes élémentaires sur les déterminants. Vandermonde était dans la bonne voie et je n’hésite pas à affirmer la supériorité de notre notation sur celle employée par les méthodes ordinaires, cette notation a une importance pour les progrès de l’analyse comparable à la supériorité de la notation du calcul différentiel sur le système des fluxions [18]. Car en effet, qu’est ce que le calcul du déterminant sinon une algèbre de l’algèbre, un calcul qui permet de combiner et prévoir les résultats d’opérations algébriques de manière similaire à l’algèbre elle même qui nous dispense des opérations particulières de l’arithmétique.

Comme conclusion partielle, nous pouvons remarquer que la notion de matrice est, à son origine chez Sylvester, associée aux méthodes du calcul du déterminant et plus particulièrement à une pratique spécifique qui articule des extractions de mineurs à une décomposition polynomiale afin de résoudre le problème posé par l’occurrence de racines caractéristiques multiples. L’application de la méthode de Sylvester aux quadriques nécessite la prise en compte des seconds mineurs afin de caractériser les types d’intersections plus nombreux qui sont donnés en encart 6. Le problème général du dénombrement des systèmes  de mineurs extractibles d'un déterminant suscitera, en 1855, l'intérêt de Cayley pour la notion de matrice.

2. La théorie des matrices de Cayley.

·       Premiers travaux de Cayley sur les matrices de Sylvester. 

Au début des années 1850, Cayley et Sylvester entretiennent une collaboration mathématique intense et travaillent notamment à jeter les bases de la théorie des invariants [19]. Dans un article publié en 1855 dans le Journal de Crelle et intitulé "Remarques sur la notation des fonctions algébriques", Cayley adopte pour la première fois la notion de matrice comme une "notation commode" pour représenter les systèmes linéaires et les formes quadratiques:

Un système de quantités rangées en forme de carré, mais d’ailleurs tout à fait indépendantes (je ne parle pas ici des matrices rectangulaires). Cette notation me paraît très commode pour la théorie des équations linéaires. ; j’écris par exemple

(x,h,z,…) =

pour représenter le système des équations

[Cayley, 1855b ,282].

Comme nous l’avons vu, les notions de matrices et mineurs avaient été introduites afin de caractériser les types d’intersection de deux coniques ou quadriques par la décomposition d'un déterminant en suites de mineurs. Généraliser la méthode à des situations comportant plus de trois ou quatre variables pose le problème du dénombrement des différentes décomposions possibles. Ce problème est à l’origine de l’intérêt de Cayley pour la notion de matrice et suscite la publication de trois articles successifs en 1855 [20]:

[…] ce déterminant sera une fonction de s du ne degré qui généralement ne contiendra pas de facteurs multiples. On voit donc qu’un facteur simple du déterminant ne peut pas entrer comme facteur dans les premiers mineurs (c’est à dire dans tous les premiers mineurs) ; mais en supposant que le déterminant ait des facteurs multiples, un facteur multiple peut entrer dans les premiers mineurs. Il importe de trouver le degré selon lequel un facteur multiple peut entrer comme facteur dans un des mineurs d’un ordre quelconque donné […]. Cela se fait très facilement au moyen d’une propriété générale des déterminants :  si les mineurs du (r+1)e ordre contiennent le facteur (s-a)α (c'est à dire si tous les mineurs de cet ordre contiennent le facteur (s-a)α, mais non pas tous les facteurs (s-a)α+1 ); et si de même les mineurs du r-ième ordre contiennent le facteur (s-a)b alors les mineurs du (r-1)ième ordre contiendront au moins le facteur (s-a)2b-a. Autrement dit : les mineurs du (r-1)ième ordre contiendront le facteur (s-a)g g³2b-a . […] en formant la suite des indices des puissances selon lesquelles le facteur (s-a) entre dans les mineurs premiers, seconds, &c. (il va sans dire que cette suite sera une suite décroissante), les différences secondes seront positives […]. Je représente par a, b, g, … la suite dont il s’agit ; je suppose, pour fixer les idées, que d soit le dernier terme qui ne s’évanouisse pas et j’écris

a,             b,            g,        d,      0,      0, ….

a-b,         b-g         g- d      d,      0,…..

a-2b+g   b-2g+d    g- 2d    d,      0,….

Ici, quel que soit le nombre des termes, tous les nombres de la troisième ligne seront positifs, et en représentant ces nombres par  òò’,  ò’’,  &c., on obtient :

a = ò + 2ò’+ 3ò’’ + 4ò’’’+…. ;

b =        ò’ + 2ò’’+ 3ò’’’ + … ;

g  =                ò’’ + 2ò’’’+ … ;

d =                           ò’’’+…. ;

Il y a ici à considérer que le nombre a, indice de la puissance selon laquelle le facteur (s-a) entre dans le déterminant, est donné; il sera donc permis de prendre pour òò’ ,  ò’’, … des valeurs entières et positives quelconques (zéro y compris) qui satisfont à la première équation […] on forme  de cette manière une table des particularités que peut présenter un facteur multiple (s-a)a du déterminant […].

[Cayley, 1855c, 313].

·       Le "théorème remarquable" de Cayley.
 

La publication en 1858 du mémoire intitulé « A Memoir on the Theory of Matrices », manifeste une évolution du point de vue de Cayley sur la notion de matrice. La matrice n’est plus, en 1858, une simple notation commode permettant de distinguer un objet comme un système linéaire ou une forme quadratique de son déterminant. Elle fait désormais l’objet d’une « théorie » s’articulant autour de l’énoncé d’un "théorème remarquable" [21]:

I obtain the remarkable theorem that any matrix whatever satisfies an algebraical equation of its own order, the coefficient of the highest power being unity, and those of the other powers functions of the terms of the matrix, the last coefficient being in fact the determinant; the rule for the formation of this equation may be stated in the following condensed form, which will be intelligible after a perusal of the memoir, viz. The determinant formed out of the matrix diminished by the matrix considered as a single quantity involving the matrix unity, will be equal to zero. [Cayley, 1858, 17].

Traduction. F.B.

J’obtiens le théorème remarquable selon lequel toute matrice satisfait une équation algébrique de son propre ordre, le coefficient de la plus grande puissance étant égal à l’unité, ceux des autres puissances étant fonctions des termes de la matrice et le dernier coefficient étant égal au déterminant ; la loi pour la formation de ces équations peut être énoncée sous la forme condensée suivante, qui deviendra intelligible après étude du mémoire :  le déterminant formé par une matrice soustraite à la matrice considéré comme une quantité simple associant la matrice unité, est égal à zéro.

Le mémoire de Cayley sera beaucoup cité et commenté par les mathématiciens travaillant, à la fin du XIXe siècle, sur la théorie des systèmes hypercomplexes. A partir de 1890, il sera  perçu comme un des premiers travaux à l’origine de la théorie des algèbres associatives (encart 8). Pour cette raison, l’historiographie a porté un regard insistant sur les « lois » d’opérations sur les matrices établies par Cayley (encart 12), ces lois ayant souvent été présentées comme une des origines de l'algèbre associative des matrices [22]. Le mémoire de 1858 n’est pourtant pas motivé par une volonté d’abstraction visant à généraliser les opérations de l’arithmétique à des objets hypercomplexes de plusieurs dimensions. Le « théorème remarquable » qui fonde la théorie de Cayley est en effet énoncé pour résoudre un problème mathématique précis, à savoir l’expression des fonctions rationnelles des fonctions homographiques. Dès 1855, Cayley avait remarqué la possibilité d’employer la notation matricielle pour représenter les « fonctions linéaires » intervenant dans la « théorie des figures homographes » :

Mais tout cela [la notation des matrices] s’applique à une autre théorie géométrique, savoir à la théorie des figures homographes. Pour fixer les idées, je ne considère que les figures dans le plan. En supposant que x, y, z soient les coordonnées d’un point, et en prenant pour (X, Y, Z) des fonctions linéaires de (x, y, z) on aura  on aura (X, Y, Z) comme coordonnées d’un point homographe au point (x, y, z). En cherchant les points qui sont homographes chacun à soi même, on est conduit aux équations

X-sx=0, Y-sy=0, Z-sz=0.

Les quantités à gauche X-sx, Y-sy, Z-sz sont des fonctions linéaires de x, y, z ayant pour coefficients des fonctions linéaires de s. On a ainsi une matrice dont les termes sont des fonctions linéaires de s ; la théorie entière se rattache aux propriétés de cette matrice. […] Je reviendrai à cette théorie à une autre occasion. [Cayley, 1855b, 282].

Si l’on compose une fonction homographique par elle même, on obtient ce que l’on peut considérer comme une fonction homographique au carré. Babbage, un prédécesseur de Cayley, s’était déjà préoccupé du problème de l’expression des racines carrées des fonctions homographiques et le véritable objet de la théorie des matrices de 1858 est d’énoncer un théorème supportant une méthode de calcul des fonctions rationnelles des homographies : 

[…] it is nevertheless possible to form the powers (positive or negative, integral or fractional), of a matrix, and hence to arrive at the notion of a rational and integral function, or generally of any algebraical function, of a matrix. I obtain the remarkable theorem that any matrix whatever satisfies an algebraical equation of its own order […]. The theorem shows that every rational and integral function (or indeed every rational function) of a matrix may be considered as a rational and integral function, the degree of which is at most equal to that of the matrix, less unity: it even shows that in a sense, the same is true with respect to any algebraical function whatever of a matrix. [Cayley, 1858, 17].

Traduction F.B.

On peut former les puissances (positives ou negatives, entières ou fractionnaires), d’une matrice et obtenir ainsi la notion de fonction entière, rationnelle, ou plus généralement de fonction algébrique d’une matrice. J’obtiens le théorème remarquable selon lequel toute matrice satisfait une équation algébrique de son propre ordre […]. Le théorème montre que toute fonction rationnelle d’une matrice peut être considérée comme une fonction rationnelle de degré au plus égal à celui de la matrice moins une unité : en un sens, la même chose est vraie pour une fonction algébrique quelconque d’une matrice.

Plutôt que de rechercher  dans la théorie des matrices de Cayley des prémisses de structures algébriques comme les algèbres associatives, le mémoire de 1858 gagne à être mis en perspective des travaux de la génération de mathématiciens qui précède Cayley et Sylvester et que l'on désigne souvent comme l’"école algébrique anglaise" de la première moitié du XIXe siècle [23]. L'objet du mémoire de Cayley, la généralisation de fonctions rationnelles à des expressions symboliques, était en effet une des grandes préoccupations de l'école algébrique anglaise. La traduction du Traité élémentaire de calcul différentiel et intégral  de Lacroix [1802] par Babbage est souvent présentée comme exemplaire des efforts du réseau qui se développe autour d'un groupe d'étudiants de Cambridge pour introduire en Angleterre les méthodes de l’algèbre analytique de Lagrange. Les méthodes de Lagrange et, plus généralement celles du calcul différentiel développé dans la tradition de Leibniz, étaient alors critiquées en Angleterre pour le caractère mécanique de leurs procédures et les paradoxes sur les quantités impossibles qu'elles impliquaient. A ces critiques, les membres du "network" de Cambridge opposaient une philosophie de l’algèbre qui se caractérisait par l’importance donnée aux opérations sur les objets. L’"algèbre symbolique" de Peacock de 1833 établissait une  distinction entre signification et symboles et impliquait une rupture avec "le réalisme mathématique du XVIIIe siècle selon lequel à tout objet mathématique correspond dans la réalité un élément essentiel qui en constitue la légitimité" [Durand-Richard, 1990, 131]. L'historienne Marie-José Durand-Richard a éclairé la spécificité conceptuelle de l'approche symbolique anglaise  par le contexte historique de  l'Angleterre de la révolution industrielle et de la philosophie de Locke [Durand-Richard, 1996].

Sur le modèle du mémoire de Morgan de 1841, On the foundations of Algebra, Cayley explore, dans sa théorie des matrices, des propriétés de procédés symboliques et définit les lois opératoires qui donnent à la matrice-mère des mineurs de Sylvester un comportement similaire à celui des « quantités algébriques ordinaires » (encart 12).  

It will be seen that matrices (attending to those of the same order) comport themselves as single quantities; they may be added, multiplied or compounded together, etc. : the law of addition of matrices is precisely similar to that for the addition of ordinary algebraical quantities ; as regards to their multiplication (or composition) there is the peculiarity that matrices are not in general convertible.  [Cayley, 1858, 17].

Traduction. F.B.

Nous verrons que les matrices (toutes prises du même ordre) se comportent comme des quantités simples : elles peuvent être ajoutées, multipliées ou composées les unes avec les autres : la loi d’addition des matrices est précisément similaire à celle de l’addition des quantités algébriques ordinaires, en ce qui concerne la multiplication (ou la composition) il y une spécificité car les matrices ne sont pas en général échangeables.

L’importance que prennent, dans le mémoire de Cayley, les problèmes de calculs de puissances et racines de matrices renvoie à une préoccupation traditionnelle de l’école anglaise depuis les travaux de Herschell, en 1813, sur la notation des opérateurs différentiels et la propriété fn(f(x)) = fn+1(x).  La partie du mémoire de Cayley consacrée aux "matrices périodiques", et plus généralement aux équations de matrices, n'a pas été commentée par l’historiographie qui s'est concentrée sur la définition des opérations sur les matrices. Il s’agit pourtant là de l’objet même du mémoire de Cayley : montrer que toute fonction rationnelle d’une matrice, en particulier , peut s’exprimer comme une "fonction entière" de degré inférieur à celui de la matrice elle-même. C'est pour résoudre ce problème que  Cayley définit les opérations sur les matrices qui s’avèrent nécessaires pour exprimer   par des fonctions entières.

En 1858, Cayley ne se préoccupe pas du problème des racines caractéristiques multiples qui motivait Sylvester, mais cherche à exprimer des fonctions rationnelles d’homographies. A cette fin, il élabore des pratiques qui reposent sur la nature duale de la notion de matrice à la fois système de nombres et quantité simple. Ces pratiques se manifestent notamment dans la démonstration du théorème remarquable. Partant d’une matrice

M =

 

 Cayley forme le déterminant

.

Le calcul effectif des puissances de M permet de montrer que le développement de ce déterminant,

M2 – (a+d)M1+(ad-bc)M0,

est nul, ce qui démontre le théorème remarquable pour n=2. Mais que signifie ce déterminant où se trouvent ajoutés un symbole-nombre a et un symbole-matrice M ? Pour Cayley, il s’agit du déterminant dont la matrice est

- M

Dans cette écriture la notation M désigne à la fois une quantité multiple et le produit d’une quantité M par la matrice unité. Cayley nomme "single quantity" la matrice du membre de droite résultant du produit d’une quantité m par la matrice unité : 

m

=

Le symbole permet de distinguer la "quantité" de la matrice "single quantity" correspondante :

[…] let the matrix M, considered as a single quantity, be represented by , then writing 1 to denote the matrix unity, .1 will represent the matrix M, considered as a single quantity involving the matrix unity. [Cayley, 1858, 30].

Traduction F.B.

[…] représentons par la matrice M considérée comme “single quantity”, alors, dénotant par 1 la matrice unité, .1 représentera la matrice M, considérée comme une « single quantity » associant la matrice unité.

La notion de «single quantity » associée à la matrice unité permet à Cayley d’énoncer le théorème remarquable sous la forme condensée suivante :

[…] le déterminant formé par une matrice soustraite à la matrice considéré comme une quantité simple associant la matrice unité, est égal à zéro. 

Comme nous allons le voir en suivant la méthode développée par Cayley pour l’étude des matrices périodiques vérifiant M2=1, la notion de « single quantity » supporte une pratique de factorisation d’équations polynomiales dont les coefficients sont interprétés tantôt comme des nombres, tantôt comme des « single quantity », c'est-à-dire des matrices réduites à une diagonales répétant l’occurrence d’un même nombre.

[…]; it will be seen presently that the equation M²=1 admits of other solutions besides M=±1. The example shows how the values of the fractional powers of a matrix are to be investigated. [Cayley, 1858, 485].

L’équation M2=1 admet d’autres solutions que ±1. C’est pour l’étude de cette propriété particulière des équations de matrices que Cayley développe une méthode basée sur l’emploi du théorème remarquable:

But suppose it is required to find a matrix of the order 3,

which shall be periodic of the second order. Writing for shortness

= (-M3-AM²+BM-C),

the matrix here satisfies

M3-AM²+BM-C=0

[Cayley, 1858, 487].

La méthode de Cayley consiste à factoriser l’équation M3-AM²+BM-C=0 par M²-1. Si 1+B=0 et A+C=0, on obtient:

(M²-1)(M+C)=0

Comme le fait remarquer Cayley, on aimerait déduire de cette dernière équation la conclusion M²-1=0 et M²=1. Or, et c’est tout l’objet de la dernière partie du mémoire de Cayley,  on ne peut déduire de l’équation en matrices (M²-1)(M+C)=0, l’équation M²-1=0 que dans le cas où la matrice M+C a un déterminant non nul:

There is an apparent difficulty connected with the equation satisfied by a matrix, which it is proper to explain. Suppose, as before,

so that M satisfies the equation

or

M²-(a+d)M+ad-bc=0

and let X, X’’ be the single quantities, roots of the equation

or

X²-(a+d)X+ad-bc=0.

The equation satisfied by the matrix may be written

(M-X)(M-X’’)=0,

in which X, X’’ are to be considered as respectively involving the matrix unity, and it would at first sight seem that we ought to have one of the simple factors equal to zero; this is obviously not the case, for such equation would signify that the perfectly indeterminate matrix M was equal to a single quantity, considered as involving the matrix unity. The explanation is that each of the simple factors is an indeterminate matrix; in fact […] the determinant of this matrix is equal to zero. the product of the two factors is thus equal to zero without either of the factors being equal to zero. [1858, 485].

Nous voyons la notion de matrice adopter une nouvelle identité dans le mémoire de Cayley en 1858. Une matrice ne se caractérise plus comme la mère des mineurs d’un déterminant mais par les lois d’un calcul symbolique et l’énoncé du théorème remarquable. Comme nous l’avons vu en mentionnant l’héritage de l’école algébrique anglaise, l’identité des matrices de Cayley est indissociable d’un contexte culturel spécifique. Cette identité est également associée à des pratiques spécifiques de factorisations de polynômes de matrices qui reposent sur une conception des matrices comme des quantités tout à la fois simples et multiples. Nous reviendrons sur la spécificité de cette pratique en posant la question, dans la troisième partie de cet article, de son héritage dans les mathématiques de la fin du XIXe siècle.

III. Evolutions de la notion de matrice entre 1850 et 1890.

Entre la publication du mémoire de 1858 et les années 1890, le terme « matrice » disparaît presque entièrement des textes mathématiques. Dans cette même période la notion de « mineur », pourtant introduite simultanément par Sylvester, est adoptée par de nombreux mathématiciens parmi lesquels Hermite, Jordan, Darboux ou encore Poincaré [24]. Des graphes des réseaux de textes comme celui porté en encart 4 montrent le mémoire de Cayley s’éclipser une trentaine d’années avant de réapparaître dans un enchevêtrement de références bibliographiques dans les années 1890. Les auteurs qui emploient la notion de matrice entre 1890 et 1900 citent systématiquement le mémoire publié par Cayley en 1858 comme un texte fondateur célébré pour sa définition d’une algèbre associative des matrices. A ce rôle fondateur attribué au mémoire de 1858, il faut opposer l’absence quasi complète de la notion de matrice durant la trentaine d’années qui suit la publication du mémoire [25]. Comment interpréter cette éclipse dans l’héritage de la théorie des matrices de Cayley ? Comment le texte de Cayley acquiert-il une postérité si forte après des décennies d’indifférence ? Ces deux questions se mêlent en une seule : la notion de matrice de 1890 est elle la même que celle de Cayley de 1858 ? Il faut en fait, entre la définition de 1858 et l’héritage de 1890, reconnaître une double origine historique de la notion de matrice. Aborder cette double origine revient à considérer l'évolution de la notion de matrice dans le temps.

1. Héritages de la théorie des matrices de Cayley dans les travaux de Sylvester de la période 1882-1885

·       Quand Sylvester (1882) lit Cayley (1858) : un problème et sa résolution, le calcul de .

Trente années séparent la première définition de la matrice comme mère des mineurs et sa réapparition dans l'œuvre de Sylvester à l’occasion d’une note aux Comptes Rendus de l’Académie des Sciences datée de février 1882. Il s’agit de résoudre un problème déjà présenté dans une note publiée dans les Comptes Rendus le 9 janvier de la même année et intitulée "Sur les puissances et les racines des substitutions linéaires". Sylvester généralise aux fonctions homographiques d’un nombre quelconque de variables un problème classique,  déterminer une fonction homographique φ de "périodicité donnée" [26], c'est-à-dire déterminer

φ(x)

 telle que

φμ(x)=x.

La méthode de Sylvester consiste à écrire les fonctions puissances et racines de la substitution linéaire associée à φ comme une fonction numérique des "racines lambdaiques" de l’équation det(φ-λI)=0  :

Soit un déterminant quelconque donné, et ajoutons le terme  - λ à chaque terme diagonal ; on obtient ainsi une fonction de λ ;  je nomme les racines de cette fonction racines lambdaiques du déterminant donné […]. i étant une quantité commensurable quelconque, les iemes puissances des racines lambdaïques d’un déterminant de substitution sont identiques avec les racines lambdaïques de ième puissance du déterminant.

[Sylvester, 1882a, 56]

La note de janvier, qui ne fait aucune référence à la notion de matrice, est suivie par la parution, au mois de février, d’une seconde note intitulée "Sur les racines des matrices unitaires" et dans laquelle le problème est reformulé de la manière suivante:

Extraire la racine μième, ou plus généralement trouver la puissance ième d’une matrice donnée. [1882a, 57].

La notion de matrice apparaît en février 1882 afin de corriger une erreur commise par Sylvester dans sa précédente note. La formule donnée pour  exprimer les fonctions de substitutions comme fonctions numériques des "racines lambdaïques" est fausse dans le cas où les "racines lambdaïques" ne sont pas toutes distinctes [27]:

Dans la note de janvier, Sylvester pensait pouvoir traiter l’occurrence de racines multiples par la simple "introduction de différences infinitésimales". La formule obtenue est cependant en contradiction avec un résultat donné par Cayley en 1858 pour la résolution de l’équation M3=1 [Cayley, 1858, 487-488]. Les difficultés rencontrées par Sylvester présentent des similitudes avec celles résolues en 1851 par l’introduction des notions de matrices et de mineurs ; dans les deux cas, la difficulté provient de l’occurrence de racines multiples dans l’équation det(φ-λI)=0. Comme nous l’avons vu dans la partie II,  Sylvester avait montré en 1851 qu’il était nécessaire d’aller au-delà de l’examen du déterminant et de considérer les mineurs de la matrice associée. 

On peut demander quelle est la forme d’une autre matrice M du même ordre n, telle que la ième puissance de M soit une matrice unitaire. […] Je vais à présent donner toutes les solutions dont la question est susceptible. Soient ν1, ν2, ν3,…,νk des nombres entiers et positifs quelconques dont la somme est n, et ρ1, ρ2, …, ρk,  k quelconques des ième racines de l’unité. Soit Mλ la matrice affectée de l’indice λ, c'est-à-dire modifiée par l’addition de –λ à chacun des n termes de la diagonale. Considérons les systèmes de matrices mineurs de M, de l’ordre n-ν1+1, n-ν2+1, …, n-νk+1 respectivement ; et prenons M tel que λ-ρ, λ-ρ2,…, λ-ρk soient facteurs de chaque mineur du premier, du second, …, du ke de ces systèmes respectivement : alors M sera une racine ième de la matrice unitaire de l’ordre n. [1882b, 396].

En cas d’occurrence de racines multiples, la notion de matrice comme génératrice des mineurs permet de donner toutes les solutions et d'accorder le résultat de Sylvester avec le cas particulier traité par Cayley en 1858 :

Ainsi, pourvu que i soit égal ou supérieur à n, il y aura autant de genres de racines ièmes de cette matrice qu’il a de partition indéfinies de n.

[…] En effet, la matrice trouvée par M. Cayley, dans son Mémoire sur les matrices (Philosophical Transactions, 1858),

sera la matrice M, telle que chaque mineur de Mρ contiendra (ρ-1) ; de même chaque mineur de (-M)ρ contiendra ρ+1 ; on remarquera que 1 et -1 sont les racines carrées de l’unité, et l’on vérifiera aisément que ou, ce qui revient au même, Φ(-M)² ont tous les deux la forme

[Sylvester, 1882b, 397].

La réapparition de la notion de matrice en 1882 est donc avant tout le résultat d’une relecture par Sylvester de ses propres travaux de 1851. La référence à Cayley a le même statut que les références à Babbage et Serret, elle vient citer le travail d’un prédécesseur sur le problème du calcul des puissances d’une substitution. Nous avons vu en effet que la motivation initiale de la théorie des matrices de Cayley visait une méthode pour déterminer des fonctions rationnelles de fonctions homographiques, le cas de la racine carrée correspondant à l’exemple le plus classique, associé au nom de Babbage.

Les difficultés de la résolution des équations en matrices, amènent Sylvester à relire le mémoire de Cayley. La lecture par Sylvester du mémoire de 1858 et sa conception de la notion de matrice évoluent radicalement entre 1882 et 1883.

Je terminerai en ajoutant  que j’ai établi une théorie fonctionnelle générale des matrices, et que je ne regarde plus celles-ci comme des schemata d’éléments, mais comme des communautés ou, si l’on veut, comme des quantités complexes. [Sylvester, 1882b, 398].

Alors qu’en février 1882, Sylvester conservait sa définition d’une matrice comme mère des mineurs d’un déterminant, c’est une "théorie des matrices" participant d’une "algèbre multiple" qui est présentée dans un mémoire adressé en 1883 au Philosophical Magazine. Pour Sylvester la "nouvelle méthode" élaborée en 1882 pour extraire la  racine μe d’une substitution donnée, permet d’énoncer un "théorème général" participant d'une théorie "universelle" car provoquant le "rapprochement inattendu" de questions diverses comme les théories des invariants, des systèmes d'équations différentielles, des fonctions homographiques et  des quaternions :

Of the many unexpected results which I have obtained by my new method, not the least striking is the rapprochement which it establishes between the theory of Matrices and that of Invariants. The theory of invariance relative to associated Matrices includes and transcends that relative to algebraical functions.

[…] Babbage's famous investigation of the form of the homographic function of of x, which has a periodicity of any given degree q, is in fact (surprising as such a statement would have appeared to Babbage and Hamilton) one and the same thing as to find the qth root of unity under the form of a quaternion ! [Sylvester 1883a, 111-114].

Traduction. F.B.

Le rapprochement entre la théorie des Matrices et celle des Invariants n’est pas le moins frappant des  résultats inattendus que j’ai obtenu à l’aide de ma nouvelle méthode. La théorie de l’invariance relative aux Matrices associées inclus et transcende celle relative aux fonctions algébriques. Les fameuses recherches de Babbage sur la forme de la fonction homographique de x, de périodicité un degré q donné, reviennent en fait, aussi surprenant que cela pourrait paraître à Babbage ou Hamilton, à la même chose que de trouver la racine qe de l’unité de la forme d’un quaternion !

La "nouvelle méthode" est basée sur l'introduction d'invariants, les "racines lambdaiques" de 1882 rebaptisées "racines latentes", qui permettent de caractériser des fonctions de matrices par des fonctions numériques   :

It will be convenient to introduce here a notion (which play a conspicuous part in my new theory of multiple algebra), namely that of the latent roots of a matrix – latent in a somewhat similar sense as vapour may be said to be latent in water or smoke in a tobacco leaf. If from each term in the diagonal of a given matrix, λ be subtracted, the determinant to the matrix so modified will be a rational integer function of λ; the roots of that function are the latent roots of the matrix, and there results the important theorem that the latent roots of any function of a matrix are respectively the same functions of the latent roots of the matrix itself: for example, the latent roots of the square of a matrix are the square of its latent roots [1883a, 110].

Traduction. F.B.

Il sera commode d’introduire la notion de racine latente d’une matrice – latente en un sens similaire à la vapeur qui peut être dite latente dans l’eau ou à la fumée latente dans une feuille de tabac. Si l’on soustrait λ de chaque terme de la diagonale d’une matrice, le déterminant de la matrice obtenue sera une fonction rationnelle entière de λ ; les racines de cette fonctions sont les racines latentes de la matrices et on obtient le théorème important selon lequel les racines latentes d’une fonction quelconque de matrices sont respectivement les mêmes fonctions des racines latentes de la matrice elle même : par exemple, les racines latentes du carré d’une matrice sont les carrés des racines latentes de la matrice.

Basée sur les résultats publiés dans les Comptes Rendus en 1882, la "seconde loi du mouvement algébrique" de Sylvester exprime toute fonction de matrices, φ(m), comme une fonction des racines latentes de m, φ(λ)  [Sylvester 1883b, 114] :

Sylvester considère désormais une matrice comme "une quantité complexe"  au sens de la "single quantity" de Cayley qui permet, comme nous l’avons vu dans la deuxième partie, de concevoir les symboles λi  tout à la fois comme des nombres (les racines latentes de m) et des matrices (diagonales). L’énoncé de la "seconde loi du mouvement algébrique" nécessite en effet l’introduction du calcul symbolique des matrices, et notamment de la règle d’addition:

This theorem of course presupposes the rule first stated by Prof. Cayley (Phil. Trans. 1857) for the addition of matrices. [1883, 111].

L’application de la loi du mouvement algébrique au calcul des racines de quaternions appuie la revendication d’universalité de la nouvelle théorie, l’"algèbre multiple", à laquelle sera consacrée la publication d’une nouvelle série de notes  aux Comptes Rendus en 1884 :

Qu'il me soit permis, avant de conclure, d'ajouter encore une petite réflexion sur l'importance de la question traitée ici. Elle constitue, pour ainsi dire, un canal qui, comme celui de Panama, sert à unir deux grands océans, celui de la théorie des invariants et celui des quantités complexes ou multiples : dans l'une de ces théories, en effet, on considère l'action des substitutions sur elles-mêmes, et dans l'autre, leur action sur les formes; de plus, on voit que la théorie analytique des quaternions, étant un cas particulier de celle des matrices, cesse d'exister comme une science indépendante; ainsi, de trois branches d'analyse autrefois regardées comme étant indépendantes, en voilà une abolie ou absorbée, et les deux autres réunies en une seule de substitution algébrique. [Sylvester, 1884l].

En cherchant à "absorber" la théorie des quaternions dans celle des matrices, Sylvester est amené à donner un nouveau rôle à la représentation matricielle. Il s’avère en effet nécessaire de représenter par des matrices les "quaternions fondamentaux" et c’est la forme des matrices elle-même qui permet de caractériser les éléments de base d’un système de "grandeurs généralisées". Pour déterminer la forme matricielle des éléments de base, il suffit de résoudre des équations données par les "lois" définissant un système de grandeurs généralisées.

on sait qu'on peut tout à fait (et très avantageusement) changer la base de la théorie des quaternions en considérant les trois symboles i, j, k de Hamilton comme des matrices binaires.

Si h, j sont des matrices binaires qui satisfont à l’équation hj=— jh, on démontre facilement que, en écartant le cas ou hj =jh = 0, A2 et k2 seront de la forme

On peut ajouter, si l'on veut, les deux conditions c2=, y2=; alors, en supprimant, pour plus de brièveté, le uy qui jouit de propriétés tout à fait analogues à celles de l'unité ordinaire, on obtient facilement les équations connues

[…] Une solution, parmi les plus simples des équations ij=-ji ; i²= , j² = , est la suivante :

et conséquemment

où  θ est la racine carrée de -1 . [Sylvester, 1883c, 1337] :

La série de notes publiées aux Comptes Rendus entre 1884 et 1885 a pour objet de définir des "nonions" dont les éléments de base sont définis par des matrices d’ordre 3 :

On peut construire d’une manière tout à fait analogue un système de nonions en considérant l’équation m=ρn, où m, n sont des matrices ternaires et ρ une racine cubique primitive de l’unité [...], en prenant pour les nonions fondamentaux u (l’unité ternaire)

et les huit matrices m, m²; n, n²; m²n; mn; m²n² construites avec les valeurs les plus simples de m, n qui satisfont aux équations

nm= ρmn, m3=u, n3=u.

Les valeurs

m=
et n =

[Sylvester, 1884c, 1337].

La construction des nonions nécessite la résolution d’"équations en matrices" du type nm= ρmn. Ces équations amènent des problématiques nouvelles. Sylvester estime initialement que de telles équations impliquent une relation fonctionnelle entre les matrices m et n. Cette condition n’est cependant pas nécessaire en cas d’occurrence de racines latentes multiples :

Nommons, pour le moment, mn=u, nm=v ; on aura, comme auparavant uv=vu […], on trouvera le moyen d’établir qu’en général cette équation amène à la conclusion que ou u doit être un scalar, c'est-à-dire de la forme

,

ou bien v un scalar, ou sinon que nm, mn doivent être fonctions l’un de l’autre : mais on remarquera (ce qui m’avait échappé) que, si Fu=0 est l’équation identique en u et que la dérivée fonctionnelle F’u est une matrice vide (vacuous), c'est-à-dire dont le déterminant est zéro, le raisonnement est en défaut, cette vacuité a lieu dans le cas, et seulement dans le cas où deux des racines latentes (lambdaïques) de m sont égales. […] Par exemple, si l’on fait

u =
et v=

on trouvera

uv =

Mais on peut démontrer sans difficulté que v ne peut pas s’exprimer comme somme de puissances de u, ni vice versa v comme somme de puissances de u. [1884e, 274].

Sylvester interprète d’abord le cas où les solutions y et x de l’équation xy=yx ne seraient pas liées par une fonction rationnelle comme revenant à l’occurrence de racines latentes multiples. Dans un second temps, Sylvester déplace la question à l’étude de l’équation algébrique dont les racines latentes sont issues :

Avant de considérer l'équation xy=yx, il importe d'avoir une idée nette d'une certaine classe de matrices que je nomme privilégiées ou dérogatoires, en tant qu'elles dérogent à la loi générale que toute matrice est assujettie à satisfaire à une équation identique dont le degré ne peut pas être moindre que l’ordre de la matrice. Les matrices dérogatoires sont justement celles qui satisfont à une équation d'un ordre inférieur à leur ordre propre; on peut les nommer simplement, doublement, triplement, ... dérogatoires, selon que le degré de l'équation identique à laquelle elles satisfont diffère par une, deux, trois, ... unités du degré minimum ordinaire. [1884f, 471].

Le problème est ainsi déplacé de l’occurrence de racines multiples à l'examen des matrices dérogeant à la règle de satisfaire une équation de degré identique à leur ordre [28]. Si les  matrices x et y sont non dérogatoires, la relation xy= yx impliquera l’existence d’une relation fonctionnelle entre x et y même en cas d’occurrence de racines multiples:

En réservant les détails du calcul, voici le résultat général que j'ai démontré rigoureusement (en m'aidant de la notation des nonions) pour les matrices du troisième degré qui satisfont à l'équation xy = yx.

A moins que x ne soit une matrice privilégiée ou dérogatoire, y sera toujours une fonction rationnelle et entière quadratique de x, et de même, à moins que y ne soit privilégiée, x sera une fonction pareille de y.

[…] Il est bon de remarquer que nulle matrice ne peut être dérogatoire, sauf pour le cas où il existe des égalités entres ses racines latentes ; mais ces égalités peuvent parfaitement subsister sans que la matrice à laquelle elles appartiennent soit dérogatoire. […] Il est à peine nécessaire d’ajouter que rien n’empêche, dans le cas où l’un ou l’autre de x et y où tous les deux sont dérogatoires, qu’on puisse satisfaire à xy=yx, en supposant que x et y soient des fonctions explicites chacune l’une de l’autre : tout ce qu’on affirme, c’est que, dans le cas admis, cette supposition cesse d’être obligatoire ; c’est un cas très semblable à ce qui arrive dans le cas de défaut (failing case) du théorème de Maclaurin ; c’est celui où une variable est une fonction sans pouvoir être développée dans une série de puissance d’une autre variable. [1884f, 473].

Les conclusions de Sylvester manifestent une nouvelle lecture du mémoire de Cayley de 1858. C’est désormais le théorème de l’"équation identique" de Cayley qui fait l’intérêt principal de ce qui n’était jusqu’alors qu’une équation permettant de déterminer les racines latentes. A partir de 1884, une matrice devient, chez Sylvester, non seulement une quantité, mais une quantité qui vérifie une équation algébrique, "l’équation identique". La caractérisation des matrices dont l’équation identique est de degré moindre que l’équation caractéristique est l’objet principal des travaux de Sylvester à partir de 1884.

2. La formation des "espèces de matrices" d'Eduard Weyr.

Sur le continent, le premier mathématicien à employer la notion de matrice en référence à Cayley est un géomètre de Prague dénommé Eduard Weyr (quelques éléments biographiques sur Eduard Weyr sont donnés en encart 7).  Les premiers travaux de Weyr  sur les matrices sont inspirés des publications faites par Sylvester dans les Compte Rendus entre 1882 et 1885 et dont il a été question au paragraphe précédent. Dès 1884, Weyr s’inspire de la méthode élaborée par Sylvester pour exprimer des fonctions rationnelles de matrices afin d’étudier la fonction exponentielle « en supposant que les arguments soient des quaternions ». Mais c’est surtout la notion de matrice dérogatoire de Sylvester qui va inspirer les travaux du géomètre de Prague par un rapprochement avec le problème de la caractérisation des substitutions semblables. Dans une note aux Comptes Rendus de 1885, Weyr emploie la notion de matrice dérogatoire de Sylvester afin de "rectifier" la caractérisation des substitutions linéaires énoncée par Riemann en 1857 et basée sur la "décomposition" d'une substitution A en un produit de trois substitutions de la forme :

En cas de racines latentes multiples, la décomposition de Riemann est incorrecte : on ne peut pas, en général, caractériser la substitution A par une substitution semblable de la forme [29]:

Nous avons vu que la notion de matrice avait permis à Sylvester de résoudre les difficultés posées par l’occurrence de racines latentes multiples, d’abord pour le problème des intersections de coniques en 1851 puis pour celui de l’expression des fonctions rationnelles d’une homographie en 1882. En 1885, Eduard Weyr investit les travaux de Sylvester et notamment les notions de « nullité » et de « matrice dérogatoire » pour caractériser les substitutions linéaires en cas de racines multiples :  

Si l’on a

α=α1, β=β1,…, λ=λ1,

ce qui arrive, par exemple, quand les racines latentes sont toutes distinctes, on peut mettre M sous la forme

M = A-1M0A,

M0 étant une matrice dont la diagonale principale contient α termes μα, β termes μβ,…, enfin λ termes μλ et dont les autres termes sont nuls, et A désignant une matrice de nullité zéro; et ce n’est que dans le cas de

α =α1, β = β1,…, λ=λ1,

qu’on peut mettre M sous cette forme. [Weyr, 1885a, 788].

Le problème de la caractérisation d’une substitution linéaire M de racines latente multiple λ se ramène à l’étude de la matrice dérogatoire M-λ dont Eduard Weyr donne une  caractérisation basée sur l’expression de l’équation de degré minimal vérifiée par la matrice M-λ :

On sait que toute matrice de l’ordre n satisfait à une équation de degré n ; c’est l’équation fondamentale de M. Cayley. Il y a cependant des matrices qui satisfont à une équation de degré moindre que n : ce sont les matrices que M. Sylvester nomme dérogatoires. Je suis parvenu à établir un théorème qui jette du jour sur ce sujet, et que je me permets de communiquer à l’Académie.

[…]

M étant une matrice d’ordre n aux racines latentes

μα, μβ, …, μγ

et

α, β, …, λ

 étant des degrés de multiplicité de ces racines, soient

α1, β1, …, λ1

les degrés de nullité des matrices

M-μα, M-μβ,  …, M-μγ;

 alors M satisfait à  l’équation

Les nombres

α1,  β1, …,  λ1

dont chacun est au moins égal à 1, ne peuvent pas surpasser les nombres respectifs

α,  β, …,  λ.

Dans le cas de

α11=…=λ1=1,

 on tombe sur l’équation de M. Cayley. Dans tout autre cas, la matrice M est dérogatoire. [1885a, 788].

Ces considérations sont ensuite appliquées au problème de la caractérisation des substitutions linéaires, formulé comme relevant d'une "répartition des matrices en espèces", et résolu par l’introduction d’un système d’invariants, la « caractéristique » :

Je dis, de deux matrices d’ordre n, qu’elles sont de même espèce si elles possèdent les mêmes racines aux mêmes caractéristiques.

M et N étant deux matrices de même espèce, on peut toujours assigner des matrices Q, de nullité zéro, telles qu’on ait

N=Q-1MQ.

Et, réciproquement, deux matrices M et N, liées par une telle équation, sont de même espèce.

[…] Soient M une matrice quelconque d’ordre n et μα une racine αuple  de M. En formant les puissances de M-μα, on tombe nécessairement sur une puissance (M-μα)ρ qui est de nullité α; les puissances plus élevées sont de la même nullité. […] Désignons par

α1, α12, …,  α12+…+αρ = α

les degrés de nullité des matrices

M-μα, (M-μα)², …, (M-μα)ρ ;

[… ] α1 ≥α2 … ≥ αρ.

Pour abréger, je dis que la racine μα a pour caractéristiques les nombres

(α,  α1, α2, …, αρ).

[Weyr, 1885b, 966].

Deux matrices de même espèce ont même caractéristique. Pour démontrer la réciproque de cette propriété, Weyr articule la forme matricielle à l’invariant qu’est la  caractéristique   :

Les entiers

α, α1, …, αρ ; β, β1, …, βσ , …; λ,  λ1, …, λτ

 ayant été choisis de manière que chacun d’eux soit au moins égal à 1, et que les suites

1, …,αρ), (β1,…,βσ), …, (λ1,…,λτ),

ne soient jamais croissantes, et que, de plus,

α= α1+…+αρ , β= β1+…+βσ, …, λ=λ1+…+λτ,

n=α+β+…+λ,

je dis qu’il existe toujours des matrices d’ordre n, ayant les racines μα, μβ,…,μλ aux caractéristiques respectives

(α, α1,…,αρ), (β, β1,…,βσ), …, (λ, λ1τ),

les valeurs μα, μβ, …, μλ étant arbitraires, mais distinctes entre elles.   [Weyr, 1885, 966].

La démonstration est basée sur la construction par itération d’une matrice d’ordre α ayant une unique racine μα de multiplicité α et de caractéristique (α, α1,…,αρ). En cas d’occurrence de racines multiples, le résultat n’est pas toujours une forme diagonale mais Weyr parvient à une décomposition de la matrice en articulant la décomposition de la forme polynomiale de l’équation minimale à une décomposition en "compartiments" de la forme  de la matrice :

Pour cet effet, désignons par Gρ-1-μα la matrice zéro, et d’ordre αρ,, et posons successivement

Gρ-2 –μα =
, Gρ-3 –μα =
..............,
G1 –μα =
, H–μα =

[…] Les compartiments Aρ-1 , Aρ-2, …, A1 sont formés de la manière suivante :

……………

Dans le cas de αρ= αρ-1, le compartiment Aρ-1 aura la forme d’un carré et ne contiendra pas les lignes remplies entièrement de zéros; les mêmes lignes manqueront dans Aρ-2, si αρ-1 = αρ-2, et ainsi de suite. A l’aide de H on peut former une matrice K d’ordre α+β ayant les racines μα et μβ aux caractéristiques (α, α1,…,αρ), (β, β1,…,βσ). [Weyr, 1885b, 967].

Dans la méthode de "décomposition" des matrices de Weyr, le calcul symbolique et l'extraction de mineurs de la représentation matricielle sont indissociables. Un calcul de puissances de matrices donne une décomposition en compartiments qui reflète la décomposition polynomiale de l’invariant qu'est le polynôme  minimal. Associant des pratiques issues de réseaux différents dont certaines remontent aux années 1850 comme le calcul des matrices de Cayley, Weyr développe une combinatoire sur la représentation matricielle par un processus d’itération du calcul des puissances successives de "compartiments" d’une matrice. Cette approche deviendra, dans les années 1920-1930, la méthode la plus répandue de démonstration du théorème de Jordan de la décomposition matricielle (encart 9) [30].

3. La rencontre de la théorie des formes bilinéaires et de la théorie des matrices.

Entre 1885 et 1890, Eduard Weyr est le premier et le seul mathématicien du continent à employer la représentation matricielle. En 1890, il élabore une synthèse théorique qui mêle les notions auparavant distinctes de formes bilinéaires et de matrices. Le mémoire intitulé "Sur les formes bilinéaires", publié par Weyr dans le premier numéro des Monasberichte für Mathematik und Physik, a pour objet de réorganiser la théorie des formes bilinéaires par la notion « plus abstraite » de matrice :

 L'objectif des considérations qui suivent [... ] est d'introduire un nouveau moyen d’action dans la théorie des formes bilinéaires par la considération de systèmes de valeurs associés à une matrice, cette méthode permet la solution de plusieurs problèmes et, en particulier, du problème de la transformation simultanée de deux formes bilinéaires, résolu par Weierstrass.

[…] Une forme bilinéaire

est parfaitement déterminée par une matrice  du ne ordre {ahk}, c’est à dire par un système de nn coefficients ordonnés en n lignes et n colonnes ;[...] Dans la suite nous considérerons le concept de forme bilinéaire avec celui, plus abstrait, de matrice. [Weyr, 1890, 163, traduction, F.B.].

A la fin du XIXe siècle, la théorie des formes bilinéaires jouait un rôle essentiel dans de nombreuses branches des mathématiques allant de l’arithmétique aux systèmes différentiels en passant par  la théorie des groupes. Le rôle joué par la notion de forme bilinéaire vers 1890 est, pour simplifier, analogue à celui que jouera la notion de matrice après les années 1930. Par exemple, le problème de la résolution des systèmes d’équations différentielles linéaires  était considéré comme appartenant à la théorie des formes bilinéaires, un système du second ordre se représentant sous la forme :

(I)  

où A= Σahkxhyk, B = Σbhkxhyk

Les manipulations des variables par lesquelles on transforme le système différentiel reviennent à transformer le couple de formes (A, B). Le problème central de la théorie des formes bilinéaires est de déterminer, deux couples de formes (A, B) et (A’, B’) étant donnés, si l’on peut transformer l’un en l’autre. Il s’agit donc de caractériser des classes d’équivalences des formes ou des couples de formes. Dans le cadre de la théorie établie par Frobenius en 1878-1879, la transformation linéaire des formes est traitée comme une opération de multiplication portant sur des "systèmes de n2 valeurs".

 Si l'on applique une substitution sur une seule suite de variables d’une forme bilinéaire, on obtient de nouveaux coefficients qui définissent une forme transformée comme si la substitution était une opération entreprise sur la forme elle-même. Il apparaît donc que la distinction entre operandus et opérateur s'efface dans le résultat de la même manière que, dans le cas de la multiplication, multiplicandus et multiplicateurs sont confondus ou encore de la même façon que, dans le calcul des quaternions, les systèmes de coordonnées de l’espace se confondent avec les opérations sur ces systèmes. Ces considérations m’ont conduit traiter la transformation des formes bilinéaires comme une composition de substitutions linéaires. […] Je vais ici multiplier une forme par une constante, additionner deux formes et différentier une forme dont les coefficients dépendent d’un paramètre. Je ne vais cependant pas multiplier deux formes l’une par l’autre. Il ne doit donc pas y avoir d’ambiguïté, lorsque je désigne la forme P qui  met ensemble A et B comme le produit des formes  A et B, qui seront appelées des facteurs de P. […] On dit qu’une forme  B est équivalente à la forme A, quand il existe deux formes P et Q de déterminants non nuls vérifiant l’équation PAQ = B […]. P et Q se nomment les substitutions par lesquelles A se transforme en B. Toutes les formes équivalentes forment une classe de forme. [Frobenius, 1878, 343 ; traduction, F.B.].

Le "produit" de deux formes bilinéaires A et B est une forme ,  P= å . , dont les coefficients "mêlent ensemble" ceux de A et B. Le calcul symbolique permet de représenter les relations arithmétiques d’équivalence des formes, la transformation de la forme A par les substitutions linéaires xa = åpabXb, et ya = åqabYb  s’exprimant comme un produit symbolique  de trois formes P’AQP = åpabxayb et Q = åqabxayb [31].

Exprimés de manière symbolique, le problème de l’équivalence des couples de formes P(rE-A)Q= rE-B, d'une part, et celui de la similitude des substitutions P-1AP=B, d'autre part, sont susceptibles d'une même approche et résolus par la définition d’un système complet d’invariants polynomiaux, les diviseurs élémentaires et facteurs invariants inspirés d’un théorème énoncé par Weierstrass en 1868 (encart 10).

Dans le cadre de travaux menés dans les années 1970-1980 sur l'histoire de la théorie des systèmes hypercomplexes et des algèbres associatives, Karen Parshall et Thomas Hawkins identifiaient la théorie des formes bilinéaires de Frobenius à la théorie des matrices de Cayley. Aux yeux des deux historiens l'utilisation, dans les deux cas, d'un calcul symbolique sur des systèmes de nombres et l'énoncé de deux théorèmes considérés comme identiques (le théorème de Cayley Hamilton) justifiait de considérer le lien entre les notions de matrices et de formes bilinéaires comme non problématique et même préexistant à son énoncé par les mathématiciens. De manière similaire, Jean Dieudonné écrivait en 1977 :

L'étude plus approfondie des matrices, et notamment de leur classification sous divers point de vue, allait se faire par le truchement d'une théorie équivalente, celle des formes bilinéaires. […] Le rôle de législateur qu'avait joué Cauchy pour la théorie des déterminants est tenu par Frobenius pour la théorie des matrices. Dans plusieurs mémoires publiés entre 1877 et 1880, il reprend la plupart des résultats précédents en les développant d'une manière systématique et y ajoutant de nombreux compléments. [Dieudonné, 1977, 97-99].

Or Frobenius, contrairement à ce qui est souvent affirmé, connaissait le mémoire de Cayley en 1878 et c’est sciemment qu’il n’adoptait pas la notion de matrice dans sa théorie des formes bilinéaires [32]. D'une part, avant le mémoire publié par Weyr en 1890, aucune relation n’avait été faite entre les théories de Cayley et de Frobenius, d'autre part, dans les années qui suivront la publication de Weyr, les matrices envahiront les textes mathématiques publiés en Allemagne. Comprendre la nouvelle popularité des matrices sur le continent après 1890 nécessite de suivre une approche complémentaire aux travaux de Thomas Hawkins et Karen Parshall, en s’attachant à étudier l’évolution qu’implique, pour la notion de matrice, sa rencontre avec la théorie des formes bilinéaires. .

Le mémoire publié par Weyr en 1890 est conçu en deux parties, la première développe une théorie du "concept abstrait" de matrice que la seconde "applique" aux problèmes classiques de la théorie des formes bilinéaires de Frobenius comme la  caractérisation des formes semblables et l’équivalence des couples de formes. Par sa rencontre avec la théorie des formes bilinéaires par laquelle, pour reprendre une expression de Sylvester, "une matrice se fait dérober ses dimensions spatiales et représentée comme une somme linéaire", la notion de matrice évolue. Dans la réorganisation de la théorie des formes bilinéaires proposée par Weyr, en 1890, une matrice n’a plus d’existence autonome, elle est  associée à un système de valeurs et à la notion essentielle d’indépendance linéaire des systèmes. Le nombre maximum de systèmes linéairement  indépendants que l’on peut extraire d’un système de n valeurs données est un invariant, dénommé rang r du système en référence aux travaux menés par  Kronecker dans les années 1880 sur la théorie arithmétique des grandeurs algébriques [33]. Le rang est un invariant complémentaire de la nullité de Sylvester, il correspond à l’ordre du plus grand mineur non nul du déterminant |A| et si ν est la nullité de A alors r+ν=n. La nullité d’une matrice M est ν si et seulement si il existe ν systèmes (et pas plus) indépendants (xi) tels que A(xi)=0 [34]. Cette association de la nullité des matrices et de la notion de rang caractérisant les systèmes linéairement indépendants sous tend une pratique algébrique dont Weyr fait un usage constant dans son mémoire de 1890. Elle permet notamment de démontrer que si A est de nullité α, M de nullité μ, alors le produit  P=AM est de nullité ω telle que  ω≥α, ω≥μ et μ+α≥ω. Cette propriété permet d’encadrer la nullité d’un polynôme de matrices décomposé en facteurs linéaires [35], les nullités des puissances d’une matrice forment alors une suite croissante :

 Soit M une  matrice d’ordre n, dont la racine 0 à pour multiplicité α et pour nullité  α1  alors,

L’examen de la suite des puissances des matrices M-μ, apporte un éclairage sur les relations entre la multiplicité d’une racine caractéristique μ, le nombre de solutions de l’équation M(x)=μαx (égal au rang de la matrice M-μα), le  polynôme minimal de M et son polynôme caractéristique:


 Il s’en suit que les expressions des puissances 

M, M², M3,...

s’achèvent à une puissance donnée  Mρ de nullité  α et que toutes les puissances supérieures ont pour nullité α. Désignons par les nombres

α1, α12,  α123, ...,  α12+…αρ = a

les nullités des matrices M, M², M3,..., Mρ, on a alors

α1 ≥α2 ≥α3 ≥....≥αρ >0

Si la racine μα de la matrice M a pour multiplicité  α, alors, d’après l’Art. 15, la matrice  M-μα a pour racine 0 à la multiplicité α. Soit alors

α1, α12, α123,..., α12+…αρ=a

les nullités des matrices  M-μα, (M-μα)², (M-μα)3,..., (M-μα)ρ, on appelle nombres caractéristiques de la racine  μα les nombres  α1, α2, α3, ..., αρ . [...]

Soit α1, α2,...,αρ les nombres caractéristiques de la racine  μα, et de même

β1, β2, ..., βσ ceux de la racine μβ, …,  λ1, λ2,...,λτ ceux de μλ.  Alors  (M-μα)ρ a pour nullité α, (M-μβ)σ a pour nullité β, ..., et enfin (M-μλ)τ a pour nullité  α+β+...+λ. On a donc

(M-μα)ρ (M-μβ)σ ...(M-μλ)τ =0.

et cette équation est l’équation de plus bas degré à coefficients scalaires vérifiée par la matrice M ; elle sera dénommée équation fondamentale de M. [...]

f(M)=0

Il s’agit là de l’équation énoncée par  Cayley et que chaque matrice d’ordre n vérifie ; si M à pour ensemble de racines  μα, μβ, ...,μλ, de multiplicités   α, β, ..., λ, alors le polynôme

f(M) = (-1)n (M-μα)α(M-μβ)β...(M-μλ)λ

a pour diviseur φ(M), et il s’ensuit de (6) que l’équation de Cayley est  identique à l’équation fondamentale d’une matrice si et seulement si

ρ = α, σ = β,…, τ = λ.

[Weyr, 1890, 186-188, traduction, F.B.].

 vérifiant l’équation M(x)=0. Ces systèmes peuvent être complétés en n systèmes indépendants formant une nouvelle matrice {(x’), (x’’),…,(x(n))}. Le produit M{(x’), (x’’),…,(x(n))} est une matrice dont les α1 premières colonnes sont nulles et la matrice

M1 = {(x’), (x’’),…,(x(n))}-1 M{(x’), (x’’),…,(x(n))}

a la forme :

Weyr considère alors successivement les matrices :

 de nullité α1 + null. G

La suite des nullités des puissances de M est donc une suite de nombres entiers croissante et bornée par la multiplicité de la racine caractéristique 0. La méthode d’itération de Weyr permet d’obtenir une décomposition matricielle quelle que soit la multiplicité des racines caractéristiques de la matrice initiale. En s’appuyant sur ses travaux de 1885 sur la « répartition des matrices en espèces », Eduard Weyr va, en 1890, proposer un véritable retournement théorique dans la théorie des formes bilinéaires. La théorie qu’il élabore n’est plus centrée sur des énoncés d’invariants polynomiaux mais met en avant le caractère opératoire de la représentation matricielle afin de la décomposer à des formes canoniques.

Conclusion.

En parcourant, dans les parties II et III de cet article, des textes publiés entre 1850 et 1890 nous avons suivi des évolutions de la notion de matrice dans le temps. Entre sa première définition comme mère des mineurs d'un déterminant par Sylvester en 1851 et la décomposition matricielle de Weyr, les matrices supportent  des significations et des pratiques multiples. Dans les années 1850 les matrices mère des mineurs de Sylvester et les matrices de Cayley étaient des notions distinctes et supportaient les pratiques différentes d’extractions de mineurs d’un déterminant d’une part, de calcul symbolique d’autre part. Elles renvoyaient également à des contextes différents, les matrices de Sylvester étaient attachées au problème de la multiplicité des racines d’une équation obtenue par un calcul déterminant, celles de Cayley visaient l’expression polynomiale de fonctions rationnelles d’homographies dans la tradition des travaux de l’école algébrique anglaise. En suivant le détail des travaux de Sylvester entre 1882 et 1885 nous avons vu la notion de matrice évoluer chez un même auteur. La synthèse théorique de Weyr en 1890, basée sur la rencontre de pratiques matricielles et de la théorie des formes bilinéaires nous a donné un exemple de la manière dont des pratiques, élaborées sur une longue période et dans des contextes divers, se rencontrent en provoquant un enrichissement du champ des significations. Nous pouvons à présent revenir sur la question de l’identité de la notion de matrice posée en introduction. Y a-t-il une ou plusieurs notions de matrice dans l’histoire ? Les matrices de Weyr (1890) et  de Cayley (1890) sont-elles les mêmes ? Ce sont, d'une part, les mêmes selon Weyr lui-même qui, dès le premier paragraphe de son mémoire, attribue la notion de matrice à Cayley.

Les règles du calcul avec les matrices données par Cayley dans son exposé "A memoir on the Theory of Matrices", Philos. Transactions of the R. Society, London 1859, vol 148, s’appliquent directement pour la composition des formes bilinéaires (Frobenius, Ueber lineare Substitutionen und bilineare Formen, Journal für Mathematik. Bd. LXXXIV, §1 sqq) ; [...]. [Weyr, 1890, 163, traduction, F.B.].

Ce sont des notions différentes d'autre part, puisque la référence à Cayley se mêle à la citation d’autres travaux comme ceux de Frobenius (1878), de Kronecker (1884) ou de Sylvester (1884). Le mémoire de Weyr construit une nouvelle identité entre matrices et formes bilinéaires par laquelle la notion de matrice de Cayley, évolue, s’enrichit, change de signification.

Si l’identité de la notion de matrice évolue dans le temps, il faut poser la question des permanences et des héritages. Comment Weyr, par exemple, lit-il en 1890 le mémoire de Cayley de 1858 ? La comparaison du mémoire de Weyr et de celui de Cayley réalisée en encart 12 met en évidence une organisation parallèle des deux textes. La structure des deux mémoires vise la démonstration de ce que Weyr désigne comme le "théorème fondamental de M. Cayley" selon lequel "une matrice satisfait une équation algébrique de son propre ordre". A cette similitude des deux textes, il faut opposer une différence essentielle. Tandis que Cayley définit les matrices comme des "quantités arrangées en forme de carré", la définition de Weyr est basée sur l’écriture d’une "équation symbolique" à la manière de Frobenius. La caractéristique la plus reconnaissable de la matrice de Cayley, sa forme, sa représentation en "carré", ne joue donc aucun rôle dans la présentation du "calcul des matrices" par Weyr. Quelle est alors l’héritage de Cayley ? En quoi la notion de matrice enrichit-elle la théorie des formes bilinéaires en 1890 ?

Il est tout à fait significatif que, dans le mémoire de Weyr, la première représentation d’une matrice par un tableau n’intervienne qu'après une vingtaine de pages comme méthode de résolution d’un problème précis, problème que nous avons abordé dans la troisième partie de cet article et consistant à démontrer que l’invariant qu’est la "caractéristique" détermine  une classe de  matrices semblables [36]. Ce qui est propre à la théorie des matrices de Cayley est aussi l’aspect qui peut paraitre le plus étrange au lecteur contemporain, la notion de "single quantity" ("Scalarmatrizen" chez Weyr) [37]. C’est d'ailleurs avec la définition de la notion de "matrice scalaire" que les analogies géométriques ("diagonales", "triangles", "carrés"), étrangères au calcul symbolique de Frobenius,  apparaissent dans le texte d’Eduard Weyr :

La matrice nulle et la matrice unité sont manifestement des cas particuliers  de ces matrices, dont  les éléments de la diagonale principale possèdent la même valeur a : de telles matrices seront appelées matrices scalaires et désignées par le symbole a. Par conséquent les matrices I et 0 seront désignées par 1 et 0 respectivement. [Weyr, 1890, 165, traduction, F.B.].

Une matrice scalaire est à la fois un nombre a (un scalaire), et une matrice réduite à une diagonale composée de la succession d’une même valeur scalaire. Il s'agit donc d’une quantité à la fois simple et multiple. De cette dualité, Cayley, et Weyr à sa suite, élaborent une méthode généralisant l’écriture polynomiale aux polynômes de matrices du type a0Aν+a1Aν-1+…+aν. Contrairement aux fonctions entières de formes employées par Frobenius dans la théorie des formes bilinéaires, les ai ne sont pas des nombres mais des matrices scalaires qui permettent de factoriser les polynômes de matrices en facteurs linéaires sur le modèle des polynômes de nombres [38]:

Soit à présent A = {ahk} une matrice quelconque [...]. La matrice

a0Aν+a1Aν-1+…+aν,

où  a0, a1,…,aν désignent des matrices scalaires et  ν un nombre entier positif, sera dénommée fonction entière de la matrice A.

Si  α0, α1,...,αν et  x sont des grandeurs complexes,  on a pour tout x l’identité

a0xν+a1xν-1+...+aν = a0(x-ρ1)…(x-ρν),

qui donne, par la considération de la règle de calcul précédente, également la relation

a0Aν+a1Aν-1+...+aν = a0 (A-ρ1)…(A-ρν),

A désigne une matrice quelconque. [Weyr, 1890, 165, traduction, F.B.]

La factorisation des équations de polynômes de matrices en "facteurs  latents" M-μ, que nous avons pu voir à l’œuvre dans la troisième partie chez Sylvester et chez Weyr, étend les méthodes polynomiales aux matrices. En mêlant des pratiques rattachées aux travaux de Sylvester et à la notion de matrice mère des mineurs, les pratiques polynomiales attachées à la « single quantity » de Cayley ainsi que des pratiques développés dans d’autres réseaux par des mathématiciens comme Kronecker et Frobenius, Weyr élabore des procédés opératoires portant sur la représentation matricielle qui permettent une décomposition à des formes canoniques.

Il faut donc reconnaître, parallèlement aux évolutions d’identité de la notion de matrice,  un héritage  dans les pratiques élaborées par les auteurs du réseau que nous avons considéré. Cet héritage renvoie à une spécificité mathématique des pratiques matricielles que nous allons mettre en évidence en comparant les méthodes de Weyr à celles d’un auteur de la même époque mais dont les recherches s’inscrivent dans un réseau différent : Jean Louis Sauvage. En 1890, Sauvage publie, sous le nom de "théorie des diviseurs élémentaires", le premier exposé en français de la théorie des formes bilinéaires de Frobenius. Il explique notamment comment obtenir, à partir de la composition polynomiale [P,Q] = Πi [Pi,Qi] des diviseurs élémentaires du déterminant [P,Q] un couple canonique de formes (P,Q) par une  composition des mineurs [Pi,Qi]. Comme nous le voyons ci-dessous, Sauvage décrit la manière dont les mineurs [Pi,Qi] se "composent" en un même déterminant [P,Q] en articulant la composition polynomiale des diviseurs élémentaires à une composition géométrique en "carrés" et  "rectangles" de la représentation par tableau du déterminant et de ses mineurs  :

40. Cherchons les déterminants d’ordre  de [P,Q]. Chacun d’eux correspond à une succession de  lignes et de  colonnes dans le déterminant principal. Celui-ci peut être représenté schématiquement par la fig. 1 composée :

1° de carrés noirs ayant une diagonale commune avec le carré principal ;

2° de carrés et de rectangles blancs (fig. 1).

Fig.1

Les parties blanches correspondent à des éléments tous nuls du déterminant [P,Q] et les carrés noirs correspondent aux déterminants [Pi, Qi]. Cela posé, si l’on supprime   lignes et  colonnes de [P,Q], on aura un mineur que l’on pourra représenter schématiquement par la fig. 2, analogue à la précédente.

Fig. 2

Mais, dans cette nouvelle figure, il pourra se présenter des rectangles noirs. Supposons que cette circonstance se produise, et, pour fixer les idées, imaginons que la première partie noire soit un rectangle renfermant k lignes et k’ colonnes, et allongé dans le sens horizontal, c’est à dire que l’on a k’>k.

Dans un élément quelconque du déterminant représenté par la fig. 2 entreront forcément un élément non nul de la première ligne, un élément non nul de la seconde ligne…un élément non nul de la kième ligne, et à cause de la forme de la fig. 2, ces éléments devront appartenir à k des k’ premières colonnes. Mais il restera encore k’-k des premières colonnes dans chacune desquelles il faudra prendre un élément, et cet élément, devant être pris en dehors  des k premières lignes, appartiendra à une partie blanche de la fig. 2 et ne pourra être qu’un zéro. Nous en concluons que, dans le développement du mineur considéré, tous les éléments sont nuls et, par suite, que ce mineur lui-même est identiquement nul.

41. Nous sommes donc autorisés à ne considérer que les mineurs de [P,Q] tels que, dans la fig. 2 correspondante, il n’y ait que des carrés noirs. […]. [Sauvage, 1891, 312].

Si la méthode de composition des mineurs de Sauvage peut sembler proche de la décomposition des matrices de Weyr, les deux approches sont en réalité très différentes. Tandis que Sauvage s’appuie sur une analogie entre la forme du tableau et des formes géométriques, Weyr développe un processus d’itération par le calcul des puissances successives de compartiments d’une matrice et ce sont des opérations sur les matrices qui  font émerger les mineurs et les combinent les uns par rapport aux autres. Par opposition à la méthode statique de Sauvage, la combinatoire des matrices a un aspect dynamique spécifique qui met la représentation en mouvement.

A la suite des travaux de Weyr, la notion de matrice gagne une popularité croissante. La pratique polynomiale qu’elle permet sera adoptée pour la théorie des systèmes hypercomplexes par Scheffers (1890), pour la théorie des représentations de groupes par Molien (1893) et pour la théorie des formes bilinéaires par Frobenius lui-même dès 1894. On trouve des matrices dans la plupart des traités publiés en Allemagne au tournant du siècle.  Pourtant, à cette époque, la représentation matricielle n’est que rarement employée et essentiellement pour représenter un déterminant. Les matrices sont notées par des symboles alphabétiques, A, B, etc. et sont surtout employées pour représenter l’identité d’une théorie portant sur des notions distinctes (formes bilinéaires et quadratiques, substitutions linéaires, systèmes différentiels etc). Les traités d'algèbre du début du XXe siècle restent fidèles à la structure théorique de la théorie des formes bilinéaires Frobenius et aux calculs d’invariants. La  popularisation des matrices en Allemagne s'accompagne en fait d’une identification à la théorie des formes bilinéaires. Cette identification se manifeste d'ailleurs, dans l’histoire présentée par les mathématiciens de l'époque, qui voient en Cayley [1858] et Frobenius [1879] deux origines d'une même théorie (encart 7).

La méthode matricielle élaborée par Weyr n’a, dans un premier temps, qu'une postérité très limitée et se heurte à l’existence d’une méthode paradigmatique donnant un caractère primordial aux invariants et un rôle secondaire aux  formes canoniques, s’attachant à la tradition de Frobenius et popularisée par de nombreux traités comme ceux de Muth en Allemagne, Sauvage en France ou encore Bôcher aux Etats-Unis [39]. Pour cette raison, au début du XXe siècle, le développement de méthodes de décompositions à des formes canoniques se fait essentiellement en dehors de la théorie des formes bilinéaires et des matrices. Développer plus avant l’histoire des matrices nécessiterait donc d’entrer dans le détail de l’histoire du théorème de « réduction des substitutions à une forme canonique », énoncé par Jordan en 1870 (encart 13) [40]. Il faudrait également décrire le contexte dans lequel le  "Mémoire sur le calcul fonctionnel distributif" de Pincherle de 1899 met en avant la notion d’opération sur des "espaces" de fonctions analytiques et pose le problème de la décomposition d'une homographie A comme correspondant à la recherche de sous variétés d'un espace vectoriel invariantes par rapport à A (encart 14) [41]. Il faudrait en réalité prendre en compte de nombreux travaux ne concernant pas explicitement les matrices et attachés à des contextes différents les uns des autres. Au tournant du XIXe siècle, à la marge d'une théorie prédominante des invariants, des auteurs comme Autonne, Burnside, Hensel, Jordan, Pincherle, Poincaré, Molien ou Weyr énoncent des théorèmes distincts au sein de réseaux différents et qui seront plus tard perçus comme équivalents au "théorème de Jordan de décomposition matricielle ». L' encart 15 présente quelques uns de ces théorèmes qui sont supportés par des pratiques de décomposition d'une représentation en tableau à des formes "canoniques", "typiques" ou "normales".

Décomposition, recomposition, les méthodes distinctes du calcul des invariants et de la décomposition à des formes canoniques seront reconnues comme complémentaires dans les années 1930 et c’est en les mêlant que se construira la théorie des matrices canoniques que nous avons abordé dans la première partie. Entre 1900 et 1930, de jeunes enseignants chercheurs comme Autonne, de Séguier, Lattès ou Chatelet prêtent aux matrices des vertus pédagogiques qui leur permettent d’exposer leurs recherches les plus récentes dans des traités d’enseignement [42]. Ces préoccupations pédagogiques interrogent directement la recherche sur des questions nouvelles et impulsent le développement de la théorie des matrices canoniques par une dynamique de va-et-vient entre enseignement et recherche qui aboutira à l’élaboration d'une culture mathématique commune donnant un caractère universel à la représentation matricielle. Dans les traités des années trente, des travaux mathématiques distincts dans le passé sont en effet présentés comme participant d’une même théorie sous jacente :

Matric algebra is a mathematical abstraction underlying many seemingly diverse theories. Thus bilinear and quadratic forms, linear associative algebra (hypercomplex systems), linear homogeneous transformations and linear vector functions are various manifestations of matric algebra. Other branches of mathematics as number theory, differential and integral equations, continued fractions, projective geometry etc. make use of certain portions of this subject. Indeed , many of the fundamental properties of matrices were first discovered in the notation of a particular application, and not until much later recognized in their generality. [Mac Duffee, 1933].

Traduction. F.B.

L’algèbre des matrices est une abstraction mathématique qui sous-tend des théories diverses. Les formes bilinéaires et quadratiques, les algèbres linéaires associatives ou systèmes hypercomplexes, les transformations linéaires homogènes et les fonctions linéaires vectorielles sont ainsi différentes manifestations de l’algèbre des matrices. D’autres branches des mathématiques comme la théorie des nombres, les équations différentielles et intégrales, les fractions continues, la géométrie projective etc. font usage de ce sujet. De fait, de nombreuses propriétés fondamentales des matrices ont été d’abord découvertes au sein d’une application particulière, et seulement reconnues bien plus tard dans leur généralité.

Les méthodes matricielles des années trente articulent la décomposition polynomiale des invariants, un calcul symbolique, des outils arithmétiques sur les lignes et les colonnes, des procédés d’itérations propres à la théorie des algèbres associatives et des méthodes vectorielles de décomposition d’un espace en sous espaces stables. Elles réalisent une cristallisation d'idéaux et de pratiques, renvoyant à des contextes variés et qui, sur une longue durée, forgent le caractère opératoire d'une forme de représentation. La théorie des matrices est un élément important du processus d’unification des connaissances mathématiques qui caractérise la période 1900-1930, elle manifeste la construction d’une culture commune à partir de pratiques auparavant distinctes. Comme nous l’avons vu en parcourant des textes s’insérant dans un réseau donné, démêler la tresse que forme la notion contemporaine de matrice est l'occasion de présenter une histoire plurielle de l'algèbre linéaire qui ne se réduit pas à l'émergence de structures mais qui se veut attentive au rôle joué par les pratiques, savoirs et idéaux propres à des réseaux, des communautés.

Bibliographie

AITKEN, A.C. ET TURNBULL, H.W.

1932

An introduction to the theory of Canonical Matrices . Londres.

AUTONNE, L.

1905

Sur les formes mixtes . A.Rey, Lyon/ Gauthier-Villars, Paris.

BENOIT, P. CHEMLA, K. ET RITTER, J (COORD.)

1992

Histoires de fractions, fractions d'histoire, Birkäuser, Boston, Basel.

BÖCHER, M.

1907

Introduction to higher algebra . New York.

BRECHENMACHER, F.

2006a

Histoire du théorème de Jordan de la décomposition matricielle (1870-1930). Thèse de doctorat, Ecole des Hautes Etudes en Sciences sociales. Paris.

Téléchargeable à l’adresse http://fredericbrechenmacher.noosblog.fr/

 

 

2006b

"Regards croisés sur Camille Jordan," Matapli. 78 (juillet 2006), pages 57-67.

 

2007

“A controversy and the writing of a history: the discussion of "small oscillations" (1760-1860) from the standpoint of the controversy between Jordan and Kronecker (1874)”, Proceedings of the BeNeLuxFra conference. Bulletin of the Belgian Mathematical Society . Alberts, G. ; Goldstein, C et Bullynck, M. (eds.). A paraître en 2007. 6 pages.

CAYLEY, A.

1855a

"Sur la Transformation d’une Fonction quadratique en elle-même par des Substitutions linéaires." Crelle50, 288-99.

 

1855b

"Remarque sur la Notation des Fonctions algébriques," Crelle 50, 282-85.

 

1855c

"Recherches sur les matrices dont les termes sont des fonctions linéaires d’une seule indéterminée," Crelle. 50, 313-317.

 

1858

"A Memoir on the Theory of Matrices.' Philosophical Transactions of the Royal Society of London148, 17-37.

CHATELET, A.

1911

"Sur certains ensembles de tableaux et leur application à la théorie des nombres," Ann. Ec. Norm. XXVIII, 105-202.

CORRY, L.

1996

Modern Algebra and the Rise of Mathematical Structures , (Science Networks Vol. 17), Basel and Boston, Birkhäuser Verlag (1996).

CRILLY, T.

1978

"Cayley's anticipation of a generalised Cayley-Hamilton theorem", Historia Mathematica, 5, 211-219.

DHOMBRES, J.

2002

"Réflexions intempestives sur l’enseignement et l’histoire : la composition des fonctions", in Histoire de l’enseignement des mathématiques, Bulletin de l’APMEP, 439, mars-avril 2002, pp. 200-222.

DICKSON, L.E.

1924

"A new theory of linear transformations and pairs of bilinear forms," Proceedings of the international mathematical congress. Toronto, 361-363.

DIEUDONNE, J.

1978

Abrégé d’histoire des mathématiques. Hermann, Paris.

DURAND-RICHARD M.J.

1996

« L'École algébrique anglaise : les conditions conceptuelles et institutionnelles d'un calcul symbolique comme fondement de la connaissance , » in L'Europe mathématique. Mythes, histoires, identités , C. Goldstein, J. Gray & J. Ritter (éds), Paris : Maison des sciences de l'homme, 1996, 445-477.

FROBENIUS, G.

1878

"Ueber lineare Substitutionen und bilineare Formen,'" Crelle, 84, 343-405.

GANTMACHER, F. R.

1959

The theory of matrices. 2 Vol. Chelsea , 1959. Trad. Française Ch. Sarthou, 1966.

GOLDSTEIN, C.

1995

Un théorème de Fermat et ses lecteurs , Saint-Denis : PUV (Histoires de science).

GOLDSTEIN, C., GRAY J. et RITTER, J. (dir.)

1996

L'Europe mathématique : Mythes, histoires, identités -- Mathematical Europe: Myth, History, Identity . - Paris : Editions de la Maison des sciences de l'homme.

GRATTAN-GUINNESS, I. et LEDERMANN, W.

1994

"Matrix theory", in I. Grattan-Guinness, Companion Encyclopedia of the History and Philosophy of Mathematical Sciences. London, 775-786.

HAWKINS, T.

1975

"The theory of Matrices in the 19 th Century." In Proceedings of the International Congress of Mathematicians : Vancouver, 1974, 2; 561-70, n.p. : Canadian Mathematical Congress.

 

1977a

"Another Look at Cayley and the Theory of Matrices", Arch. int. hist. sci., 26, 87-112.

 

1977b

"Weierstrass and the Theory of Matrices", Archive for History of Exact Science, 17, 119-163.

HENSEL, K.

1904

"Theorie der Kö rper von Matrizen", Jl. f. Math., 127 , 116-166.

JORDAN, C.

1870

Traité des substitutions et des équations algébriques. Paris.

KNOBLOCH, E.

1994

"From Gauss to Weierstrass : determinant theory and its historical evaluations, in the intersection of histo ry and mathematics . Basel, 51-66.

KRONECKER, L.

1884

"Addition au mémoire sur les unités complexes," C.R. Ac. Sc. Paris. 99 , 765-771. Werke III, 21-30.

LATTES, S.

1914

"Sur une forme canonique des substitutions linéaires," Ann. Toulouse (3) 6, 1-84.

MACDUFFEE, C.C

1933

The Theory of Matrices , Springer, Berlin.

 

1943

Vectors and Matrices, The Mathematical Association of America, The collegiate Press: Menasha, Wisconsin.

MOLIEN, T.

1893

"Ueber Systeme höherer complexer Zahlen," Math. Ann., 41, 83-156

PARSHALL, K.H.

 

1985

"Joseph H.M. Wedderburn and the Structure Theory of Algebras," Arc. f. Hist. of. Ex. Sci., 32, 223-349.

PINCHERLE, S.
1899

"Mémoire sur le calcul fonctionnel distributif," Math. Annalen, 49, 325-383.

SAUVAGE, L.

1891

"Théorie des diviseurs élémentaires et applications ," Ann. ec. Norm. III8, 285-340.

SCHEFFERS, G.

1891

"Zuruckführung complexer Zahelnsysteme," Math. Ann., 39, 292-390.

SINACEUR, H.

1991

Corps et modèles, Vrin, Paris.

SYLVESTER, J.J.

1850a

“On the intersections, contacts and other correlations of two conics expressed by indeterminate coordinates,” Cambridge and Dublin Mathematical Journal (1850) pp 262-282. Œuvres I.

 

1850b

“ Additions to the articles « On an new class of theorems » and on Pascal theorem,” Philosophical Magazine, XXXVII (1850) pp 363-370.

 

1851a

"Enumeration of the contacts of lines and surfaces of the second order ; on the relation between the minor determinants of linearly equivalent quadratic functions." Phil. Mag.116, 295, 415,1851.

 

1851b

“On the relations between the minor determinants of linearly equivalent quadratic functions. “ Philosophical Magazine, I. (1851) , pp. 295-305.

 

1882a

"Sur les puissances et les racines de substitutions linéaires," C.R. Ac. d. Sci. Paris, 94, 55-59.

 

1882b

"Sur les Racines des Matrices unitaires." C.R. Ac. d. Sci. Paris, 94, 396-99.

 

1883a

"On the equation to the Secular Inequalities in the Planetary Theory." Phil. Mag. 16 (Mars 1883): 2 67-69.

 

1883b

"Sur les quantités formant un groupe de nonions analogues aux quaternions de Hamilton,’ C.R. Ac. d. Sci. Paris, 97, 1336-40.

 

1883c

"Sur les quantités formant un groupe de nonions analogues aux quaternions de Hamilton,’ C.R., 98, 273-76, 471-75.

 

1884a

"Sur les quantités formant un groupe de nonions analogues aux quaternions de Hamilton,’ C.R., 98, 273-76 ; 471-75.

 

1884b

"On the Three Laws of Motion in the World of Universal Algebra." John Hopkins University Circulars, 3 ; 33-34.

 

1884c

"Lectures on principles of universal algebra", American Journal of Mathematics, VI, 270-286.

VAN DER WAERDEN, B.L.

1930

Moderne Algebra . Springer.

 

1977

A history of algebra , Springer.

WEIERSTRASS, K.

1868

"Zur Theorie der quadratischen und bilinearen Formen," M’ber. Akad. der Wiss. Berlin, =Werke 1 (Berlin 1894) 233-246.

WEYR, E.

1884

"Sur la théorie des quaternions," C.R. Ac. d. Sci. Paris, 98, 906-8, 1320-3.

 

1885a

"Sur la théorie des matrices," C.R. Ac. d. Sci. Paris, 100, 787-89.

 

1885b

'"Répartition des matrices en espèces et formation de toutes les espèces," C.R. Ac. d. Sci. Paris, 100, 966-69.

 

1887a

"Notes sur la théorie des quantités complexes formées avec n unités principales". Bull. sci. math.XVI (1887), 205-215.

 

1887b

"Sur la réalisation des systèmes associatifs de quantités complexes à l’aide des matrices," S’ber. d. K. Böhm. Ges.d.Wiss. Prag., 616-8.

 

1890

"Zur Theorie der bilinearen Formen," Monatshefte für Mathematik und Physik, 1. Jahrgang. 161-235 .

 

 



Notes

[1] Cet article est issu de recherches effectuées dans le cadre d’une thèse de doctorat, intitulée Histoire du théorème de Jordan de la décomposition matricielle et menée sous la direction de Jean Dhombres au centre Alexandre Koyré - Ecole des Hautes Etudes en Sciences Sociales [Brechenmacher, 2006]. 

[2] La métaphore de la tresse renvoie plus généralement à une position sur la manière de restituer la dynamique réelle des savoirs par la multiplicité de leurs origines qui revient à ancrer une notion mathématique dans l’histoire en posant la question de son identité. Dans son ouvrage intitulé Un théorème de Fermat et ses lecteurs, Catherine Goldstein a montré la pertinence de la question de l’identité pour décrire des évolutions qui ne relèvent pas simplement d’une activité mathématique de recherche de nouveaux résultats ou de meilleures preuves, l'identité y est présentée : "comme un problème et non comme une tautologie : elle témoigne de pratiques et, à travers elles, de la manière dont est estimée l'innovation" [Goldstein, 1995, 16].

Voir également la réflexion sur la multiplicité des origines des savoirs mathématiques développée par Jean Dhombres [Dhombres, 2002].

[3] L'étude des fluctuations d'élaborations mathématiques sur une longue période présentée dans l'ouvrage collectif sur l’histoire des fractions coordonné par P. Benoit, K. Chemla et J. Ritter [Benoit et al., 1992] et le regard de C. Goldstein sur les relations entre analyse diophantienne et descente infinie [Goldstein, 1993] ont été des sources d'inspiration pour ce travail qui s’inscrit dans une entreprise plus vaste visant une histoire plurielle de l'algèbre linéaire.

[4] Comme l'écrivait Hourya Sinaceur dans son histoire du théorème de Sturm, "pour une histoire réfléchie il est encore plus important que pour un mémento de résultats de revenir, par delà les traditions didactiques, aux mémoires originaux. On y apprend toutes les identités que le "progrès" efface : identité d'un contexte, d'un objectif, d'une perspective, d'un langage, sans parler de tout ce qui reste implicite sans manquer d'être là" [Sinaceur, 1991, 21].

[5] Cette popularité des matrices n'est que temporaire. Après 1940, la prise en compte de la dimension infinie dans la théorie des opérateurs donnera une importance moindre à la représentation matricielle.

[6] C'est-à-dire que l'obtention de la première forme exige de pouvoir extraire les racines d'une équation algébrique générale et donc de se placer dans un corps algébriquement clos. La seconde forme, pour laquelle on utilise aujourd'hui la désignation donnée par Krull de "matrice compagnon", peut s'obtenir pour toute matrice à coefficients dans un anneau principal. En 1874, la simplicité de la première forme canonique et les procédés effectifs attachés à la seconde étaient opposés lors d’une vive querelle entre Camille Jordan et Léopold Kronecker, voir à ce sujet [Brechenmacher, 2006].

[7] Dans  le cadre de travaux historiques portant sur l’émergence de structures algébriques au début du XXe siècle (comme l’algèbre linéaire), l’accent est souvent porté sur le caractère conceptuel de la théorie des matrices. La représentation matricielle des années 1930 n’a bénéficié d’un éclairage historique que pour la distinction qu’elle réalise entre les concepts de matrices et de transformations linéaires, distinction  permettant d’envisager les problèmes de représentations comme relatifs au choix d'une base d’un espace vectoriel.

Voir les passages consacrés à la notion de matrice  par B.L. Van der Waerden [1977],  T. Hawkins, [1975, 1977], J. Dieudonné [1978], K. Parshall [1988],  I. Grattan- Guinness [1994] ou  L. Corry [1996].

[8] Si la représentation matricielle paraît naturelle au mathématicien contemporain, son emploi au sein d’un texte d’histoire n’est pas inoffensif. Lorsque,  par exemple,  Thomas Hawkins [1975, 1977] employait des matrices pour décrire la méthode élaborée par Lagrange en 1766 pour la résolution des systèmes différentiels linéaires, des notions absentes du texte de Lagrange s'introduisaient subrepticement dans le discours historique. La représentation matricielle porte implicitement des idées anachroniques au texte de Lagrange comme l'idée géométrique de "matrice symétrique" ou la pratique consistant à "transformer" la matrice d'un système en une forme diagonale (la méthode de Lagrange n’était pas basée sur une transformation du système linéaire mais sur la méthode générale d'abaissement du degré d'une équation différentielle dont on connaît des solutions particulières).

D’autres exemples des implicites liés à la notation matricielle et une discussion détaillée de leurs implications sur l’historiographie de l’algèbre linéaire sont proposés dans [Brechenmacher, 2006, 280-487].

[9] Au sujet des travaux de Chatelet sur le calcul des tableaux, voir [Brechenmacher, 2006]. D’autres exemples de pratiques comme la combinatoire arithmétique des lignes et des colonnes de Kronecker (1880-1890) ou la décomposition des matrices de Weyr (1890) montrent que les procédés opératoires sur lesquels sera fondée la théories des matrices des années trente ne s’élaborent pas par rapport un questionnement mathématique spécifique mais comme des pratiques développées en réponse à des problèmes divers et dans des cadres théoriques distincts

[10] La base de donnée utilisée regroupe les fonds du réseau national des bibliothèques de mathématiques, les archives de l'Ecole Polytechnique ainsi que des ressources numériques en lignes (Bibliothèque Nationale de France, cellule math. doc., Göttinger Digitalisierungszentrumuniversités de Cornell et du Michigan).

[11] Dans l’ordre chronologique, les quatre publications de Sylvester sont les suivantes : « On the intersections, contacts and other correlations of two conics expressed by indeterminate coordinates » [1850a], “Additions to the articles « On an new class of theorems » and on Pascal theorem”” [1850b], “An enumeration of the contacts of lines and surfaces of the second order” [1851a], “On the relations between the minor determinants of linearly equivalent quadratic functions” [1851b].

[12]  Sylvester emploie des coordonnées homogènes, la conique (projective) U est donc représentée par une forme quadratique à trois variables.

En termes contemporains, si U  et V sont les matrices dans la base canonique de R2 des formes quadratiques définissant les deux coniques, l’équation |U+mV| = 0 revient, si |V| ≠ 0) à |UV-1+μI|=0 c'est-à-dire à une équation caractéristique. La nature du type de contact entre les deux coniques dépend alors de la multiplicité des valeurs propres de la matrice UV-1.

[13] A la fin du XIXe siècle, les mathématiciens G. Darboux puis M. Noether présenteront les travaux Sylvester comme précurseurs de la notion de diviseurs élémentaires de couples de formes bilinéaires introduite par Weierstrass en 1868 (encart 10).

[14] Deux coniques projectives de P2(R), C  et C ‘, se coupent en quatre points, c'est un  cas particulier du théorème de Bézout sur les courbes projectives complexes de degré m et n se coupant en mn points.  

[15] Si l’on suppose C propre et que l’on appelle Q et Q’ les formes quadratiques associées aux deux coniques, l'intersection des coniques C et C'  est celle de C avec n’importe quelle conique du faisceau défini par lQ(x,y,z)+mQ’(x,y,z) = 0. Il s’agit en particulier de l’intersection de C  avec une conique dégénérée C’’du faisceau (paire de droites), la conique C’’ correspondant à des valeurs de l et m telles que 

D(l) = det(lQ(x,y,z)+mQ’(x,y,z)) = 0.

[16] En termes contemporains, la nature du contact de deux coniques est caractérisée par le système d’invariants formé du déterminant D et des plus grands communs diviseurs de ses sous déterminants  D1, D2, D3 ,.. Le type d’intersection de deux coniques étant, comme nous l’avons vu, caractérisé par le type de coniques dégénérées se trouvant dans le faisceau, il dépend de la nature des racines (valeurs propres) de det(lQ+mQ’)=0. La multiplicité de ces racines permet de distinguer entre contacts de premier, second et troisième ordre. Il y a cependant deux types de points de contact pour les second et troisième ordres et, pour les différencier, il est nécessaire d’étudier les pgcd des mineurs successifs du déterminant D(l) de lQ(x,y,z)+mQ’(x,y,z). Ces pgcd Di(l) sont les facteurs invariants de la matrice polynomiale λQ+μQ’.

[17] Observer, dans cette citation, les références à Hermite et Gauss qui permettent de préciser le réseau arithmétique auquel se rattachent les travaux de Sylvester sur les formes quadratiques. A cette époque, Hermite, Cayley et Sylvester, ont une correspondance suivie. Hermite est notamment à l’origine de l’influence des Disquitiones Aritmeticae de Gauss [1801] sur les travaux de mathématiciens anglais comme Sylvester, Cayley et Smith.

[18] Nous reviendrons plus loin sur cette allusion à la supériorité du calcul différentiel de Leibniz sur la notation des fluxions de Newton. Cette remarque de Sylvester manifeste un héritage de l’école algébrique anglaise de la première moitié du XIXe siècle que nous développerons en étudiant les travaux de Cayley sur les matrices.

[19] La proximité entre Arthur Cayley et James Joseph Sylvester est célèbre. La relation entre les deux hommes débute en 1846. Pour Sylvester qu n’a pas produit de résultat mathématique depuis son retour des Etats Unis en 1844, la rencontre avec Cayley semble vécue comme une renaissance : « Cayley, who, though younger than myself is my spiritual progenitor –who first opened my eyes and purged them of dross so that they could see and accept the higher mysteries of our common mathematical faith ».

[20] Ces articles, tous publiés en français dans le Journal de Crelle, sont les suivants :  "Sur la Transformation d’une Fonction quadratique en elle-même par des Substitutions linéaires" [1855a], "Remarque sur le Notation des Fonctions algébriques"  [1855b], "Recherches sur les matrices dont les termes sont des fonctions linéaires d’une seule indéterminée" [1855c].

Cayley donne la table explicite des différentes décompositions d'un déterminant en mineurs pour n<6 et associe la suite obtenue aux coefficients d’un développement en série entière de (1-xn)-1. La méthode de Cayley permet notamment de corriger une erreur de décompte commise par Sylvester pour n=7 et n=8.

[21] Remarquer le terme essentiel de « single quantity involving the matrix unity » utilisé par Cayley et sur lequel nous aurons l’occasion de revenir plus loin.

Nous reviendrons dans la conclusion de l’article sur la dénomination de « théorème de Cayley-Hamilton » donnée entre 1890 et 1900.

[22] C’est plus précisément la définition de l’addition des matrices qui a souvent été considérée comme un pas supplémentaire vers l' « abstraction » d’une théorie des algèbres associatives (la multiplication matricielle s’interprète quant à elle comme la composition des transformations linéaires). Voir les passages consacrés à la notion de matrice  par B.L. Van der Waerden [1977],  T. Hawkins, [1975, 1977], J. Dieudonné [1978], K. Parshall [1988],  I. Grattan- Guinness [1994] ou  L. Corry [1996].

[23] L. Novy [1968, 211-222] a le premier qualifié d’école algébrique anglaise le courant de pensé dont les acteurs principaux sont C. Babbage, G Peacock, D. Gregory, A. de Morgan, W.R. Hamilton et G. Boole.

[24] Hermite semble à l’origine de l’adoption du  terme « mineur » en France. Dans les années 1850, Hermite suit de près les travaux de Cayley et Sylvester sur les invariants et adopte la notion de mineur très rapidement. En Allemagne, les travaux des Anglais suscitent l’intérêt de Riemann qui utilise la notion de matrice de Sylvester en 1857 pour représenter des systèmes d’équations différentielles linéaires et en extraire des mineurs.

[25] Même en Angleterre, la notion de matrice est peu utilisée avant les années 1880-1890, H.J.S. Smith est l’un des seuls mathématiciens à faire référence à la théorie des matrices de Cayley (entre 1861 et 1863).

[26] Ce problème, comme nous l’avons vu, était traité par Cayley en 1858. L’intérêt de Sylvester pour ce problème provient de ses récents travaux, parus dans le Journal de Mathématiques [1881a], sur l’inégalité de Tchebycheff [1852] donnant des bornes aux nombres de nombres premiers π(x)  inférieurs à un nombre donné x :

A1 < π(x)/x/log(x) < A2

où 0,922<A1 <1 et 1<A2 <1,105.

Les calculs de Sylvester nécessitent des systèmes d’équations linéaires dont les solutions reviennent à rechercher les racines d’une fonction homographique. Voir à ce sujet [Parshall, 1985].

[27] Au sujet de la formule de Sylvester, voir l’exposé de Cartan et  Study dans l’Encyclopédie des sciences mathématiques [1908, 438] sur l’expression  des "fonctions analytiques" dont les variables sont hypercomplexes (par exemple les exponentielles de matrices). Voir aussi les traités de théorie des matrices des années 1930 et notamment la formulation donnée au problème par Wedderburn. Il s’agit alors de déterminer un polynôme de matrices et, dans le cas où la matrice x n’a que des valeurs propres simples, des polynômes numériques suffisent à caractériser le polynôme g(x); l’occurrence de racines multiples nécessite l’emploi de la forme de Jordan. Wedderburn expose d’abord le cas particulier d’occurrence d’une seule racine multiple [Wedderburn, 1931, 27]:

Si l’on suppose que la matrice x a une seule racine caractéristique, alors son equation minimale est :

φ(λ)= (λ-λ1)ν,

Posons

η1i = ηi = (x-λ1)I = (x-λ1)ηi-1

alors

η1ν = 0,  xην-1 1ην-1,   xηi = λ1 ηii+1.

[…]g(x) = g11) = g1) + g’(λ11+…+.

Dans le cas général où la fonction caractéristique est

(Σνi = ν, r>1), alors :

[28] En termes contemporains, il s’agit de déterminer le commutant d’un endomorphisme f d’un espace E de dimension finie : c'est-à-dire le sous espace  Γf de E défini par Γf={g de L(E)/ f°g=g°f}. Si f est diagonalisable,  g appartient à Γf si et seulement si chaque sous espace propre Eλ de f  est stable par g.  Les matrices des g sont donc des matrices par blocs de tailles dimEλ et dimΓf = Σ dimEλ². Si de plus les valeurs propres de f sont toutes distinctes, alors Eλ = vect(xλ ) est stable par g de Γf, il existe μλ tel que g(xλ )=μλ xλ. La théorie des polynômes d’interpolations de Lagrange assure l’existence d’un polynôme P tel que P(λi) = μi et  Γf = {P(f)/ P de K[X]}. Le même polynôme peut être obtenu si le polynôme minimal Πf est de degré n.

[29] En termes contemporains, il est nécessaire de recourir à la forme de Jordan ou à la forme canonique rationnelle dont il a été question dans la première partie.

[30] Les recherches de Weyr sont indépendantes de la forme canonique énoncée par Jordan en 1870, sur le rôle de Jordan dans l’histoire du théorème de Jordan de la décomposition matricielle, voir [Brechenmacher, 2006].

En termes contemporains, Weyr introduit la suite des dimensions des sous espaces caractéristiques d’un endomorphisme  sur un espace vectoriel de dimension finie. Soit f L(E) et λ une valeur propre de f, il existe un unique entier naturel r tel que :

{0} = Ker(f-λI)0  inclus dans Ker(f-λI) inclus dans inclus dans Ker (f-λI)r = Ker (f-λI)r+1

[31] La notation P désigne la transposée tP. Sur la pratique algébrique  de Frobenius  voir [Brechenmacher, 2006, 247-271].

[32] Même en Angleterre, la notion de matrice est peu utilisée et son emploi par quelques mathématiciens comme Smith en 1861  est sans commune mesure avec la popularité des matrices dans les années 1890.

[33] Au sujet des travaux arithmétiques de Kronecker, voir [Brechenmacher, 2006].

[34] Ce qu’on appellerait la dimension du noyau d’un opérateur.

[35] Weyr définit d’abord  la suite croissante des nullités des puissances des matrices, puis d’un produit de deux polynômes premiers entre eux de matrices (Weyr démontre que la nullité d’un produit de deux polynômes premiers entre eux est le produit des nullités de chaque terme du produit).

[36] Comme nous l'avons vu, chez Weyr, une matrice applique un "système de valeurs" sur un autre et, si Weyr utilise une notation symbolique (x) pour désigner les matrices, c’est, au-delà de l’influence de Frobenius déjà mentionnée, que la "représentation en carré" de Cayley est relative à la donnée d'un système de valeur et pose donc une difficulté de représentation.

[37] Cette notion est qualifiée d’"étrange" en référence à un article de Tony Crilly [1978] qui souligne toute l’ambiguïté pour les mathématiques contemporaines de l’emploi qu’en fait Cayley.

[38] Lorsque Frobenius recourt à une factorisation, par exemple pour exprimer les diviseurs élémentaires de Weierstrass, cette factorisation concerne le déterminant du polynôme de formes et non le polynôme de formes lui-même.

[39] Le mémoire  de Weyr lui-même fera l'objet d'une communication de Frobenius à l’Académie de Berlin  en 1911 intitulée "Ueber den Rang einer Matrix" et dans laquelle Frobenius réduit la composition des matrices de Weyr à la composition des invariants polynomiaux articulés par  la caractéristique de Segre.

[40] La postérité du théorème énoncé par Jordan en 1870 dans son Traité des Substitutions est tardive et passe par une ellipse : après avoir fait l'objet de nombreuses publications entre 1870 et 1874, la dénomination de "théorème de Jordan" disparaît de la scène mathématique pour réapparaître une trentaine d'année plus tard et finalement s'imposer sur un plan international dans les années 1920-1930. Dans le cadre de la théorie des formes bilinéaires en effet, la place central attribuée aux invariants implique une organisation du savoir mathématiques au sein de laquelle il n'existe pas de théorème de réduction à une forme canonique. La question du rôle respectif des invariants et des formes canoniques et d’ailleurs l’objet d’une vive querelle entre Jordan et Kronecker en 1874. Voir à ce sujet [Brechenmacher, 2006].

[41] La décomposition donnée par Pincherle est, d’un point de vue contemporain équivalente à celle de Weyr ; elle donne une décomposition des variétés associées aux puissances successives de chaque facteurs linéaires (A-z)p. Contrairement aux méthodes basées sur les déterminants la méthode Weyr est valable pour les problèmes d’analyse fonctionnelle qui nécessitent le recours à la dimension infinie. Voir à ce sujet un article publié par Jean Dieudonné en 1946 : "Sur la réduction canonique des couples de matrices", Bull. S.M.F., pp. 130-146.

[42] La période 1900-1930 ne peut être développée plus avant dans cet article. Pour une étude du rôle de Châtelet, Autonne, Lattès etc., consulter [Brechenmacher, 2006, pp. 489-652].