CultureMath
- Généralités
- Logique
- Mathématiques discrètes, algorithmique
- Algèbre
- Arithmétique
- Géométrie
- Topologie
- Analyse
- Probabilités
- Statistique
- Analyse numérique
- Interactions des mathématiques
- Mathématiques et physique
- Mathématiques et sciences de la vie
- Mathématiques et économie
- Mathématiques et autres disciplines
- Histoire des mathématiques
- Histoire : généralités
- Histoire : Mésopotamie
- Histoire : Grèce
- Histoire : autres mathématiques anciennes
- Histoire : Europe (jusqu'au dix-huitième siècle)
- Histoire : Europe (à partir du dix-neuvième siècle)
- Didactique, histoire de l'enseignement
- Épistémologie
- Ethnomathématiques
- Thèmes > Statistique ,
Un texte général (sans aspects techniques). Ce texte est le résumé d'un exposé fait par l'auteur devant les élèves du lycée Parc de Vilgenis (Massy) en mars 2004. Les statistiques sont une partie souvent mal connue des mathématiques, alors même qu'elle croise la réalité bien souvent, et ce texte tente d'en montrer les aspects peu connus sans entrer dans les détails.
par
Les statistiques sont souvent considérées par les lycéens (et parfois par leurs professeurs !) comme une branche mineure des mathématiques, voire prises avec dédain pour un ensemble de recettes loin de la rigueur habituelle de cette science. L'objectif de ce texte est de montrer, sans entrer dans les détails que cet a priori est faux
Pourtant, les statistiques se fondent sur des mathématiques très abstraites et sont en plein essor de nos jours, dans des domaines aussi divers que la sociologie, la finance et la médecine. Parmi les applications usuelles des méthodes statistiques, citons en vrac :
-
Introduction
- Déterminer si la canicule a entraîné une réelle surmortalité.
- Fixer le prix des polices d'assurance.
- Détecter ceux qui trichent sur les montants qu'ils déclarent aux services fiscaux.
- Avoir dès 20h (et avant le dépouillement total), le gagnant d'une élection.
- Pouvoir planifier la construction des crèches et écoles, le nombre d'enseignants à recruter au concours.
- Savoir si le climat change... ou pas
Malgré la diversité de ces exemples, une méthodologie générale se dégage.
-
Méthodologie statistique
On cherche souvent à traiter un problème par des méthdes statistiques dans le but de prendre des décisions optimales compte tenu des données partielles que l'on possède. Dans ce cas, d'une manière générale, le travail va s'articuler en trois étapes.
-
Statistique descriptive :
Il s'agit de la collecte et de l'organisation des données, afin de les représenter d'une manière exploitable. Cette partie nécessite peu de méthodes mathématiques poussées (moyennes, écarts-types, répartitions en classes...).
Exemples : recensement, tableaux de l'INSEE, graphiques-camembert, et bien sûr sondages divers...
-
Modélisation :
Une fois collectées, ces données servent à établir un Modèle du problème, c'est à dire choisir un nombre réduit de paramètres permettant de décrire au mieux les données, ainsi que la manière dont elles s'organisent (loi.)
Ici, les fondements mathématiques sont beaucoup plus poussés (probabilités discrètes ou continues, théorie de la mesure...), en effet, il est très facile de construire des modèles incohérents tant l'intuition a tendance à se tromper dans les questions de probabilités !
En particulier, il faut trouver un compromis entre la bonne description et le nombre réduit de paramètres, ce qui n'est pas toujours aisé. les mathématiques nous aident alors à éviter des erreurs fondamentales comme de négliger des données ou d'en surinterpréter d'autres.
Exemples : Nombre d'enfants par femme, courbes de taille et poids... Pour analyser ces données, on considère que de telles données se répartissent suivant une loi discrète.
Autre exemple : les sondages portant sur une question politique considèrent généralement l'appartenance politique du sondé comme un paramètre important, puisqu'il influence sa réponse.
-
Statistique décisionnelle :
C'est l'objectif final ! S'appuyant su les deux étapes précédentes, on veut obtenir des résultats prospectifs afn d'optimiser ses ventes, l'efficacité d'un médicament, établir l'impact d'un phénomène (les téléphones portables sur la santé, par exemple)...
Exemple : à partir d'études expérimentales, on va pouvoir évaluer un nouveau traitement médical (cf. paragraphe suivant).
Il est à constater que pour la majorité du Grand Public, les statistiques s'arrêtent à la première étape, suivant la croyance quasi-institutionnalisée que "les chiffres parlent d'eux-mêmes !".
Pourtant, l'essentiel du travail du statisticien se situe plutôt dans les deuxième et troisième étapes. C'est en effet à ce niveau que s'effectue la réflexion, et l'utilisation de méthodes complexes basées sur des notions mathématiques abstraites.
En particulier, il est capital de comprendre que le résultat d'une étude statististique est une fourchette, et non pas un résultat précis. L'amplitude de cette fourchette est déterminée au cours des étapes 2 et 3, de même que les conditions de validité des résultats annoncés.
Il est finalement dommageable pour tout un chacun que cet aspect soit presque entièrement occulté de la culture scientifique "de base" du citoyen, qui, par conséquent peut être manipulé par des sondages dont on ne donne que le résultat moyen... Et réciproquement, un sondage est donné "vrai à 95%", et l'opinion publique crie au scandale lorsqu'on tombe dans les 5% d'erreurs inévitables !
-
Un exemple : comment évaluer un nouveau traitement médical ?
Dans la question très sensible du traitment des maladies graves, au premier chef desquelles les cancers, les statistiques sont des outils intellectuels pour pouvoir étudier rigoureusement l'évolution globale des malades et l'impact des traitements.
Plusieurs questions naturelles se posent :
-
Comment modélisation les rechutes cancéreuses ?
Pendant 5 ans, on enregistre le moment de la première rechute de n individus dont le cancer a été traité. On groupe les données en 10 paquets, correspondant aux 10 semestres écoulés.
Le nombre de rechutes à la fin du semestre j est modélisé par un nombre pj ∈ [0,1], au sens où l'on considère que chaque individu a (indépendamment de ce qui se passe pour les autres) une probabilité pj d'avoir connu une rechute pendant le semestre j.
-
Comment évaluer un nouveau traitement ?
La modélisation précédente a été obtenue avec les relevés faits sur les traitements actuels.
On prend un groupe de n malades, à qui on propose le nouveau traitement. On mesure les rechutes pendant 5 ans : soit (Nj)1≤j≤10 la suite du nombre de rechutes.
-
Cette suite est-elle ``conforme'' au modèle ?
Le modèle nous donne l'espérance (c'est à dire la moyenne) du nombre de rechutes au semestre j: c'est n.p.j
Mais bien plus, le modèle nous dit comment Nj doit fluctuer autour de la moyenne.
En effet, on ne tombe presque jamais exactement sur la moyenne, mais on s'en approche. Le modèle nous donne, en même temps que la moyenne, la manière dont les observations peuvent dévier d'elle.
-
La statistique ne résout pas tout
En résumé, le principe des tests statistiques est le suivant :
On se donne un modèle avec un paramètre inconnu x, on se fixe deux hypothèses H0 et H1 et on effectue un relevé de données.
H0 est l'hypothèse à laquelle on est subjectivement attaché. Elle est par exemple de la forme "x=xo" Dans l'exemple précédent : pour tout j, p'j=pj
H1 serait ici ``x est différent de xo'' (exemple précéde nt : il existe j pour lequel P'j est différent de Pj ).
Si les données recueillies apparaissent comme peu probables sous le modèle avec l'hypothèse ,H02 alors on rejette H0.
Les problèmes apparaissent lorsque les données ne permettent pas de rejeter H0. Cela veut simplement dire que l'on n'a pas encore infirmé H0. (H0 pourrait être fausse, peut-être faut-il simplement un modèle plus précis pour le voir...)
Cas concret : les antennes de téléphonie mobile ont-elles un impact sur la santé ?
Un premier groupe de statisticiens, mandaté par Orange, Bouygues et SFR, choisit pour H0``Pas d'impact significatif''.
Un second groupe de statisticiens, mandaté par des associations familiales, choisit pour H'0 ``Il existe un impact''.
Imaginons que les données recueillies soient t elles qu'aucune des deux hypothèses H0 et H'0 ne puisse être rejetée. Qu'en conlure ?
Qu'on ne peut pas conclure ! c'est-à-dire qu'on ne peut ni exlure l'existence d'un impact, ni l'affirmer. Mais un glissement sémantique fera que les opérateurs de réseau crieront qu'il n'y a pas de danger, et les associations écriront que la mort nous guette.
On le voit, le choix de H0 est politique, de même que l'interprétation des résultats...
- Vade-mecum Clubs de mathématiques
- Brève 35 : Publimath | 50 ans des IREM
- Les algorithmes gloutons
- Brève 34 : L’intégrale de 1981 à nos jours : deux brochures pour témoigner des réformes | 50 ans des IREM
- Les laboratoires de mathématiques à l'international
- Brève 33 : Promotion d’une perspective historique en classe | 50 ans des IREM
- Brève 32 : Agrandir, réduire | 50 ans des IREM
- Brève 31 : La formation à distance des professeurs d’école | 50 ans des IREM
- Brève 30 : Deux réformes fondamentales de l’enseignement des mathématiques | 50 ans des IREM
- Brève 29 : Interdisciplinarité | 50 ans des IREM