par
Les statistiques sont souvent considérées par les lycéens (et parfois par leurs professeurs !) comme une branche mineure des mathématiques, voire prises avec dédain pour un ensemble de recettes loin de la rigueur habituelle de cette science. L'objectif de ce texte est de montrer, sans entrer dans les détails que cet a priori est faux
Pourtant, les statistiques se fondent sur des mathématiques très abstraites et sont en plein essor de nos jours, dans des domaines aussi divers que la sociologie, la finance et la médecine. Parmi les applications usuelles des méthodes statistiques, citons en vrac :
Malgré la diversité de ces exemples, une méthodologie générale se dégage.
On cherche souvent à traiter un problème par des méthdes statistiques dans le but de prendre des décisions optimales compte tenu des données partielles que l'on possède. Dans ce cas, d'une manière générale, le travail va s'articuler en trois étapes.
Exemple : à partir d'études expérimentales, on va pouvoir évaluer un nouveau traitement médical (cf. paragraphe suivant).
Il est à constater que pour la majorité du Grand Public, les statistiques s'arrêtent à la première étape, suivant la croyance quasi-institutionnalisée que "les chiffres parlent d'eux-mêmes !".
Pourtant, l'essentiel du travail du statisticien se situe plutôt dans les deuxième et troisième étapes. C'est en effet à ce niveau que s'effectue la réflexion, et l'utilisation de méthodes complexes basées sur des notions mathématiques abstraites.
En particulier, il est capital de comprendre que le résultat d'une étude statististique est une fourchette, et non pas un résultat précis. L'amplitude de cette fourchette est déterminée au cours des étapes 2 et 3, de même que les conditions de validité des résultats annoncés.
Il est finalement dommageable pour tout un chacun que cet aspect soit presque entièrement occulté de la culture scientifique "de base" du citoyen, qui, par conséquent peut être manipulé par des sondages dont on ne donne que le résultat moyen... Et réciproquement, un sondage est donné "vrai à 95%", et l'opinion publique crie au scandale lorsqu'on tombe dans les 5% d'erreurs inévitables !
Dans la question très sensible du traitment des maladies graves, au premier chef desquelles les cancers, les statistiques sont des outils intellectuels pour pouvoir étudier rigoureusement l'évolution globale des malades et l'impact des traitements.
Plusieurs questions naturelles se posent :
Pendant 5 ans, on enregistre le moment de la première rechute de n individus dont le cancer a été traité. On groupe les données en 10 paquets, correspondant aux 10 semestres écoulés.
Le nombre de rechutes à la fin du semestre j est modélisé par un nombre pj ∈ [0,1], au sens où l'on considère que chaque individu a (indépendamment de ce qui se passe pour les autres) une probabilité pj d'avoir connu une rechute pendant le semestre j.
La modélisation précédente a été obtenue avec les relevés faits sur les traitements actuels.
On prend un groupe de n malades, à qui on propose le nouveau traitement. On mesure les rechutes pendant 5 ans : soit (Nj)1≤j≤10 la suite du nombre de rechutes.
Le modèle nous donne l'espérance (c'est à dire la moyenne) du nombre de rechutes au semestre j: c'est n.p.j
Mais bien plus, le modèle nous dit comment Nj doit fluctuer autour de la moyenne.
En effet, on ne tombe presque jamais exactement sur la moyenne, mais on s'en approche. Le modèle nous donne, en même temps que la moyenne, la manière dont les observations peuvent dévier d'elle.
En résumé, le principe des tests statistiques est le suivant :
On se donne un modèle avec un paramètre inconnu x, on se fixe deux hypothèses H0 et H1 et on effectue un relevé de données.
H0 est l'hypothèse à laquelle on est subjectivement attaché. Elle est par exemple de la forme "x=xo" Dans l'exemple précédent : pour tout j, p'j=pj
H1 serait ici ``x est différent de xo'' (exemple précéde nt : il existe j pour lequel P'j est différent de Pj ).
Si les données recueillies apparaissent comme peu probables sous le modèle avec l'hypothèse ,H02 alors on rejette H0.
Les problèmes apparaissent lorsque les données ne permettent pas de rejeter H0. Cela veut simplement dire que l'on n'a pas encore infirmé H0. (H0 pourrait être fausse, peut-être faut-il simplement un modèle plus précis pour le voir...)
Cas concret : les antennes de téléphonie mobile ont-elles un impact sur la santé ?
Un premier groupe de statisticiens, mandaté par Orange, Bouygues et SFR, choisit pour H0``Pas d'impact significatif''.
Un second groupe de statisticiens, mandaté par des associations familiales, choisit pour H'0 ``Il existe un impact''.
Imaginons que les données recueillies soient t elles qu'aucune des deux hypothèses H0 et H'0 ne puisse être rejetée. Qu'en conlure ?
Qu'on ne peut pas conclure ! c'est-à-dire qu'on ne peut ni exlure l'existence d'un impact, ni l'affirmer. Mais un glissement sémantique fera que les opérateurs de réseau crieront qu'il n'y a pas de danger, et les associations écriront que la mort nous guette.
On le voit, le choix de H0 est politique, de même que l'interprétation des résultats...