- 10 millions de personnes ...
Si vous apprenez qu’un jour dans une maternité marseillaise sont nés 4 garçons et 8 filles, vous n’en conclurez pas pour autant que la population française pourrait se composer de 21 millions de personnes de sexe masculin et 42 millions de sexe féminin. Douze enfants, ce n’est pas assez pour faire un échantillon, me direz-vous ; certes…mais pas seulement : le principal problème est qu’aucun échantillon ne fournit une valeur exacte mais un encadrement d’une valeur à estimer, ce qui est moins spectaculaire.
Ce très court article provenant apparemment d’une dépêche AFP, paru dans Libération, 30/12/2009 est, si j’ose dire, symptomatique de la manière dont une information relevant de santé publique et donc concernant chacun d’entre nous, se révèle à la réflexion une simple, voire simpliste communication : sous l’aspect d’une spectaculaire annonce pleine de chiffres, (dans le titre d’abord), on va appâter le client. Et deux fois plutôt qu’une…
Or, face à des lecteurs non avertis, avancer des gros chiffres (ou des mots que personne ne connaît : réseaux «Sentinelle»…) est la manifestation d’un pouvoir d’autant plus prégnant que l’on s’adresse, sous protection «scientifique» et donc incontestable, à un public démuni. En matière de santé publique, il convient d’être rigoureux et prudent, chacun dans son rôle et ses attributions; un minimum de connaissances en statistique de la part des médias aurait permis plus généralement de mieux informer une population fragilisée et inquiète depuis l’annonce en avril dernier d’une pandémie grippale à venir.
Libération contribue régulièrement sous sa rubrique « Intox-Désintox », œuvre d’utilité publique, à montrer la nécessité de démasquer le pouvoir se cachant derrière des chiffres et la facilité avec laquelle on peut tromper son monde. C’est leur choix éditorial qui les pousse à privilègier telle ou telle info qu’ils décortiquent avec talent, il y aurait en la matière de quoi remplir tout un quotidien. Chaque jour, des chiffres sont lancés ici et là sans recevoir la contradiction…ou presque.
L’article qui m’a alertée pourrait, même si le sujet est moins grave qu’un autre, entrer dans le cadre intox-désintox: arroseur arrosé ?
Intox :
« …environ un millier de femmes enceintes non-vaccinées contre la grippe A dont 10,6 % présentaient des anticorps témoignant d’une infection par le virus. En admettant que le taux d’infection soit le même pour les 16,2 millions de femmes et hommes de France métropolitaine âgés de 20 à 39 ans, 1 712 000 personnes pourraient avoir été infectées récemment par le virus. Soit cinq fois plus que le nombre estimé des personnes de cet âge ayant rendu visite à leur médecin avec des symptômes de grippe clinique ».
Desintox :
Il s’agit donc de savoir quel est, dans la population, le taux de personnes infectées par le virus à partir du taux mesuré sur un échantillon. Quels enseignements peut-on tirer à partir d’un échantillon ?
Dans l’article, à partir de 10,6 %, et du rapport 1000/16,2 millions, une règle de trois a permis d’obtenir 1 712 000. Pile poil.
La plupart d’entre nous ignorent d’où et comment proviennent toutes ces statistiques dont on nous abreuve. Face au besoin de certitude de chacun d’entre nous, les probabilités, dont l’origine étymologique est paradoxale - probare signifie prouver en latin- nous ramènent à la nécessaire acceptation d’une dose d’incertain et de risque. La démarche statistique, basée sur des probabilités, des modèles probabilistes et une méthodologie rigoureuse, est humble et se contente, on va voir de quelle façon, d’une double incertitude. Ce qui n’est pas incompatible avec rigueur et précision…
En bref d’abord, les principes de base de la démarche statistique, ensuite nous examinerons les documents sources : les collègues qui doivent enseigner l’estimation statistique au lycée savent bien tout cela, mais tous n’ont pas, disons, cette chance !
- Tout d’abord, il faut définir le caractère (ici la séroprévalence du virus) à étudier sur une population donnée à un instant donné.
- Ensuite il faut extraire de cette population un échantillon représentatif ; nous n’entrerons pas ici dans les détails, mais cette étape est déterminante. [1]
- Puis il faut mesurer ce que l’on appelle la fréquence d’échantillon : 10,6% est la fréquence de séroprévalence sur l’échantillon de 1000 femmes enceintes.
- C’est là que l’on est tenté d’extrapoler à la population, ce qui a été fait dans l’article. À tort. Des modèles probabilistes permettent de calculer un encadrement de la fréquence d’échantillon, encadrement appelé fourchette ou intervalle de confiance : une fois un risque maximum posé (souvent 5%), on est « presque sûr », (à 95%, seuil de confiance) que la valeur à mesurer se trouve dans cet encadrement. [2]
- Le risque est fixé par l’organisme qui commande le sondage ; il permet de contrôler l’erreur commise en prenant l’estimation à partir de l’échantillon.
- Quelle est la signification de « la fourchette n’est sûre qu’à 95% » ? Double signification :
- De quoi dépend la précision d’un sondage ?
D’une part, de la taille (l’effectif) de l’échantillon, et non de celle de la population totale si celle-ci est assez grande; contrairement au sens commun, un échantillon de 1000 personnes suffit ; le problème ne vient donc pas de là. [3]
D’autre part la précision dépend du risque, ou ce qui revient au même, du seuil de confiance :
La fourchette grandit, et donc la précision diminue, si le seuil de confiance est plus grand ; à 99%, la fourchette est plus large qu’à 95%; c’est normal, on a moins de risque de se tromper (1%< 5%) si on élargit la zone.
- D’où la double incertitude, paradoxale dès qu’il s’agit de chiffres : à partir d’un taux sur un échantillon, on n’a pas de valeur pour le taux sur la population, mais un encadrement : première incertitude ; cette fourchette n’est même pas sûre à 100% : deuxième incertitude.
Qui coordonne les statistiques sur la pandémie grippale ?
La méthodologie a-t-elle été respectée ?
Martine Quinio-Benamo, Probabilités et statistiques aujourd'hui, Editions L'Harmattan, collection "Sciences et Sociétés", 2009 [4]
Rob Eastaway et Jeremy Wyndham, Pourquoi les bus arrivent-ils toujours par trois ? , Flammarion, 2001 (Ludique)
Ivar Ekeland, Au hasard. la chance, la science et le monde, Editions du Seuil, collection "Science Ouverte", 1991, 200 p.
David Ruelle, Hasard et chaos, Odile Jacob, 1991 (Physique et probabilités)
Gilles Pagès et Claude Bouzitat, En passant par hasard, Vuibert, 1999 (probabilités de tous les jours)
Daniel Schwarz, Le Jeu de la Science et du Hasard, Flammarion, 1994 (histoire des statistiques ; médecine et probabilités)
Ian Stewart, La nature et les nombres, Hachette, 1998
[1] Le choix d’un d’échantillon représentatif : le tirage au sort à l’intérieur d’un échantillon obtenu par la méthode des quotas permet d’éviter les biais ; mais la variabilité demeure, chaque échantillon a sa vie propre, en quelque sorte.
[2] Les modèles probabilistes qui permettent de calculer un encadrement de la fréquence d’échantillon sont basés sur la loi de Gauss, loi de probabilité à la base de la statistique inférentielle, celle qui permet de faire des estimations.
[3] La taille n de l’échantillon est généralement de 1000, 1500 : la précision de l’estimation varie avec l’inverse de la racine carrée de n, c’est-à-dire qu’un sondage, toutes choses égales par ailleurs, effectué sur 400 personnes est deux fois plus précis qu’un sondage fait sur 100 personnes…mais il coûte plus cher !
[4] Mon ouvrage, (pardonnez-moi…) que j’ai écrit surtout pour les enseignants curieux ou en charge d’enseignement des probas-stats, est dans la première partie, une synthèse des lectures (bouquins, articles scientifiques, conférences…) qui m’ont passionnée et qui m’ont donné envie d’en savoir plus et de partager ces savoirs.