La démarche statistique à l'épreuve de la pandémie grippale
Martine Quinio-Benamo
Professeur agrégée de mathématiques à l'Université Paul Cézanne, Aix-Marseille III - email
Article déposé le 19/02/2010. Toute
reproduction
pour publication ou à des
fins commerciales, de la totalité ou d'une partie de
l'article, est interdite. Toute
reproduction à des fins strictement
pédagogiques dans le cadre limité d'une
formation, de la totalité ou
d'une partie de l'article, est autorisée sous
réserve d'un accord
préalable de l'éditeur
(ENS Ulm) et de la mention
explicite des références éditoriales
de l'article.
« La grippe A aurait touché sans symptômes 10 millions de personnes .
Des millions de
personnes pourraient avoir été infectées par le
virus de la grippe A (H1N1) en présentant peu ou pas de
symptômes, selon une étude de l’Unité des
virus émergents (UVE) de l’université
Aix-Marseille. Les chercheurs ont suivi l’état
sérologique d’environ un millier de femmes enceintes non
vaccinées contre la grippe A lors de leur bilan initial de
grossesse. Ils ont pu ainsi établir que 10,6 %
présentaient des anticorps témoignant d’une
infection par le virus. En admettant que le taux d’infection soit
le même pour les 16,2 millions de femmes et hommes de France
métropolitaine âgés de 20 à 39 ans, 1 712
000 personnes pourraient avoir été infectées
récemment par le virus. Soit cinq fois plus que le nombre
estimé des personnes de cet âge ayant rendu visite
à leur médecin avec des symptômes de grippe
clinique. Selon le réseau Sentinelle, qui tient compte des gens
souffrant de fièvres supérieures à 39 °C avec
signes respiratoires, 2,7 millions ont consulté en quinze
semaines pour la grippe en France. S’il y a bien cinq fois plus
de cas d’infection que d’individus ayant consulté,
on peut donc estimer que 13 millions de personnes auraient
été atteintes par le virus, avec ou sans symptômes
»
(Libération, 30/12/2009)
Règle de trois ...
Si
vous apprenez qu’un jour dans une maternité marseillaise
sont nés 4 garçons et 8 filles, vous n’en conclurez
pas pour autant que la population française pourrait se composer
de 21 millions de personnes de sexe masculin et 42 millions de sexe
féminin. Douze enfants, ce n’est pas assez pour faire un
échantillon, me direz-vous ; certes…mais pas seulement :
le principal problème est qu’aucun échantillon ne
fournit une valeur exacte mais un encadrement d’une valeur
à estimer, ce qui est moins spectaculaire.
Ce très court
article provenant apparemment d’une dépêche AFP,
paru dans Libération, 30/12/2009 est, si j’ose dire,
symptomatique de la manière dont une information relevant de
santé publique et donc concernant chacun d’entre nous, se
révèle à la réflexion une simple,
voire simpliste communication : sous l’aspect d’une
spectaculaire annonce pleine de chiffres, (dans le titre
d’abord), on va appâter le client. Et deux fois
plutôt qu’une…
Or, face à des
lecteurs non avertis, avancer des gros chiffres (ou des mots que
personne ne connaît : réseaux
«Sentinelle»…) est la manifestation d’un
pouvoir d’autant
plus prégnant que l’on s’adresse, sous protection
«scientifique» et donc incontestable, à un public
démuni. En matière de santé publique, il convient
d’être rigoureux et prudent, chacun dans son rôle et
ses attributions; un minimum de connaissances en statistique de la part
des médias aurait permis plus généralement de
mieux informer une population fragilisée et inquiète
depuis l’annonce en avril dernier d’une pandémie
grippale à venir.
Libération contribue régulièrement sous sa
rubrique « Intox-Désintox », œuvre
d’utilité publique, à montrer la
nécessité de démasquer le pouvoir se cachant
derrière des chiffres et la facilité avec laquelle
on peut tromper son monde. C’est leur choix éditorial qui
les pousse à privilègier telle ou telle info qu’ils
décortiquent avec talent, il y aurait en la matière de
quoi remplir tout un quotidien. Chaque jour, des chiffres sont
lancés ici et là sans recevoir la contradiction…ou
presque.
L’article qui
m’a alertée pourrait, même si le sujet est moins
grave qu’un autre, entrer dans le cadre intox-désintox:
arroseur arrosé ?
Intox :
« …environ
un millier de femmes enceintes non-vaccinées contre la grippe A
dont 10,6 % présentaient des anticorps témoignant
d’une infection par le virus. En admettant que le taux
d’infection soit le même pour les 16,2 millions de femmes
et hommes de France métropolitaine âgés de 20
à 39 ans, 1 712 000 personnes pourraient avoir été
infectées récemment par le virus. Soit cinq fois plus que
le nombre estimé des personnes de cet âge ayant rendu
visite à leur médecin avec des symptômes de grippe
clinique ».
Desintox :
Il s’agit donc de savoir quel
est, dans la population, le taux de personnes infectées par le
virus à partir du taux mesuré sur un échantillon.
Quels enseignements peut-on tirer à partir d’un
échantillon ?
Dans l’article, à
partir de 10,6 %, et du rapport 1000/16,2 millions, une règle de
trois a permis d’obtenir 1 712 000. Pile poil.
La plupart
d’entre nous ignorent d’où et comment proviennent
toutes ces statistiques dont on nous abreuve. Face au besoin de
certitude de chacun d’entre nous, les probabilités, dont
l’origine étymologique est paradoxale - probare signifie
prouver en latin- nous ramènent à la nécessaire
acceptation d’une dose d’incertain et de risque. La
démarche statistique, basée sur des probabilités,
des modèles probabilistes et une méthodologie rigoureuse,
est humble et se contente, on va voir de quelle façon,
d’une double incertitude. Ce qui n’est pas incompatible
avec rigueur et précision…
En bref d’abord,
les principes de base de la démarche statistique, ensuite
nous examinerons les documents sources : les collègues qui
doivent enseigner l’estimation statistique au lycée savent
bien tout cela, mais tous n’ont pas, disons, cette chance !
Remettons les choses dans l’ordre
- Tout d’abord, il faut
définir le caractère (ici la séroprévalence
du virus) à étudier sur une population donnée
à un instant donné.
- Ensuite il faut extraire de cette
population un échantillon représentatif ; nous
n’entrerons pas ici dans les détails, mais cette
étape est déterminante. [1]
- Puis il faut mesurer ce que
l’on appelle la fréquence d’échantillon :
10,6% est la fréquence de séroprévalence sur
l’échantillon de 1000 femmes enceintes.
- C’est là que
l’on est tenté d’extrapoler à la population,
ce qui a été fait dans l’article. À tort.
Des modèles probabilistes permettent de calculer un
encadrement de la fréquence d’échantillon,
encadrement appelé fourchette ou intervalle de confiance : une
fois un risque maximum posé (souvent 5%), on est « presque
sûr », (à 95%, seuil de confiance) que la valeur
à mesurer se trouve dans cet encadrement. [2]
- Le risque est fixé par
l’organisme qui commande le sondage ; il permet de
contrôler l’erreur commise en prenant l’estimation
à partir de l’échantillon.
- Quelle est la signification de
« la fourchette n’est sûre qu’à 95%
» ? Double signification :
-- À l’aide d’un seul échantillon, elle
permet de donner un encadrement de la « vraie » valeur sur
la population totale.
-- Si on répète ces sondages un très grand nombre
de fois, la fréquence sort de cette fourchette en moyenne dans
5% des échantillons.
- De quoi dépend la précision d’un sondage ?
D’une part, de la
taille (l’effectif) de l’échantillon, et non de
celle de la population totale si celle-ci est assez grande;
contrairement au sens commun, un échantillon de 1000 personnes
suffit ; le problème ne vient donc pas de là. [3]
D’autre part la précision dépend du risque, ou ce qui revient au même, du seuil de confiance :
La fourchette grandit, et donc la
précision diminue, si le seuil de confiance est plus grand ;
à 99%, la fourchette est plus large qu’à 95%;
c’est normal, on a moins de risque de se tromper (1%< 5%) si
on élargit la zone.
- D’où la double
incertitude, paradoxale dès qu’il s’agit de chiffres
: à partir d’un taux sur un échantillon, on
n’a pas de valeur pour le taux sur la population, mais un
encadrement : première incertitude ; cette fourchette
n’est même pas sûre à 100% : deuxième
incertitude.
Qui coordonne les statistiques sur la pandémie grippale ?
La méthodologie a-t-elle été respectée ?
Petite enquête sur le Web
L’information
source provient de l’Institut de Veille sanitaire (In VS) http://www.invs.sante.fr/surveillance/grippe/ qui elle-même a reçu
l’information du laboratoire Unité des Virus Emergents,
Université Aix Marseille. L’In VS qui coordonne la
surveillance de la grippe en France, assure la veille internationale de
la pandémie et publie un bulletin hebdomadaire.
Cet institut utilise plusieurs
réseaux : la médecine de ville est
représentée par le réseau Sentinelle, qui est
constitué de médecins généralistes
volontaires qui signalent les cas de grippe, en incidence ou en taux
d’incidence. Le réseau GROG
(Groupes Régionaux d’Observation de la Grippe) regroupe
des médecins généralistes qui signalent le nombre
de patients consultant pour des infections respiratoires aigues.
(IRA…) D’autres réseaux travaillent dans le
même sens : associations comme SOS médecins, le
réseau OSCOUR (Organisation de la Surveillance Coordonnée
des Urgences) etc. Le poids des mots, le choix des sigles, le
concepteur ne manque pas d’humour…
Depuis septembre 2009, ces
données sont transmises à des statisticiens qui les
comparent à celles des années
précédentes (sans grippe A) et publient à la fois
des données chiffrées (nombre de décès, de
cas graves...) et des estimations.
Dans le bulletin du 15 décembre de l’In VS on trouve une « Étude de la séroprévalence du virus A (H1N1) chez la femme enceinte ».
Il est bien question d’un
échantillon d’un millier de femmes enceintes
observées dans les semaines 48-49 parmi lesquelles 10,6%
présentent le virus A (H1N1) sans symptôme ; il
s’ensuit une estimation calculée et publiée : « Entre 1 112 700 et 2 311 300 personnes ».
Voilà la fourchette pour
l’estimation du nombre d’hommes et femmes de 20-39 ans sur
16.2 millions ayant été infectées au moins 15
jours avant le prélèvement pour les mêmes
semaines. Et non 1712000 ! La fourchette ne donne, à mon sens,
pas du tout la même information…et ne produit pas le
même effet non plus.
Dans ce bulletin, on peut lire ensuite :
« Il n’est pas
possible, à partir de ces données, d’estimer le
nombre de personnes ayant été infectées dans les
tranches d’âge autres que 20-39 ans, de par les
différences attendues de séroprévalence en
fonction de l’âge. »
Le document est accompagné
de graphiques, la fourchette a bien été calculée,
le seuil de confiance (95%) mentionné, conformément
à la méthode exposée.
Il est à noter que
l’intervalle de confiance ainsi obtenu doit théoriquement
servir d’estimation pour une population dont
l’échantillon est représentatif : c’est
là que nous comprenons que du choix du modèle va
dépendre l’interprétation des chiffres. Il est
clair par exemple que le caractère « femme enceinte
» n’est pas pris en compte dans l’extrapolation, ni
même le caractère femme tout court !
Pour les amateurs, au seuil de confiance 99%, on a l’encadrement 926 000 - 2 500 000, plus large donc.
Errare humanum est, perseverare diabolicum dans la deuxième partie de l’article :
« Selon
le réseau Sentinelles, qui tient compte des gens souffrant de
fièvres supérieures à 39 °C avec signes
respiratoires, 2,7 millions ont consulté en quinze semaines pour
la grippe en France. S’il y a bien cinq fois plus de cas
d’infection que d’individus ayant consulté, on peut
donc estimer que 13 millions de personnes auraient été
atteintes par le virus, avec ou sans symptômes »
Une bonne vieille
règle de trois…et au final, une valeur fantaisiste (13
millions) même pas conforme à celle annoncée dans
le titre de l’article !
Pour conclure
et relativiser les choses, disons que cet article nous a servi de
prétexte pour rappeler des principes simples de la
démarche statistique qui intervient dans tant de domaines
aujourd’hui qu’il vaut mieux ne pas l’ignorer; se
méfier de certitude apparente en matière de
chiffres… certes, pour recenser toute la population
française Vauban avait multiplié par un coefficient k le
nombre de personnes comptées dans un village. On lui pardonne sa
méprise bien antérieure aux méthodes
d’estimation modernes!
Le risque zéro,
ici comme ailleurs, n’existe pas, mais la statistique permet de
donner des informations avec un risque d’erreur
maîtrisé. Avec mes étudiants, je me donne comme
objectif qu’ils soient capables d’analyser un article, une
information chiffrée. La vérité est complexe, mais
tout citoyen est digne de s’en approcher.
Bibliographie (annotée par l'auteur)
Martine Quinio-Benamo, Probabilités et statistiques aujourd'hui, Editions L'Harmattan, collection "Sciences et Sociétés", 2009 [4]
Rob Eastaway et Jeremy Wyndham, Pourquoi les bus arrivent-ils toujours par trois ? , Flammarion, 2001 (Ludique)
Ivar Ekeland, Au hasard. la chance, la science et le monde, Editions du Seuil, collection "Science Ouverte", 1991, 200 p.
David Ruelle, Hasard et chaos, Odile Jacob, 1991 (Physique et probabilités)
Gilles Pagès et Claude Bouzitat, En passant par hasard, Vuibert, 1999 (probabilités de tous les jours)
Daniel Schwarz, Le Jeu de la
Science et du Hasard,Flammarion, 1994 (histoire des
statistiques ; médecine et probabilités)
Ian Stewart, La nature et les nombres, Hachette, 1998
Notes
[1]
Le choix d’un d’échantillon représentatif :
le tirage au sort à l’intérieur d’un
échantillon obtenu par la méthode des quotas permet
d’éviter les biais ; mais la variabilité
demeure, chaque échantillon a sa vie propre, en quelque sorte.
[2]
Les modèles probabilistes qui permettent de calculer un
encadrement de la fréquence d’échantillon sont
basés sur la loi de Gauss, loi de probabilité à la
base de la statistique inférentielle, celle qui permet de faire
des estimations.
[3]
La taille n de l’échantillon est
généralement de 1000, 1500 : la précision de
l’estimation varie avec l’inverse de la racine
carrée de n, c’est-à-dire qu’un sondage,
toutes choses égales par ailleurs, effectué sur 400
personnes est deux fois plus précis qu’un sondage fait sur
100 personnes…mais il coûte plus cher !
[4] Mon ouvrage,
(pardonnez-moi…) que j’ai écrit surtout pour les
enseignants curieux ou en charge d’enseignement des probas-stats,
est dans la première partie, une synthèse des lectures
(bouquins, articles scientifiques, conférences…) qui
m’ont passionnée et qui m’ont donné envie
d’en savoir plus et de partager ces savoirs.