La démarche statistique à l'épreuve de la pandémie grippale

Martine Quinio-Benamo, Professeur agrégée de mathématiques à l'Université Paul Cézanne, Aix-Marseille III - email

Article déposé le 19/02/2010. Editeur : Eric Vandendriessche. Toute reproduction pour publication ou à des fins commerciales, de la totalité ou d'une partie de l'article, est interdite. Toute reproduction à des fins strictement pédagogiques dans le cadre limité d'une formation, de la totalité ou d'une partie de l'article, est autorisée sous réserve d'un accord préalable de l'éditeur (ENS Ulm) et de la mention explicite des références éditoriales de l'article.

SOMMAIRE

- 10 millions de personnes ...

- Règle de trois ...

- Remettons les choses en ordre

- Petite enquête sur le Web

- Pour conclure

Bibliographie

« La grippe A aurait touché sans symptômes 10 millions de personnes .
Des millions de personnes pourraient avoir été infectées par le virus de la grippe A (H1N1) en présentant peu ou pas de symptômes, selon une étude de l’Unité des virus émergents (UVE) de l’université Aix-Marseille. Les chercheurs ont suivi l’état sérologique d’environ un millier de femmes enceintes non vaccinées contre la grippe A lors de leur bilan initial de grossesse. Ils ont pu ainsi établir que 10,6 % présentaient des anticorps témoignant d’une infection par le virus. En admettant que le taux d’infection soit le même pour les 16,2 millions de femmes et hommes de France métropolitaine âgés de 20 à 39 ans, 1 712 000 personnes pourraient avoir été infectées récemment par le virus. Soit cinq fois plus que le nombre estimé des personnes de cet âge ayant rendu visite à leur médecin avec des symptômes de grippe clinique. Selon le réseau Sentinelle, qui tient compte des gens souffrant de fièvres supérieures à 39 °C avec signes respiratoires, 2,7 millions ont consulté en quinze semaines pour la grippe en France. S’il y a bien cinq fois plus de cas d’infection que d’individus ayant consulté, on peut donc estimer que 13 millions de personnes auraient été atteintes par le virus, avec ou sans symptômes »
(Libération, 30/12/2009)

Règle de trois ..

Si vous apprenez qu’un jour dans une maternité marseillaise sont nés 4 garçons et 8 filles, vous n’en conclurez pas pour autant que la population française pourrait se composer de 21 millions de personnes de sexe masculin et 42 millions de sexe féminin. Douze enfants, ce n’est pas assez pour faire un échantillon, me direz-vous ; certes…mais pas seulement : le principal problème est qu’aucun échantillon ne fournit une valeur exacte mais un encadrement d’une valeur à estimer, ce qui est moins spectaculaire.

Ce très court article provenant apparemment d’une dépêche AFP, paru dans Libération, 30/12/2009 est, si j’ose dire, symptomatique de la manière dont une information relevant de santé publique et donc concernant chacun d’entre nous, se révèle à la réflexion une simple, voire simpliste communication : sous l’aspect d’une spectaculaire annonce pleine de chiffres, (dans le titre d’abord), on va appâter le client. Et deux fois plutôt qu’une…

Or, face à des lecteurs non avertis, avancer des gros chiffres (ou des mots que personne ne connaît : réseaux «Sentinelle»…) est la manifestation d’un pouvoir d’autant plus prégnant que l’on s’adresse, sous protection «scientifique» et donc incontestable, à un public démuni. En matière de santé publique, il convient d’être rigoureux et prudent, chacun dans son rôle et ses attributions; un minimum de connaissances en statistique de la part des médias aurait permis plus généralement de mieux informer une population fragilisée et inquiète depuis l’annonce en avril dernier d’une pandémie grippale à venir.

Libération contribue régulièrement sous sa rubrique « Intox-Désintox », œuvre d’utilité publique, à montrer la nécessité de démasquer le pouvoir se cachant derrière des chiffres et la facilité avec laquelle on peut tromper son monde. C’est leur choix éditorial qui les pousse à privilègier telle ou telle info qu’ils décortiquent avec talent, il y aurait en la matière de quoi remplir tout un quotidien. Chaque jour, des chiffres sont lancés ici et là sans recevoir la contradiction…ou presque.

L’article qui m’a alertée pourrait, même si le sujet est moins grave qu’un autre, entrer dans le cadre intox-désintox: arroseur arrosé ?

Intox :

« …environ un millier de femmes enceintes non-vaccinées contre la grippe A dont 10,6 % présentaient des anticorps témoignant d’une infection par le virus. En admettant que le taux d’infection soit le même pour les 16,2 millions de femmes et hommes de France métropolitaine âgés de 20 à 39 ans, 1 712 000 personnes pourraient avoir été infectées récemment par le virus. Soit cinq fois plus que le nombre estimé des personnes de cet âge ayant rendu visite à leur médecin avec des symptômes de grippe clinique ».

Desintox :

Il s’agit donc de savoir quel est, dans la population, le taux de personnes infectées par le virus à partir du taux mesuré sur un échantillon. Quels enseignements peut-on tirer à partir d’un échantillon ?
Dans l’article, à partir de 10,6 %, et du rapport 1000/16,2 millions, une règle de trois a permis d’obtenir 1 712 000. Pile poil.

La plupart d’entre nous ignorent d’où et comment proviennent toutes ces statistiques dont on nous abreuve. Face au besoin de certitude de chacun d’entre nous, les probabilités, dont l’origine étymologique est paradoxale - probare signifie prouver en latin- nous ramènent à la nécessaire acceptation d’une dose d’incertain et de risque. La démarche statistique, basée sur des probabilités, des modèles probabilistes et une méthodologie rigoureuse, est humble et se contente, on va voir de quelle façon, d’une double incertitude. Ce qui n’est pas incompatible avec rigueur et précision…
En bref d’abord, les principes de base de la démarche statistique, ensuite nous examinerons les documents sources : les collègues qui doivent enseigner l’estimation statistique au lycée savent bien tout cela, mais tous n’ont pas, disons, cette chance !

Remettons les choses dans l’ordre

- Tout d’abord, il faut définir le caractère (ici la séroprévalence du virus) à étudier sur une population donnée à un instant donné.

- Ensuite il faut extraire de cette population un échantillon représentatif ; nous n’entrerons pas ici dans les détails, mais cette étape est déterminante. [1]

- Puis il faut mesurer ce que l’on appelle la fréquence d’échantillon : 10,6% est la fréquence de séroprévalence sur l’échantillon de 1000 femmes enceintes.

- C’est là que l’on est tenté d’extrapoler à la population, ce qui a été fait dans l’article. À tort. Des modèles probabilistes permettent de calculer un encadrement de la fréquence d’échantillon, encadrement appelé fourchette ou intervalle de confiance : une fois un risque maximum posé (souvent 5%), on est « presque sûr », (à 95%, seuil de confiance) que la valeur à mesurer se trouve dans cet encadrement. [2]

- Le risque est fixé par l’organisme qui commande le sondage ; il permet de contrôler l’erreur commise en prenant l’estimation à partir de l’échantillon.

- Quelle est la signification de « la fourchette n’est sûre qu’à 95% » ? Double signification :

-- À l’aide d’un seul échantillon, elle permet de donner un encadrement de la « vraie » valeur sur la population totale.

-- Si on répète ces sondages un très grand nombre de fois, la fréquence sort de cette fourchette en moyenne dans 5% des échantillons.

- De quoi dépend la précision d’un sondage ?

D’une part, de la taille (l’effectif) de l’échantillon, et non de celle de la population totale si celle-ci est assez grande; contrairement au sens commun, un échantillon de 1000 personnes suffit ; le problème ne vient donc pas de là. [3]

D’autre part la précision dépend du risque, ou ce qui revient au même, du seuil de confiance :
La fourchette grandit, et donc la précision diminue, si le seuil de confiance est plus grand ; à 99%, la fourchette est plus large qu’à 95%; c’est normal, on a moins de risque de se tromper (1%< 5%) si on élargit la zone.

- D’où la double incertitude, paradoxale dès qu’il s’agit de chiffres : à partir d’un taux sur un échantillon, on n’a pas de valeur pour le taux sur la population, mais un encadrement : première incertitude ; cette fourchette n’est même pas sûre à 100% : deuxième incertitude.

Qui coordonne les statistiques sur la pandémie grippale ?
La méthodologie a-t-elle été respectée ?

Petite enquête sur le Web

L’information source provient de l’Institut de Veille sanitaire (In VS) qui elle-même a reçu l’information du laboratoire Unité des Virus Emergents, Université Aix Marseille. L’In VS qui coordonne la surveillance de la grippe en France, assure la veille internationale de la pandémie et publie un bulletin hebdomadaire.
Cet institut utilise plusieurs réseaux : la médecine de ville est représentée par le réseau Sentinelle, qui est constitué de médecins généralistes volontaires qui signalent les cas de grippe, en incidence ou en taux d’incidence. Le réseau GROG     (Groupes Régionaux d’Observation de la Grippe) regroupe des médecins généralistes qui signalent le nombre de patients consultant pour des infections respiratoires aigues. (IRA…) D’autres réseaux travaillent dans le même sens : associations comme SOS médecins, le réseau OSCOUR (Organisation de la Surveillance Coordonnée des Urgences) etc. Le poids des mots, le choix des sigles, le concepteur ne manque pas d’humour…

Depuis septembre 2009, ces données sont transmises à des statisticiens qui les comparent à celles des années précédentes (sans grippe A) et publient à la fois des données chiffrées (nombre de décès, de cas graves...) et des estimations.

Dans le bulletin du 15 décembre de l’In VS on trouve une « Étude de la séroprévalence du virus A (H1N1) chez la femme enceinte ».
Il est bien question d’un échantillon d’un millier de femmes enceintes observées dans les semaines 48-49 parmi lesquelles 10,6% présentent le virus A (H1N1) sans symptôme ; il s’ensuit une estimation calculée et publiée : « Entre 1 112 700 et 2 311 300 personnes ».
Voilà la fourchette pour l’estimation du nombre d’hommes et femmes de 20-39 ans sur 16.2 millions ayant été infectées au moins 15 jours avant le prélèvement pour les mêmes semaines. Et non 1712000 ! La fourchette ne donne, à mon sens, pas du tout la même information…et ne produit pas le même effet non plus.

Dans ce bulletin, on peut lire ensuite :
« Il n’est pas possible, à partir de ces données, d’estimer le nombre de personnes ayant été infectées dans les tranches d’âge autres que 20-39 ans, de par les différences attendues de séroprévalence en fonction de l’âge. »

Le document est accompagné de graphiques, la fourchette a bien été calculée, le seuil de confiance (95%) mentionné, conformément à la méthode exposée.
Il est à noter que l’intervalle de confiance ainsi obtenu doit théoriquement servir d’estimation pour une population dont l’échantillon est représentatif : c’est là que nous comprenons que du choix du modèle va dépendre l’interprétation des chiffres. Il est clair par exemple que le caractère « femme enceinte » n’est pas pris en compte dans l’extrapolation, ni même le caractère femme tout court !

Pour les amateurs, au seuil de confiance 99%, on a l’encadrement 926 000 - 2 500 000, plus large donc.

Errare humanum est, perseverare diabolicum dans la deuxième partie de l’article :

« Selon le réseau Sentinelles, qui tient compte des gens souffrant de fièvres supérieures à 39 °C avec signes respiratoires, 2,7 millions ont consulté en quinze semaines pour la grippe en France. S’il y a bien cinq fois plus de cas d’infection que d’individus ayant consulté, on peut donc estimer que 13 millions de personnes auraient été atteintes par le virus, avec ou sans symptômes »

Une bonne vieille règle de trois…et au final, une valeur fantaisiste (13 millions) même pas conforme à celle annoncée dans le titre de l’article !

   Pour conclure et relativiser les choses, disons que cet article nous a servi de prétexte pour rappeler des principes simples de la démarche statistique qui intervient dans tant de domaines aujourd’hui qu’il vaut mieux ne pas l’ignorer; se méfier de certitude apparente en matière de chiffres… certes, pour recenser toute la population française Vauban avait multiplié par un coefficient k le nombre de personnes comptées dans un village. On lui pardonne sa méprise bien antérieure aux méthodes d’estimation modernes!

   Le risque zéro, ici comme ailleurs, n’existe pas, mais la statistique permet de donner des informations avec un risque d’erreur maîtrisé. Avec mes étudiants, je me donne comme objectif qu’ils soient capables d’analyser un article, une information chiffrée. La vérité est complexe, mais tout citoyen est digne de s’en approcher.

Bibliographie (annotée par l'auteur)

Martine Quinio-Benamo, Probabilités et statistiques aujourd'hui, Editions L'Harmattan, collection "Sciences et Sociétés", 2009 [4]

Rob Eastaway et Jeremy Wyndham,   Pourquoi les bus arrivent-ils toujours par trois ? , Flammarion, 2001 (Ludique)

Ivar Ekeland, Au hasard. la chance, la science et le monde, Editions du Seuil, collection "Science Ouverte", 1991, 200 p.

David Ruelle, Hasard et chaos, Odile Jacob, 1991  (Physique et probabilités)

Gilles Pagès et Claude Bouzitat, En passant par hasard, Vuibert, 1999   (probabilités de tous les jours)

Daniel Schwarz, Le Jeu de la Science et du Hasard, Flammarion, 1994 (histoire des statistiques ; médecine et probabilités)

Ian Stewart, La nature et les nombres, Hachette, 1998

Notes

[1] Le choix d’un d’échantillon représentatif : le tirage au sort à l’intérieur d’un échantillon obtenu par la méthode des quotas permet d’éviter les biais ; mais la variabilité demeure, chaque échantillon a sa vie propre, en quelque sorte.

[2] Les modèles probabilistes qui permettent de calculer un encadrement de la fréquence d’échantillon sont basés sur la loi de Gauss, loi de probabilité à la base de la statistique inférentielle, celle qui permet de faire des estimations.

[3] La taille n de l’échantillon est généralement de 1000, 1500 : la précision de l’estimation varie avec l’inverse de la racine carrée de n, c’est-à-dire qu’un sondage, toutes choses égales par ailleurs, effectué sur 400 personnes est deux fois plus précis qu’un sondage fait sur 100 personnes…mais il coûte plus cher !

[4] Mon ouvrage, (pardonnez-moi…) que j’ai écrit surtout pour les enseignants curieux ou en charge d’enseignement des probas-stats, est dans la première partie, une synthèse des lectures (bouquins, articles scientifiques, conférences…) qui m’ont passionnée et qui m’ont donné envie d’en savoir plus et de partager ces savoirs.