Pourquoi la p-value pose problème : limites, biais et alternatives en statistiques

Comme Feller (1969 ) a écrit : « Aucune statistique ne devrait empêcher un expérimentateur de garder les yeux ouverts, l’esprit flexible et à l’affût des surprises. 

QUIZ

État des lieux de la p-value

La p-value est aujourd’hui omniprésente dans la recherche scientifique. C’est un outil statistique qui, à l’origine, avait pour but d’aider les chercheurs à évaluer la solidité de leurs résultats, et à déterminer s’il valait la peine d’approfondir leur piste d’étude. Elle repose sur une méthode assez simple en apparence : on formule deux hypothèses — l’hypothèse nulle (H₀), qui suppose qu’il n’y a pas d’effet, et l’hypothèse alternative (H₁), qui suggère qu’un effet existe. Le test statistique permet ensuite de calculer une p-value à partir des données observées.

C’est dans les années 1920 que le statisticien britannique Ronald Fisher introduit cette notion de test statistique. Il voulait donner aux chercheurs un cadre pour interpréter les résultats numériques de leurs expériences. 

Ronald Fisher

Contrairement à ce qu’on croit aujourd’hui, l’intention de Fisher n’était pas de trancher définitivement sur la validité d’un effet via un seuil rigide (comme p < 0.05). L’idée était plutôt de fournir un indicateur exploratoire : si la p-value est faible, cela suggère que les données sont peu compatibles avec l’hypothèse nulle, et donc qu’un examen plus approfondi est justifié.

📌 Définition claire de la p-value

La p-value est la probabilité d’obtenir les données observées (ou des données encore plus extrêmes), en supposant que l’hypothèse nulle est vraie.

Autrement dit, plus cette probabilité est faible, plus il semble « surprenant » d’observer ce résultat si H₀ était vraie.

Cependant — et c’est fondamental — même une p-value bien interprétée ne dit rien sur l’importance réelle de l’effet, ni sur sa portée dans le monde réel.

🧬 Une révolution méthodologique

Avant cette approche statistique, de nombreuses sciences étaient marquées par une grande subjectivité :

  • En médecine, les décisions reposaient sur l’observation clinique, l’intuition, la logique, et quelques statistiques descriptives (comme les moyennes ou les fréquences).
  • En psychologie, discipline encore jeune à l’époque, on utilisait des lois comme la distribution normale, mais la méthode restait proche de la philosophie et de la spéculation.
  • En biologie, on privilégiait l’observation, la classification, et l’induction à partir de cas concrets, sans cadre probabiliste clair.

La p-value a donc permis à certains champs comme la sociologie ou la psychologie d’être considérée comme une science, voilà son impact considérable. 

🌍 Une adoption massive

Aujourd’hui, l’usage de la p-value s’est généralisé dans la quasi-totalité des domaines scientifiques, par exemple : les sciences biomédicales, les sciences sociales, les sciences économiques et de gestion , les sciences de la Terre

⚠️ Et ce seuil de 0.05 ?

Le célèbre seuil de 0.05 proposé par Fisher n’a aucune justification mathématique absolue. C’est un choix conventionnel et subjectif, devenu avec le temps une règle tacite dans de nombreuses disciplines. Ce seuil a favorisé une lecture binaire des résultats : en dessous, le résultat est « significatif » donc on a trouvé un effet ; au-dessus, il ne l’est pas donc aucun effet scientifique. Voilà la vision binaire catégorisée de la p-value  — ce qui, on le verra plus loin, pose de nombreux problèmes. 

 Exemple de la p-value : café et concentration

☕️ Exemple simple : Le café améliore-t-il la concentration ?

🧪 Expérience

  • Objectif : Tester si boire du café améliore la concentration.
  • Participants : 2 groupes de 20 personnes chacun :
    • Groupe A : boit du café
    • Groupe B : boit de l’eau

📊 Résultats

  • Moyenne Groupe A (café) : 85/100
  • Moyenne Groupe B (eau) : 78/100
  • Différence : +7 points
  • p-value : 0,03

🔍 Hypothèses

  • H₀ (hypothèse nulle) : Le café n’a aucun effet sur la concentration.
  • H₁ (hypothèse alternative) : Le café a un effet sur la concentration.

✅ Interprétation

Une p-value de 0,03 signifie que si H₀ est vraie, il y a 3 % de chances d’obtenir un résultat aussi extrême ou plus que celui observé.

➡️ Conclusion raisonnable :
Ce résultat est surprenant sous H₀, il suggère un effet possible du café.
Il ne prouve rien — mais justifie d’approfondir la recherche.

Conclusion admise et fausse:

P-value trouvé = recherche arrêté  ❌

P-value en dessous du seuil de 0,05 = effet scientifiquement prouvé ❌


⚠️ Ce que cela ne veut pas dire :

  • ❌ « Le café fonctionne à 97 % »
  • ❌ « On a prouvé que le café améliore la concentration »

(Expérience ultra-simplifié, seulement là pour donner un exemple plus visuel de l’utilisation de la p-value)

Les problèmes dans son utilisation

Si la p-value a été conçue comme un outil pour aider à interpréter les résultats, elle est aujourd’hui souvent mal utilisée, mal comprise — voire détournée. Elle est devenue un critère quasi automatique pour juger si un résultat mérite publication ou non.

Dans le contexte scientifique, ces erreurs ont des conséquences concrètes : valider un médicament inefficace, abandonner un projet prometteur, diffuser des idées fausses. Et derrière chaque erreur, ce sont des millions d’euros, des années de travail, et parfois des décisions cliniques qui sont en jeu.

🧪 Quand chercher du significatif devient un objectif

Le vrai problème ne vient pas de la p-value elle-même, mais de la manière dont elle est utilisée. Car maintenant, le seuil de p < 0.05 devient un critère de publication:

Dans certaines disciplines comme la psychologie ou la biomédecine, l’étude s’arrête quand la p-value est trouvée. On considère la p-value comme la solution magique à toutes nos inférences. Le véritable problème est que l’inférence statistique n’est pas égale à inférence scientifique. La P-value n’est plus considérée aujourd’hui comme un outil à l’inférence scientifique mais comme l’outil magique qui déterminera si oui ou non l’effet est prouvé, si oui ou non le médicament est mis sur le marché…

 Le plus grave dans tout ça est que les statisticiens et le monde scientifique en général ont mis en garde la communauté depuis très longtemps. Mais la p-value est tellement facile à utiliser, tellement rapide qu’elle s’est généralisée jusqu’à devenir un énorme problème. Et la crise de la reproductibilité souvent pointée du doigt, qui sert à décrédibiliser la psychologie voire les sciences en général est en partie liée à la mauvaise utilisation de la p-value.      

          Et cela pousse certains chercheurs à adopter des pratiques douteuses, parfois inconsciemment :

  • Répéter une étude plusieurs fois mais ne publier que celle qui fonctionne.
  • Mesurer plein de variables mais ne rapporter que celles qui donnent un effet.
  • Écarter des données « gênantes » après coup.
  • Arrêter la collecte de données dès que p < 0.05 est atteint.

Toutes ces pratiques relèvent de ce qu’on appelle le “p-hacking”. Elles peuvent faire apparaître des résultats « significatifs » là où il n’y a que du bruit statistique. Elles participent aussi à la crise de la reproductibilité.

Un résultat statistiquement significatif n’est pas un résultat statistiquement bouleversant, important. Et c’est peut être la phrase la plus compliquée à comprendre. Le procédé de recherche aujourd’hui est une course aux résultats “significatif”, trouver la bonne p value, en dessous de 0,05. Mais, tous résultats n’est pas bon a prendre, tous résultats n’est pas extra-ordinaire. C’est la posture scientifique, l’intuition, l’expérience, les autres outils à disposition, voire l’interdisciplinarité qui permettra d’interpréter correctement le résultat et d’en faire quelque chose d’intéressant.

 Les pratiques de recherche aujourd’hui sont tellement douteuses, encouragées beaucoup par les vautours de revue scientifiques qui ne publient seulement que si le résultat est “significatif”, ou alors le papier est inconsidéré et l’argent, mis en l’air.

🧪 Quelques cas emblématiques

  • Amy Cuddy et les “power poses” : Amy Cuddy a proposé que tenir des power poses (postures ouvertes et dominantes) pendant deux minutes augmente la confiance et modifie les hormones. Son étude de 2010 avait montré des résultats significatifs, très médiatisés. Mais des tentatives de réplication ont échoué, mettant en doute la validité des conclusions.

(Amy Cuddy)

  • En 2014, Haruko Obokata et les cellules souches “miracle” : publie une étude affirmant avoir créé des cellules souches avec une méthode simple (STAP), résultats à l’appui et p-values significatives. L’annonce fait sensation, mais les résultats sont impossibles à reproduire. L’étude est finalement retirée, déclenchant un scandale scientifique.

(Haruko Obokata)

➡️ Toutes ces histoires ont un point commun : une interprétation excessive de p-values “significatives” (et manipulation des données), sans validation rigoureuse ni reproductibilité.

🤔 Mais alors pourquoi “Statistiquement significatif” ?

Aujourd’hui, le label « statistiquement significatif » est devenu une sorte de sceau d’autorité. Pourtant, ce n’est pas du tout comme ça que Fisher l’avait pensé à l’origine. À force de l’appliquer mécaniquement, avec des règles strictes et arbitraires, on en vient à prendre de mauvaises décisions. Le vrai problème, ce n’est pas la p-value en elle-même, c’est la manière dont on l’utilise : comme un couperet. Cette dichotomie — significatif ou pas — fausse notre lecture des résultats.

C’est ce qui alimente notamment le phénomène du tiroir à dossier : seules les études avec une p-value inférieure à 0,05 sont publiées. Résultat ? Des faux positifs à la chaîne, des conclusions fragiles, et une science qui, au final, perd en fiabilité.

On a pris l’habitude de croire qu’une p-value faible = effet réel, et qu’une p-value élevée = pas d’effet. C’est faux, et c’est aussi problématique d’appliquer ce genre de raisonnement à d’autres outils comme le facteur de Bayes. Ce type de catégorisation, quel que soit l’indicateur, est trop simpliste pour refléter la complexité des phénomènes qu’on étudie.

Car encore une fois, l’inférence statistique n’est pas une inférence scientifique. Ce n’est pas parce qu’un test rejette H₀ qu’on comprend quelque chose de profond sur ce qu’on étudie.

La p-value a certes apporté de la rigueur dans beaucoup de disciplines, mais aujourd’hui, elle est surexploitée. On lui donne une importance disproportionnée, on s’en sert pour valider ou rejeter des résultats comme s’il s’agissait d’un bouton on/off. Pourtant, les seuils sont arbitraires, et cette logique binaire se retrouve même dans d’autres approches statistiques, comme les intervalles de confiance ou les méthodes bayésiennes.

Interpréter une p-value ne suffit pas. Il faut prendre du recul, regarder le contexte, la taille de l’effet, le degré d’incertitude, la plausibilité théorique. Une seule valeur ne peut pas tout dire.

En fait, on ne devrait jamais conclure un article uniquement sur une p-value. Elle ne doit pas être bannie, mais utilisée avec prudence, dans un cadre nuancé, sans tomber dans un réflexe dichotomique. Que la p-value soit petite ou grande, il faut rester vigilant.

Et puis, il ne faut pas oublier une chose essentielle : la différence entre un résultat significatif et un non significatif n’est pas forcément elle-même significative. Ce n’est pas parce qu’on passe juste en dessous ou au-dessus de 0,05 que tout change. Exemple entre 0,049 et 0,051 qui sont en réalité plus ou moins similaires.

Le but d’une recherche, ce n’est pas de cocher une case, mais de construire un raisonnement crédible. Mieux vaut passer un peu moins de temps sur les calculs, et un peu plus à réfléchir à ce que nos résultats veulent dire vraiment.

De même, on devrait éviter l’expression « prouvé scientifiquement ».  Car la science ne donne pas de certitudes absolues, elle propose des résultats toujours provisoires, soumis au doute et à la révision. Ce terme donne une illusion de vérité définitive, alors que la science fonctionne par accumulation d’indices et remise en question continue.
À la place, on peut dire : « les données suggèrent que », « les résultats soutiennent l’hypothèse que », ou « un consensus scientifique indique que ».

Solutions possibles : vers une meilleure pratique statistique

Avant de chercher à améliorer nos outils statistiques, il est crucial de mieux formuler nos hypothèses et questions de recherche. Une bonne question de départ est la clé pour obtenir des résultats pertinents et éviter les dérives liées à une mauvaise interprétation des tests.

Une boîte à outils plus large que la p-value

La p-value n’est qu’un des nombreux outils disponibles pour analyser les données. Parmi les autres approches et indicateurs utiles, on trouve : la taille d’effet (comme le d de Cohen), les intervalles de confiance ou le facteur de Bayes…

Ces outils ont chacun leurs forces et leurs limites, et aucun n’est magique. Le vrai défi est donc de les combiner intelligemment, en comprenant ce que chacun apporte. Chaque outil peut-être intéressant si bien utilisé par rapport à l’étude menée.

Critiques du test d’hypothèse classique (NHST)

Le cadre classique du test d’hypothèse nul (NHST) pose souvent problème :

  • La p-value est fréquemment mal interprétée,
  • On applique ces tests sans vraiment réfléchir à la pertinence de l’hypothèse nulle (souvent celle d’un effet strictement nul, peu probable dans la réalité),
  • Le NHST ne nous dit pas clairement ce que l’on cherche : la probabilité d’un faux positif, l’ampleur d’un effet, ou la solidité des preuves…

Compléter la p-value, pas forcément la remplacer

Loin d’être à bannir, la p-value peut être conservée, à condition de ne pas s’y fier seule. Par exemple, dans des études avec de très grands échantillons, une différence minime peut devenir statistiquement significative sans être scientifiquement importante. Il a été proposé différentes solutions à la p-value comme le fait de le baisser à 0,01 ou à 0,005 une p-value 2.0 mais certains chercheurs critiquent le fait d’ajouter de nouvelles méthodes au lieu de régler le problème de fond. Car ce n’est pas la p-value elle-même mais la manière dont on l’utilise, quasi divine. On ne peut pas le remplacer par une autre méthode statistique magique, mais c’est bien le mélange entre un ensemble d’outils statistiques et une posture scientifique à adopter.

La pression et la culpabilité du monde universitaire

La véritable amélioration passera par un ensemble de changements des normes imposés aux chercheurs. Car entre autres la pression à publier, les problèmes de financements, les journaux qui ne publient que les résultats positifs, la lourdeur administrative en France et un mauvais enseignement des  statistiques. Rien n’est créé pour que les personnes travaillant dans ce monde fassent les choses correctement, puissent se remettre en question, et amène l’excellence dans le monde universitaire.

Conclusion:

L’usage abusif de la p-value a contribué à des scandales scientifiques, à une crise de reproductibilité et à de nombreuses dérives méthodologiques. Il est donc urgent de mieux l’utiliser, et surtout, de sortir des formulations trompeuses comme « statistiquement significatif » ou « prouvé scientifiquement ».


En réalité, il n’existe pas de solution miracle. Le progrès passe par une combinaison d’améliorations : un meilleur environnement de recherche, une formation statistique repensée, des règles éditoriales plus exigeantes, une culture de la transparence, et l’usage réfléchi de plusieurs outils adaptés à chaque champ d’étude.

La science n’est pas une machine à certitudes : son objectif n’est pas de produire des résultats rapidement, mais d’ajuster, avec rigueur et humilité, notre degré de confiance envers les hypothèses testées.

“Il y a 70 ans, Ronald Fisher a doté les scientifiques d’une machine mathématique permettant de transformer les balivernes en découvertes et les coups de chance en financements. Il est temps de mettre fin à cette pratique.” Robert Matthews 

Référence:

Anderson, D. R., Burnham, K. P., & Thompson, W. L. (2000). Null hypothesis testing: Problems, prevalence, and an alternative. The Journal of Wildlife Management, 64(4), 912–923. https://doi.org/10.2307/3803199

Colquhoun, D. (2014). An investigation of the false discovery rate and the misinterpretation of p-values. Royal Society Open Science, 1(3), 140216. https://doi.org/10.1098/rsos.140216

Karpen, S. C. (2017). P value problems. American Journal of Pharmaceutical Education, 81(9), 6570. https://doi.org/10.5688/ajpe6570

McShane, B. B., Gal, D., Gelman, A., Robert, C., & Tackett, J. L. (2019). Abandon statistical significance. The American Statistician, 73(sup1), 235–245. https://doi.org/10.1080/00031305.2018.1527253

Nuzzo, R. (2014). Scientific method: Statistical errors. Nature, 506(7487), 150–152. https://doi.org/10.1038/506150a

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129–133. https://doi.org/10.1080/00031305.2016.1154108

Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a world beyond “p < 0.05”. The American Statistician, 73(sup1), 1–19. https://doi.org/10.1080/00031305.2019.1583913

Benjamin, D. J., et al. (2018). Redefine statistical significance. Nature Human Behaviour, 2(1), 6–10. https://doi.org/10.1038/s41562-017-0189-z

Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124. https://doi.org/10.1371/journal.pmed.0020124

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359–1366. https://doi.org/10.1177/0956797611417632

Publications similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *