Corrélation et causalité

L'idée de base

Si vous avez déjà discuté avec quelqu'un qui a suivi le cours de statistiques 101, vous l'avez peut-être entendu dire avec fierté que "la corrélation n'implique pas la causalité". Ce mantra est appliqué à plusieurs reprises lorsque des personnes supposent à tort que deux variables ont une relation de cause à effet au lieu d'afficher simplement un schéma similaire. Bien que le chant du coq se produise tous les matins au moment où le soleil se lève, il n'est pas à l'origine du lever du soleil.

Les exemples classiques qui illustrent ce concept impliquent souvent des corrélations étranges avec les ventes de glaces, telles que les incendies de forêt, les noyades, les coups de soleil et même les attaques de requins. Prenons l'exemple de la corrélation avec les incendies de forêt, où le nombre d'incendies augmente parallèlement à l'augmentation du nombre de personnes qui achètent des glaces. Cela signifie-t-il que les gens qui achètent des glaces sont à l'origine des incendies ? Certainement pas. Les deux phénomènes présentent simplement des schémas statistiques similaires, car ils se produisent tous deux lorsqu'il fait chaud en été. Bien que cet exemple soit un cas intuitif où aucune des variables ne cause l'autre, de nombreuses corrélations peuvent être plus difficiles à déchiffrer.

On ne met pas le feu à une partie de la brousse du Montana quand on achète une pinte de Haagen-Dazs.


- Nate Silver, auteur de The Signal and the Noise (Le signal et le bruit)

La théorie au service de la pratique

TDL est un cabinet de recherche appliquée. Dans notre travail, nous tirons parti des connaissances de divers domaines - de la psychologie et de l'économie à l'apprentissage automatique et à la science des données comportementales - pour sculpter des solutions ciblées à des problèmes nuancés.

Nos services de conseil

Termes clés

Corrélation : Une association entre deux données.

Causation : Le fait de causer quelque chose ; un événement contribue directement à l'existence d'un autre.

Essai contrôlé randomisé (ECR) : méthode expérimentale utilisée pour déterminer les relations de cause à effet, dans laquelle les résultats d'une condition de contrôle sont comparés à ceux d'une condition expérimentale.

Variable confusionnelle : Parfois appelée "troisième variable", une variable confusionnelle influence à la fois la variable indépendante et la variable dépendante, ce qui peut entraîner une corrélation erronée.

L'histoire

Vers 1889, le polymathe anglais Sir Francis Galton a commencé à soupçonner une divergence par rapport aux statistiques et à la causalité. En examinant des ensembles de données héréditaires, Galton a commencé à remarquer que les hommes de grande taille avaient des avant-bras plus longs que la moyenne, mais pas autant que leur taille. Pour Galton, il était clair que la taille n'était pas la cause de la longueur de l'avant-bras, pas plus que la longueur de l'avant-bras n'était la cause de la taille, mais que les deux étaient probablement dues à l'héritage génétique. Il a commencé à utiliser un nouveau terme pour désigner ces relations, telles que la taille et la longueur de l'avant-bras : elles étaient "co-reliées".1

En 1892, un autre statisticien anglais, Karl Pearson, a fait référence aux travaux de Galton en affirmant que la causalité ne peut jamais être prouvée et que la science se limite à de simples données. Au début du XXe siècle, Pearson et son assistant donnaient des exemples de "corrélations fallacieuses", comme la corrélation entre la consommation de chocolat par habitant d'un pays et le nombre de ses lauréats du prix Nobel. Cependant, comme le souligne Judea Pearl dans The Book of Why, malgré l'hostilité de Pearson à l'égard de la causalité, en suggérant qu'une corrélation était fallacieuse, il faisait également une référence logique à la causalité. En d'autres termes, en affirmant que la consommation de chocolat n'est pas à l'origine des lauréats du prix Nobel, on présume que la causalité existe bel et bien quelque part. Ainsi, alors que la communauté des statisticiens s'accordait sur le fait que la corrélation n'implique pas la causalité, il n'y avait guère d'accord sur la manière de déterminer réellement la causalité.

Vers 1918, un soigneur de cochons d'Inde du ministère américain de l'agriculture, Sewall Wright, a commencé à outrepasser ses fonctions en utilisant des modèles mathématiques pour évaluer les dépendances directes dans les données génétiques du cochon d'Inde à l'aide d'un modèle causal. Son travail ingénieux, qui consistait à utiliser des "diagrammes de cheminement", deviendrait plus tard le fondement de l'inférence causale. Comme l'écrit Pearl, "cette idée a dû sembler simple à Wright, mais elle s'est révélée révolutionnaire car elle a été la première preuve que le mantra "la corrélation n'implique pas la causalité" devait céder la place à "certaines corrélations impliquent la causalité""1.

En dehors des ensembles de données prédéterminés, les essais contrôlés randomisés (ECR) ont fini par gagner en popularité dans le domaine des sciences et des statistiques en tant que moyen de déterminer la causalité de manière expérimentale plutôt qu'en s'appuyant uniquement sur les mathématiques. Aujourd'hui souvent considérés comme l'"étalon-or" des essais cliniques, les ECR sont essentiels à une recherche médicale solide, car il est primordial de distinguer la corrélation de la causalité pour comprendre l'efficacité d'un nouveau traitement ou d'une nouvelle procédure médicale.

Les personnes

Sir Francis Galton

Ce polymathe anglais était également considéré comme un sociologue, un psychologue, un anthropologue et un météorologue, entre autres. Ses travaux statistiques sur l'héritage génétique ont conduit au concept de corrélation. Il a également été le premier à introduire le concept de régression à la moyenne, c'est-à-dire l'idée que les données les plus typiques suivent souvent les valeurs aberrantes.

Karl Pearson

Mathématicien et statisticien anglais, Pearson a fondé le premier département de statistiques au monde à l'University College de Londres en 1911, où son laboratoire de biométrie est devenu le centre mondial des statistiques pendant au moins deux décennies.1 Il a été l'un des premiers à suggérer que la corrélation n'implique pas la causalité. Aujourd'hui, la méthode statistique couramment utilisée pour calculer une corrélation entre deux variables est connue sous le nom de coefficient de corrélation ou r de Pearson. Bien que Pearson ait développé la formule, l'idée est issue des travaux de Francis Galton et d'Auguste Bravais.

Ronald Fisher

Également statisticien anglais, on attribue souvent à Fisher la popularisation de l'essai clinique aléatoire dans le domaine de la recherche. Au début des années 1920, Fisher tentait de séparer les effets des engrais sur les cultures des autres variables, lorsqu'il a suggéré que la randomisation était le seul outil infaillible en statistique.1

Conséquences

Les conséquences d'une confusion entre causalité et corrélation sont considérables. De nombreuses décisions clés prises par les gouvernements et les entreprises sont souvent basées sur des analyses statistiques, mais même lorsqu'il s'agit de statistiques objectives, l'interprétation peut toujours être subjective. Par exemple, une équipe de direction peut examiner des données de marketing et constater qu'une certaine campagne publicitaire régionale est en corrélation avec une augmentation des ventes, de sorte qu'elle décide de consacrer des millions à une campagne nationale de même nature. Cette décision pourrait s'avérer coûteuse, car la corrélation ne signifie pas que la campagne publicitaire est à l'origine de l'augmentation des ventes.

L'hypothèse d'un lien de causalité à partir de données corrélées peut également avoir des conséquences considérables sur l'opinion publique. Nous avons tous vu ou entendu des titres accrocheurs suggérant que le café provoque le cancer et que les œufs permettent de vivre plus longtemps, puis, une semaine plus tard, entendre que le café prévient le cancer et que manger des œufs peut tuer. Qu'est-ce qui se passe ? Le fait est que de nombreuses études sur la santé et la nutrition ne sont que corrélationnelles, ce qui signifie que, dans un ensemble de données donné, les chercheurs peuvent avoir constaté que les buveurs de café ont des taux de cancer plus élevés que les non-buveurs de café. Cette conclusion ne nous dit pas si le café provoque le cancer. Certains sont même allés jusqu'à dire qu'une grande partie de la science de la nutrition est en fait de la pseudoscience, car elle ne répond souvent pas de manière adéquate aux critères de causalité.2

Le public peut également être enclin à se méprendre sur le lien de causalité à partir de ses propres observations et de celles des chercheurs. D'un point de vue social, cela peut conduire à un certain nombre de suppositions troublantes et erronées concernant la race, la classe ou le sexe. Ces erreurs peuvent affecter la manière dont les gens traitent les autres ainsi que leurs convictions. Une grande partie du mouvement anti-vaccin, par exemple, repose sur des preuves pseudo-scientifiques qui confondent corrélation et causalité.3

Controverses

Comme on peut l'imaginer, l'opposition entre corrélation et causalité peut être une véritable boîte à feu pour déclencher des controverses. De nombreux arguments reposant sur une statistique donnée sont remis en question par l'absence d'une inférence causale solide comme le roc. L'industrie du tabac s'est fameusement appuyée sur cette stratégie pour tenter de rejeter l'association autrefois controversée entre le tabagisme et le cancer du poumon, obtenant même le soutien de l'éminent statisticien Ronald Fisher. En raison des obstacles éthiques et pratiques à la réalisation d'un essai contrôlé randomisé visant à déterminer les effets causaux du tabac sur le cancer du poumon, il était difficile de convaincre des sceptiques tels que Fisher, qui était lui-même fumeur, des conséquences du tabagisme. Certains affirmaient qu'il pouvait y avoir un gène du tabagisme qui donnait envie de fumer et augmentait les risques de cancer du poumon. Malgré les nombreuses études réalisées au fil des ans indiquant un lien étroit entre le tabagisme et le cancer et démontrant de manière convaincante l'existence d'une relation de cause à effet, les sceptiques ont toujours pu s'appuyer sur le fait qu'aucune de ces études n'avait pu comparer des fumeurs à des non-fumeurs par ailleurs identiques.1

Aucun statisticien qui se respecte ne contesterait l'idée que la corrélation n'implique pas la causalité, de sorte que les controverses qui entourent le concept impliquent souvent l'affirmation que deux variables corrélées présentent également une relation de cause à effet. Comme dans le cas du débat sur le tabagisme, ces discordes apparaissent dans des situations où un essai contrôlé randomisé ne permet pas de trancher, ce qui est souvent le cas dans des domaines tels que la sociologie et l'économie. Le salaire minimum, par exemple, est un sujet très débattu en raison de la difficulté d'obtenir des données permettant d'exprimer les effets causaux des variations du salaire minimum. Les économistes ne peuvent pas réaliser d'essai contrôlé randomisé en modifiant les salaires des personnes, de sorte que les deux camps peuvent mettre en avant des variables confusionnelles potentielles pour réfuter certaines corrélations susceptibles d'être utilisées pour soutenir un point de vue antérieur.

Études de cas

Facebook et la santé mentale

Une étude publiée en 2017 dans l'American Journal of Epidemiology a établi un lien entre l'utilisation de Facebook et la diminution du bien-être.4 Cette découverte a été rendue publique par de nombreux médias importants, tels que CNBC et la Harvard Business Review, le premier allant jusqu'à dire : "Facebook vous fait réellement vous sentir déprimé." Bien que l'étude ait utilisé des données longitudinales et ait été réalisée avec rigueur, elle n'offre qu'une relation corrélationnelle. L'étude ne nous dit pas si l'utilisation de Facebook est effectivement à l'origine de la dépression. Il est tout aussi plausible d'imaginer que la dépression soit à l'origine d'une utilisation accrue de Facebook. Et même si les données montrent que plus les gens passent de temps sur Facebook, plus leur bien-être diminue, il est possible qu'une variable confondante telle que la solitude influence à la fois le temps passé sur Facebook, en tant que moyen de compléter le lien social, et la dépression.

Les titres des marchés financiers

Les titres des journaux du matin ressemblent souvent à un slogan tel que "Les actions bondissent en raison des progrès réalisés dans l'accord commercial avec la Chine". Ces récits convaincants offrent un élément d'information facile à comprendre pour expliquer les mouvements du marché ce jour-là. Le problème est qu'une corrélation entre un événement d'actualité et les prix des actions n'implique pas que l'événement ait réellement causé les changements sur le marché. Comme l'a dit un jour Paul Krugman, lauréat du prix Nobel d'économie, "j'entends dire qu'il s'est passé quelque chose sur le marché" : "J'ai entendu dire qu'il s'était passé quelque chose sur le marché aujourd'hui. Quiconque vous dit qu'il sait pourquoi prouve ainsi qu'il n'a aucune idée de ce dont il parle". Un indice boursier tel que le Dow Jones comporte tellement de variables qu'il est pratiquement impossible de déterminer un lien de causalité dans les mouvements d'une seule journée.

Ressources connexes

L'ancrage fonctionne-t-il dans la salle d'audience ?

Si vous souhaitez en savoir plus sur les préjugés humains concernant les relations de cause à effet, cet article examine si l'effet d'ancrage peut avoir un impact sur la perception de la causalité par un juré.

Le jeu de la vie : Discuter du déterminisme dans les sciences du comportement

Cet article aborde un grand nombre de dilemmes et de défis auxquels est confrontée la recherche en sciences du comportement lorsqu'il s'agit de prouver la causalité.

Sources d'information

  1. Pearl, J. et Mackenzie, D. (2018). Le livre du pourquoi : la nouvelle science de la cause et de l'effet. Basic Books.
  2. Archer, E., Lavie, C. J., & Hill, J. O. (2018). L'incapacité à mesurer l'apport alimentaire a engendré un discours fictif sur les relations régime-maladie. Frontiers in nutrition, 5, 105.
  3. McArdle, M. (2008). Corrélation, causalité, vaccination. The Atlantic. Tiré de https://www.theatlantic.com/business/archive/2008/03/correlation-causation-vaccination/3087/
  4. Shakya, H. B. et Christakis, N. A. (2017). Association de l'utilisation de Facebook avec le bien-être compromis : A longitudinal study. American journal of epidemiology, 185(3), 203-211.
Notes illustration

Vous souhaitez savoir comment les sciences du comportement peuvent aider votre organisation ?