Correlación frente a causalidad

La idea básica

Si alguna vez has discutido con alguien que ha cursado estadística 101, puede que le hayas oído decir con orgullo: "correlación no implica causalidad". Este mantra se aplica repetidamente cuando la gente asume erróneamente que dos variables guardan una relación de causa y efecto en lugar de limitarse a mostrar un patrón similar de ocurrencias. Aunque el canto del gallo se produce cada mañana al salir el sol, no es la causa de que salga el sol.

Los ejemplos clásicos que ilustran este concepto suelen implicar extrañas correlaciones con las ventas de helados, como los incendios forestales, los ahogamientos, las quemaduras solares e incluso los ataques de tiburones. Consideremos la correlación con los incendios forestales, donde la cantidad de incendios forestales aumenta junto con el aumento de personas que compran helado. ¿Significa esto que la gente que compra helados provoca los incendios? Por supuesto que no. Simplemente muestran patrones estadísticos similares, ya que ambos se producen cuando hace calor en verano. Aunque este ejemplo es un caso intuitivo en el que ninguna de las variables causa la otra, muchas correlaciones pueden ser más difíciles de descifrar.

No se prende fuego a una parcela de la maleza de Montana cuando se compra una pinta de Haagen-Dazs


- Nate Silver, autor de La señal y el ruido

Theory, meet practice

TDL is an applied research consultancy. In our work, we leverage the insights of diverse fields—from psychology and economics to machine learning and behavioral data science—to sculpt targeted solutions to nuanced problems.

Our consulting services

Términos clave

Correlación: Asociación entre dos datos.

Causación: El acto de causar algo; un acontecimiento contribuye directamente a la existencia de otro.

Ensayo controlado aleatorizado (ECA): método experimental utilizado para determinar las relaciones causa-efecto, en el que se comparan los resultados de una condición de control con los de una condición experimental.

Variable de confusión: A veces conocida como la "tercera variable", una variable de confusión influye tanto en la variable independiente como en la dependiente, lo que puede dar lugar a una correlación espuria.

Historia

Hacia 1889, el polímata inglés Sir Francis Galton empezó a sospechar una divergencia entre estadística y causalidad. Observando conjuntos de datos hereditarios, Galton empezó a notar que los hombres altos tenían antebrazos más largos que la media, aunque no tanto como su estatura. Para Galton estaba claro que la estatura no era la causa de la longitud del antebrazo, ni la longitud del antebrazo la causa de la estatura, sino que ambas eran probablemente causadas por la herencia genética. Comenzó a utilizar un nuevo término para estas relaciones como la estatura y la longitud del antebrazo: estaban "co-relacionadas".1

En 1892, otro estadístico inglés, Karl Pearson, se refirió al trabajo de Galton al afirmar que la causalidad nunca puede demostrarse, que los meros datos son todo lo que hay en la ciencia. A principios del siglo XX, Pearson y su ayudante ofrecían ejemplos de "correlaciones espurias", como la correlación entre el consumo de chocolate per cápita de un país y su número de premios Nobel. Sin embargo, como señala Judea Pearl en The Book of Why, a pesar de la hostilidad de Pearson hacia la causalidad, al sugerir que una correlación era espuria, también estaba haciendo una referencia lógica a la causalidad. En otras palabras, al decir que el consumo de chocolate no causa ganadores del Premio Nobel, se está presumiendo que la causalidad existe de hecho en alguna parte. Así pues, aunque la comunidad estadística ya estaba de acuerdo en que la correlación no implica causalidad, había poco acuerdo sobre cómo determinar realmente la causalidad.

Alrededor de 1918, un cuidador de cobayas del Departamento de Agricultura de EE.UU. llamado Sewall Wright empezó a exceder sus obligaciones laborales utilizando modelos matemáticos para evaluar dependencias directas en los datos genéticos de las cobayas mediante un modelo causal. Su ingenioso trabajo utilizando "diagramas de trayectorias" se convertiría más tarde en el fundamento de la inferencia causal. Como escribe Pearl, "esta idea debió de parecer simple a Wright, pero resultó revolucionaria porque fue la primera prueba de que el mantra "correlación no implica causalidad" debía dar paso a "algunas correlaciones sí implican causalidad"".1

Al margen de los conjuntos de datos predeterminados, los ensayos controlados aleatorios (ECA) acabaron ganando popularidad dentro de la ciencia y la estadística como forma de determinar la causalidad experimentalmente en lugar de basarse únicamente en las matemáticas. En la actualidad, los ECA suelen considerarse el "patrón oro" de los ensayos clínicos y son esenciales para una investigación médica sólida, ya que distinguir entre correlación y causalidad es fundamental para comprender la eficacia de un nuevo tratamiento o procedimiento médico.

Personas

Sir Francis Galton

El polímata inglés también fue considerado sociólogo, psicólogo, antropólogo y meteorólogo, entre otros muchos "istas". Sus trabajos estadísticos sobre la herencia genética dieron lugar al concepto de correlación. También fue el primero en introducir el concepto de regresión a la media, la idea de que los datos más típicos suelen seguir a los atípicos.

Karl Pearson

Matemático y estadístico inglés, Pearson fundó el primer departamento de estadística del mundo en el University College de Londres en 1911, donde su Laboratorio de Biometría se convirtió en el centro mundial de la estadística durante al menos dos décadas.1 Fue uno de los primeros en sugerir que la correlación no implica causalidad. En la actualidad, el método estadístico más utilizado para calcular la correlación entre dos variables se conoce como coeficiente de correlación o r de Pearson. Aunque Pearson desarrolló la fórmula, la idea procede de los trabajos de Francis Galton y Auguste Bravais.

Ronald Fisher

También estadístico inglés, a menudo se atribuye a Fisher la popularización del ECA dentro de la investigación. A principios de la década de 1920, Fisher intentaba separar los efectos de los fertilizantes en los cultivos de otras variables, cuando sugirió que la aleatorización era la única herramienta infalible en estadística.1

Consecuencias

Las consecuencias de confundir causalidad con correlación son enormes. Muchas de las decisiones clave que se toman en la administración y la empresa se basan a menudo en análisis estadísticos, pero incluso cuando se observan estadísticas objetivas, la interpretación puede ser subjetiva. Por ejemplo, un equipo directivo puede analizar los datos de marketing y ver que una determinada campaña publicitaria regional está correlacionada con un aumento de las ventas, por lo que decide invertir millones en una campaña nacional de la misma naturaleza. Sin embargo, esto podría resultar costoso, ya que la correlación no significa realmente que la campaña publicitaria haya causado el aumento de las ventas.

Asumir la causalidad a partir de datos correlacionales también puede tener ramificaciones considerables en la opinión pública. Todos hemos visto u oído titulares llamativos que sugieren que el café provoca cáncer y que los huevos alargan la vida, y una semana después oímos que el café previene el cáncer y que comer huevos puede matarte. ¿Por qué? El hecho es que muchos estudios sobre salud y nutrición son sólo correlacionales, lo que significa que, en un determinado conjunto de datos, los investigadores pueden haber descubierto que los bebedores de café tienen tasas más altas de cáncer en comparación con los que no beben café. Esta conclusión no nos dice realmente si el café causa cáncer. Algunas personas han llegado incluso a decir que gran parte de la ciencia de la nutrición es en realidad pseudociencia, ya que a menudo no cumple adecuadamente los criterios de causalidad.2

El público también puede ser propenso a percibir erróneamente la causalidad a partir de sus propias observaciones, además de las observaciones de los investigadores. Desde una perspectiva social, esto puede dar lugar a una serie de suposiciones preocupantes y erróneas en relación con la raza, la clase social o el género. Estos errores pueden afectar a la forma en que las personas tratan a los demás, así como a las creencias que mantienen. Gran parte del movimiento antivacunas, por ejemplo, se basa en pruebas pseudocientíficas que confunden correlación con causalidad.3

Controversias

Como se puede imaginar, el espacio de correlación frente a causalidad puede ser un polvorín para encender controversias. Muchos argumentos que se basan en una estadística determinada se ven cuestionados por la falta de una inferencia causal sólida como una roca. Es famoso el caso de la industria tabacalera, que recurrió a esta estrategia en su intento de rechazar la otrora controvertida asociación entre el tabaquismo y el cáncer de pulmón, obteniendo incluso el apoyo del distinguido estadístico Ronald Fisher. Debido a las barreras éticas y prácticas para llevar a cabo un ECA que determinara los efectos causales del tabaco sobre el cáncer de pulmón, era difícil convencer a escépticos como Fisher, que resultaba ser fumador él mismo, de las consecuencias de fumar. Algunas personas argumentaban que podía existir un gen del tabaquismo que provocaba en las personas ansias de fumar y también aumentaba sus probabilidades de padecer cáncer de pulmón. A pesar de los numerosos estudios realizados a lo largo de los años que indicaban una fuerte relación entre el tabaquismo y el cáncer, los escépticos siempre se apoyaban en la lógica de que ninguno de los estudios podía comparar a fumadores con no fumadores idénticos.1

Ningún estadístico que se precie rebatiría la noción de que correlación no implica causalidad, por lo que las controversias que rodean al concepto suelen implicar la afirmación de que dos variables correlacionadas también presentan una relación causal. Al igual que con el debate sobre el tabaco, estas discordias surgen en situaciones en las que un ECA no puede zanjar una disputa, lo que suele ocurrir en campos como la sociología y la economía. El salario mínimo, por ejemplo, es un tema muy debatido debido al reto que supone adquirir datos que puedan expresar los efectos causales de los cambios en el salario mínimo. Los economistas no pueden realizar un ECA en el que manipulen los salarios de las personas, por lo que las personas de ambos lados de la discusión pueden señalar posibles variables de confusión como refutación de ciertas correlaciones que pueden utilizarse para apoyar un punto de vista previo.

Casos prácticos

Facebook y la salud mental

Un estudio publicado en el American Journal of Epidemiology en 2017 encontró una asociación entre el uso de Facebook y la reducción del bienestar.4 El hallazgo fue publicado por múltiples medios de comunicación importantes, como CNBC y Harvard Business Review, y el primero llegó a decir: "Facebook realmente te hace sentir deprimido." Aunque el estudio utilizó datos longitudinales y se realizó con rigor, sólo ofrece una relación correlacional. El estudio no nos dice si el uso de Facebook causa realmente depresión. Es igualmente plausible imaginar que la depresión cause un mayor uso de Facebook. Y aunque los datos muestran que a medida que las personas pasan más tiempo en Facebook, su bienestar disminuye, es posible que una variable de confusión como la soledad esté influyendo tanto en el tiempo que se pasa en Facebook, como forma de complementar la conexión social, como en la depresión.

Titulares de los mercados financieros

Los titulares de las noticias matinales suelen parecerse a un eslogan como "Las bolsas suben ante los avances en el acuerdo comercial con China". Estas convincentes narraciones ofrecen una información fácil para explicar el movimiento de ese día en el mercado. El problema es que el hecho de que una noticia esté correlacionada con los precios de las acciones no implica que el acontecimiento haya causado realmente los cambios en el mercado. Como dijo una vez Paul Krugman, Premio Nobel de Economía: "He oído que hoy ha pasado algo en el mercado. Cualquiera que te diga que sabe por qué demuestra con ello que no tiene ni idea de lo que habla". Hay tantas variables en un índice bursátil como el Dow Jones que es prácticamente imposible determinar la causalidad en el movimiento de un solo día.

Recursos relacionados

¿Funciona el anclaje en los tribunales?

Si le interesa leer más sobre los sesgos humanos en las creencias sobre las relaciones causa-efecto, este artículo analiza si el efecto de anclaje puede influir en la percepción de la causalidad por parte de un jurado.

El juego de la vida: Debatir el determinismo en las ciencias del comportamiento

Este artículo aborda muchos de los dilemas y retos que plantea la investigación en ciencias del comportamiento a la hora de demostrar la causalidad.

Fuentes

  1. Pearl, J., y Mackenzie, D. (2018). El libro del porqué: la nueva ciencia de la causa y el efecto. Basic Books.
  2. Archer, E., Lavie, C. J., & Hill, J. O. (2018). La incapacidad de medir la ingesta dietética engendró un discurso ficticio sobre las relaciones dieta-enfermedad. Fronteras de la nutrición, 5, 105.
  3. McArdle, M. (2008). Correlación, causalidad, vacunación. The Atlantic. Obtenido de https://www.theatlantic.com/business/archive/2008/03/correlation-causation-vaccination/3087/
  4. Shakya, H. B., y Christakis, N. A. (2017). Asociación del uso de Facebook con el bienestar comprometido: Un estudio longitudinal. Revista Americana de Epidemiología, 185(3), 203-211.

Read Next

Notes illustration

Eager to learn about how behavioral science can help your organization?