¿Por qué los científicos siguen buscando un resultado estadísticamente significativo después de no haberlo encontrado inicialmente?

The 

Efecto de búsqueda en otra parte

explicó.
Bias

¿Qué es el efecto "mirar a otro lado"?

El efecto "buscar en otra parte" describe cómo, cuando los científicos analizan los resultados de sus experimentos, es posible que resultados aparentemente significativos desde el punto de vista estadístico se hayan producido por casualidad. Una de las razones por las que esto puede ocurrir es que un investigador haya ignorado un resultado estadísticamente insignificante que había encontrado anteriormente, optando por "buscar en otra parte", es decir, seguir buscando un resultado significativo en lugar de aceptar sus resultados iniciales.

Dónde se produce este sesgo

Supongamos que tu amigo David es un investigador médico que intenta desarrollar un fármaco que ayude a la gente a recuperarse más rápidamente de los resfriados. Lleva a cabo un experimento en el que prueba su nuevo tratamiento, recoge un montón de datos y los analiza mediante pruebas estadísticas. Su análisis no encuentra ningún efecto significativo del tratamiento en el tiempo de recuperación de las personas.

Al principio, David se siente decepcionado, pero luego decide que tal vez la razón por la que no encontró un resultado significativo es que estaba buscando en el lugar equivocado. Tras realizar varias pruebas diferentes, acaba encontrando un efecto estadísticamente significativo: el grupo de tratamiento presentó menos síntomas de dolor de cabeza que el grupo de control. Todo un éxito.

Efectos individuales

El efecto "mirar a otro lado" se alimenta de distorsiones cognitivas comunes a todas las personas, pero tiene que ver específicamente con las pruebas estadísticas y su interpretación. Por este motivo, afecta sobre todo a científicos e investigadores que utilizan la estadística para intentar demostrar (o refutar) una hipótesis.

Efectos sistémicos

El efecto "mire donde mire" es un factor importante que contribuye a la crisis de la replicación a la que se enfrentan actualmente muchas ramas de la ciencia. La replicación es el proceso de repetir un experimento ya realizado, con el fin de comprobar si los resultados serán o no los mismos. Se trata de un instrumento crucial para verificar que la maquinaria de la ciencia funciona como debe: si los resultados de un estudio no pueden repetirse, se pone en duda la validez de sus conclusiones iniciales.

Por desgracia, en los últimos años, una gran parte de las réplicas no han conseguido repetir los resultados del estudio original. Aunque este problema ha recibido la mayor atención en la psicología, se están produciendo crisis paralelas en varios campos, como la economía1 e incluso la medicina, donde, según algunas estimaciones, sólo entre el 20 y el 25 por ciento de los estudios se reproducen a la perfección.2 Probablemente no haga falta decir que se trata de un problema enorme, que impide el progreso científico y también socava la fe del público en los científicos.

Por qué ocurre

Para entender el efecto de búsqueda en otro lugar, primero tenemos que tener una comprensión muy básica de lo que significa tener un hallazgo "estadísticamente significativo". Cuando los investigadores quieren probar una hipótesis, suelen realizar un experimento en el que comparan los resultados de diferentes grupos, por ejemplo, un grupo que recibe el tratamiento que el investigador está estudiando y un grupo de control que sólo recibe un placebo. Siempre que se controlen cuidadosamente todos los demás factores, si vemos que hay una diferencia entre los resultados de estos grupos, podemos afirmar que la diferencia se debe al tratamiento. ¿No es así?

El problema es que, incluso cuando los investigadores han controlado otras variables, sigue existiendo la posibilidad de que cualquier diferencia entre grupos se deba a una coincidencia aleatoria. Esto se debe a que, aunque estamos intentando hacer generalizaciones sobre cómo afectaría un tratamiento a toda una población, tenemos que probarlo en una muestra mucho más pequeña de individuos. Si, por alguna razón, nuestra muestra resulta no ser representativa de toda la población, entonces nuestros resultados serían engañosos.

Para ilustrarlo, imagina que trabajas en una heladería donde la gente puede probar los sabores. Un día entra un grupo enorme de personas, unas cien, y todas quieren probar el de menta y chocolate. Obviamente, hay muchos trocitos de chocolate en el de menta y chocolate, pero no están distribuidos uniformemente por todo el cubo. La gran mayoría de las veces, las muestras contienen algo de chocolate, pero de vez en cuando, algún desafortunado recibe una muestra que no es más que helado de menta, una muestra que no representa adecuadamente el sabor.

En ciencia, el muestreo plantea un problema similar: siempre existe la posibilidad de que nuestra muestra experimental, sólo por mala suerte, tenga características que la hagan responder al tratamiento de forma diferente al resto de la población. Esto significa que nuestros resultados serían fruto del azar (también conocido como error de muestreo) y nos estarían llevando a una conclusión errónea sobre nuestro tratamiento.

Nunca podremos escapar del todo a este problema, pero podemos intentar sortearlo utilizando la estadística. Existen muchas pruebas estadísticas que ayudan a los científicos a juzgar si sus resultados son realmente significativos. En muchos casos, los científicos utilizan las pruebas estadísticas para calcular un valor p, un número que indica la probabilidad de obtener un resultado significativo debido al azar y no a los efectos del tratamiento. Por ejemplo, una p de 0,1 indicaría una probabilidad del 10%. Los investigadores de distintos campos acordarán mutuamente un umbral p que un resultado debe cruzar para considerarse significativo. A menudo, esta línea se traza en 0,05, lo que significa que los científicos están de acuerdo en no tolerar más de un 5% de probabilidad de que un resultado sea sólo una coincidencia. Los resultados significativos falsos se conocen como errores alfa o errores de tipo I.

Una vez aclarado esto, podemos volver al efecto "mirar a otra parte".

Más pruebas estadísticas, más problemas

Una de las razones por las que se produce este efecto es puramente matemática. En estadística se conoce como el problema de las comparaciones múltiples. Como su nombre indica, este problema surge cuando los científicos realizan muchas pruebas estadísticas con el mismo conjunto de datos. Aunque pueda parecer que esto no debería ser un problema, en realidad aumenta las posibilidades de cometer un error alfa.3 Cuantas más veces busque un investigador un resultado en el mismo conjunto de datos, más probabilidades tendrá de dar con algo que parezca interesante a primera vista, pero que en realidad no sea más que el resultado del ruido, o de fluctuaciones aleatorias en los datos.4

Esta es, en pocas palabras, la explicación estadística del efecto de búsqueda. Sin embargo, esto no lo explica todo. Al fin y al cabo, los investigadores están formados en estadística y deberían saber que no se puede hacer un montón de pruebas sin más. Además, hay formas de corregir estadísticamente el problema de las comparaciones múltiples, en los casos en los que es realmente necesario realizar muchas pruebas diferentes.3 Entonces, ¿por qué persiste este problema en la investigación científica? La respuesta se reduce a sesgos cognitivos inconscientes.

Los humanos somos falibles, incluso los científicos

Las personas son propensas a toda una serie de sesgos y heurísticas que distorsionan su pensamiento. Además, los prejuicios inconscientes son eso: inconscientes. Incluso cuando nos han enseñado los defectos de nuestro propio pensamiento, a menudo sigue siendo muy difícil evitar caer en las mismas trampas cognitivas. Una píldora aún más difícil de tragar: esta verdad se aplica tanto a los expertos como a los profanos. Aunque muchos de nosotros tendemos a considerar que los científicos están de algún modo por encima de cometer los mismos errores de juicio que el resto de nosotros, la evidencia ha demostrado que no es así. Y lo que es aún más sorprendente, la educación formal de los científicos en estadística no les libra de un razonamiento sesgado a la hora de estimar probabilidades.

Una famosa demostración de este hecho es el tamaño de las muestras. Es un hecho básico en estadística que las muestras grandes siempre son mejores; las muestras más pequeñas dificultan la detección de un posible efecto. Y, sin embargo, la investigación ha demostrado que incluso estadísticos de gran renombre a veces no tienen en cuenta el tamaño de la muestra.

En un artículo titulado "Belief in the Law of Small Numbers" ("La creencia en la ley de los números pequeños"), los economistas conductuales Daniel Kahneman y Amos Tversky, galardonados con el Premio Nobel, pidieron a investigadores experimentados, entre ellos dos autores de manuales de estadística, que rellenaran un cuestionario en el que se describían escenarios hipotéticos de investigación. Se pidió a los expertos que eligieran el tamaño de las muestras, estimaran el riesgo de fracaso y aconsejaran a un hipotético estudiante de posgrado que llevara a cabo el proyecto. Los resultados mostraron que una gran mayoría de los encuestados cometía errores de apreciación por no prestar suficiente atención al tamaño de la muestra.5

En resumen, está claro que incluso los más eruditos somos vulnerables a los sesgos cognitivos. Además de nuestra falta de intuición estadística, hay otros sesgos, como el optimismo y la justificación del esfuerzo, que probablemente influyen en el efecto de "mirar a otra parte".

Somos optimistas hasta la exageración

El sesgo optimista describe cómo, en general, estamos más orientados hacia lo positivo: prestamos más atención a la información positiva, recordamos mejor los acontecimientos felices que los desagradables y tenemos expectativas positivas de las personas y el mundo que nos rodea.6 Este "sesgo" no es necesariamente malo: al contrario, nuestro optimismo general aumenta claramente nuestro bienestar. A veces, sin embargo, el sesgo optimista puede llevarnos a suprimir la información negativa, ignorando los hechos que nos hacen sentir mal en favor de los que nos alegran el ánimo.7 Cuando se trata del efecto "mirar a otra parte", la determinación de buscar información positiva puede llevar a algunos investigadores a hacer caso omiso de sus insignificantes resultados iniciales y seguir buscando un hallazgo más emocionante.

Odiamos que nuestro trabajo se eche a perder.

Cuando un investigador llega a la fase de análisis de un experimento, es probable que haya invertido una cantidad considerable de tiempo y energía en diseñar el experimento, adquirir todos los materiales necesarios y recopilar datos. La investigación requiere mucho esfuerzo, y nunca queremos sentir que nuestro duro trabajo se ha echado a perder. Y cuando empieza a parecer que no ha servido para nada, empezamos a hacer gimnasia cognitiva para evitar tener que enfrentarnos a esa desagradable verdad. Este fenómeno se conoce como justificación del esfuerzo.

A menudo, la justificación del esfuerzo hace que las personas atribuyan más valor al objeto o proyecto en el que se han esforzado. En un estudio clásico de Elliot Aronson y Judson Mills, se dijo a estudiantes universitarias que participarían en un debate de grupo sobre sexualidad. Sin embargo, a algunas de ellas se les sometió primero a un embarazoso proceso de iniciación, supuestamente para demostrar que no se sentirían demasiado incómodas para participar en la conversación. Las mujeres que tuvieron que esforzarse más calificaron después el contenido de la conversación como más interesante y a sus compañeras de grupo como más inteligentes, en comparación con las que no habían pasado por la iniciación.8

En lo que respecta al efecto de búsqueda, la reticencia de los investigadores a abandonar proyectos en los que han invertido mucho esfuerzo puede llevarles a seguir realizando pruebas estadísticas, más allá del punto en el que probablemente deberían abandonar. Es difícil aceptar que una hipótesis no funcione, y muchas personas adoptan la actitud de que cualquier resultado significativo es mejor que quedarse sin nada, aunque ese resultado no sea el que buscaban en un principio.

La "carrera de ratas" del mundo académico

Aunque el razonamiento humano defectuoso puede llevar a los individuos a caer en el efecto de buscar en otra parte, es innegable que también hay muchas fuerzas estructurales en juego que impulsan este problema. Con la crisis de la replicación aún en curso, muchos han señalado con el dedo acusador a la cultura del mundo académico moderno, donde los investigadores están incentivados para publicar tantos artículos académicos como puedan y los recién graduados están atrapados en una feroz competencia por un número cada vez menor de puestos de trabajo. Según un estudio de 2013, solo había suficientes puestos académicos para que el 12,8% de los doctorados en Estados Unidos encontraran empleo9 , y el problema no ha hecho más que mostrar signos de empeoramiento desde entonces. Este tipo de mercado laboral ejerce una enorme presión sobre las personas para que rindan.

Otra cuestión tiene que ver con la forma de medir los resultados y el tipo de investigación que se considera publicable. En general, sólo los resultados estadísticamente significativos se consideran lo suficientemente interesantes como para merecer su publicación. En consecuencia, muchos investigadores consideran que los resultados estadísticamente insignificantes son "fracasos", aunque un resultado insignificante siga aportando información valiosa. Esta dinámica motiva a los científicos a "mirar hacia otro lado" e intentar alcanzar la significación estadística siempre que sea posible.

Por qué es importante

El efecto "mire donde mire", repetido por muchas personas a lo largo de muchos años, puede tener consecuencias devastadoras para los investigadores. La crisis de la replicación ha puesto en tela de juicio la existencia misma de conceptos en los que muchos investigadores han apostado toda su carrera. Por ejemplo, en una entrada de blog de junio de 2020, el psicólogo social y neurocientífico Michael Inzlicht escribió sobre un tema central de su trabajo -el agotamiento del ego, la idea de que el autocontrol depende de una reserva limitada de recursos- que, como resulta, "probablemente no sea real".10 Esta revelación tuvo un enorme impacto emocional: en sus palabras, "deshizo [su] mundo".

Pero el efecto "mirar a otra parte" no sólo causa problemas a los individuos. Como factor que contribuye a la crisis de la replicación, tiene implicaciones de gran alcance: además de impedir el progreso científico y llevar a los científicos a conclusiones incorrectas, también perjudica la reputación de la ciencia como institución. En una época en que la verdad parece cada vez más difícil de precisar y las teorías conspirativas ganan un terreno alarmante, es primordial que el público confíe en los expertos científicos. Por desgracia, esa confianza se ve socavada por el escandaloso número de estudios que no pueden reproducirse: en algunas ramas de la psicología, por ejemplo, hasta la mitad de todos los estudios publicados pueden no ser reproducibles15.

Cómo evitarlo

Como hemos establecido, es difícil evitar los sesgos cognitivos, incluso cuando sabemos que existen. Sin embargo, en lo que se refiere al efecto "mire por donde mire", hay medidas específicas que los investigadores pueden tomar para protegerse de las prácticas estadísticas inadecuadas. Muchas de estas prácticas son cada vez más comunes, ya que muchos científicos abogan por una mayor apertura y transparencia en sus campos. Algunos cambios más amplios en la cultura científica y académica también ayudarían a resolver este problema.

Preinscriba los estudios antes de que se produzcan

El prerregistro consiste en presentar un plan de investigación a un registro antes de llevar a cabo el estudio. Cuando los investigadores prerregistran un estudio, se comprometen a un plan no sólo para llevar a cabo el experimento en sí, sino también para el análisis de los datos, declarando qué pruebas estadísticas piensan utilizar11 . Esto, a su vez, puede minimizar los errores de tipo I y ayudar a garantizar que la investigación publicada signifique realmente un hallazgo significativo.

Abrir el archivador

Como ya se ha mencionado, los académicos y los editores de revistas no suelen considerar valiosos los resultados estadísticamente nulos. Esto significa que los estudios que arrojan resultados insignificantes rara vez son vistos por nadie, excepto por el investigador o investigadores que los llevaron a cabo.

El hecho de no tener en cuenta los resultados nulos no sólo fomenta el efecto de buscar en otra parte, porque los investigadores no ven ningún valor en sus resultados nulos, sino que también puede tener consecuencias negativas para la ciencia en su conjunto al crear un sesgo en la literatura publicada. Imaginemos, por ejemplo, que 99 investigadores de todo el mundo han realizado experimentos para demostrar la existencia de X y han obtenido resultados insignificantes. Esos científicos probablemente no harían públicos sus proyectos "fallidos" a nadie. Pero un día, un investigador número 100 realiza un estudio similar, (por casualidad) obtiene un resultado estadísticamente significativo y lo publica en una revista académica. Como los 99 intentos fallidos no se publicaron, nadie se da cuenta de que este hallazgo es engañoso.

Este fenómeno se conoce como el "problema del cajón de archivo", porque los trabajos con resultados estadísticamente insignificantes tienden a tirarse a un cajón de archivo y guardarse bajo llave. Al fomentar la publicación de estos resultados nulos, los científicos pueden reducir el incentivo de "buscar en otra parte", al tiempo que contribuyen a garantizar que la atención y la financiación se destinan a actividades que merecen la pena.12

Cómo empezó todo

La preocupación por la replicabilidad empezó a cundir en distintos campos científicos a principios de la década de 2000. En un famoso artículo de 2005 titulado "Por qué la mayoría de los resultados de investigación publicados son falsos", el profesor de la Universidad de Stanford John Ioannidis argumentaba que, debido a una serie de factores estadísticos, como el gran número de pruebas estadísticas y la flexibilidad en el diseño y el análisis, un gran número de trabajos de investigación publicados (él se refería específicamente a la investigación médica) se basaban en errores de tipo I y no podían reproducirse13.

Más tarde, en 2012, un equipo de investigadores encuestó a más de 2.000 psicólogos sobre su uso de prácticas de investigación cuestionables y descubrió que el 67% de ellos había incurrido en al menos una práctica de este tipo. Esto incluye conductas como no informar de todas las relaciones estadísticas probadas, como suele ocurrir con el efecto de buscar en otra parte14.

Ejemplo 1 - El código de la Biblia

En la década de 1990, Eliyahu Rips y Doron Witztum, dos investigadores de la Universidad Hebrea de Jerusalén, publicaron un artículo en la revista Statistical Science, en el que afirmaban tener pruebas de que el Libro del Génesis contenía predicciones para el futuro. En su artículo, Rips y Witztum demostraban que si se tomaba una de cada cinco letras de esta parte de la Biblia y se colocaban en una secuencia, esa secuencia de letras contenía los nombres, las fechas de nacimiento y las fechas de defunción de 32 rabinos famosos de toda la historia judía.16

A primera vista, este hallazgo parece imposible que sea una coincidencia: las probabilidades de que ocurra algo así son infinitesimales. Y, sin embargo, todo el mundo está de acuerdo en que el "código bíblico" es un truco del efecto "buscar en otra parte". El libro del Génesis es el más largo de la Biblia, con más de 38.000 palabras. Dado el gran número de letras analizadas y la flexibilidad del propio análisis (Rips y Witztum podrían haber mirado una de cada seis letras, o una de cada siete, y así sucesivamente), habría sido más inusual que los investigadores no hubieran encontrado algún tipo de patrón estadísticamente significativo.

Ejemplo 2 - Buscar el bosón de Higgs en otra parte

En diciembre de 2011, los físicos del Gran Colisionador de Hadrones del CERN creyeron haber hallado pruebas de la presencia de la partícula bosón de Higgs, un componente fundacional pero en aquel momento no confirmado del modelo estándar de la física de partículas. Sin embargo, esta observación puede haber sido el resultado del efecto "mirar a otra parte". Cuando se creía que los científicos habían encontrado pruebas de la existencia del bosón de Higgs, habían estado recogiendo "tasas excesivas" de datos, lo que hacía más probable que los patrones que habían observado fueran sólo el resultado de fluctuaciones aleatorias.17

Resumen

Qué es

El efecto "buscar en otra parte" describe cómo los resultados que parecen significativos pueden haber surgido por pura casualidad.

Por qué ocurre

Los investigadores se ven impulsados a seguir "buscando en otra parte" un resultado estadísticamente significativo por sesgos cognitivos como el sesgo del optimismo y la justificación del esfuerzo, así como por problemas sistémicos de la comunidad científica. Desde el punto de vista matemático, esto aumenta las probabilidades de que cualquier relación significativa que se detecte sea en realidad una mera coincidencia aleatoria.

Ejemplo 1 - El código bíblico y el efecto "mirar a otra parte

En la década de 1990, unos investigadores creyeron haber descubierto un patrón asombroso en el Libro del Génesis: la secuencia formada por cada quinta letra contenía los nombres, fechas de nacimiento y defunción de 32 rabinos notables. Por muy milagroso que parezca a primera vista, también se trata de un resultado del efecto "buscar en otra parte", ya que con una cantidad tan grande de datos es normal que se produzca un resultado estadísticamente significativo.

Ejemplo 2 - Buscar el bosón de Higgs en otra parte

En 2011, los físicos creyeron haber encontrado pruebas de la (en ese momento) esquiva partícula bosón de Higgs. De hecho, los patrones que creían que indicaban la presencia del bosón de Higgs eran probablemente fluctuaciones aleatorias en su enorme conjunto de datos.

Cómo evitarlo

El prerregistro de los estudios científicos y el avance hacia la publicación de los resultados estadísticamente insignificantes son dos pasos importantes que la comunidad científica puede dar para combatir el efecto "mirar a otra parte".

Referencias

  1. Camerer, C. F., Dreber, A., Forsell, E., Ho, T. H., Huber, J., Johannesson, M., … & Heikensten, E. (2016). Evaluating replicability of laboratory experiments in economics. Science351(6280), 1433-1436.
  2. Engber, D. (2019, April 19). Think psychology’s replication crisis is bad? Welcome to the one in medicine. Slate Magazine. https://slate.com/technology/2016/04/biomedicine-facing-a-worse-replication-crisis-than-the-one-plaguing-psychology.html
  3. Goldman, M. (2008). Why is multiple testing a proble,? [PDF]. The University of California, Berkeley. https://www.stat.berkeley.edu/~mgoldman/Section0402.pdf
  4. Koehrsen, W. (2018, February 7). The misleading effect of noise: The multiple comparisons problem. Medium. https://towardsdatascience.com/the-multiple-comparisons-problem-e5573e8b9578
  5. Kahneman, D. (2011). Thinking, fast and slow. Macmillan.
  6. Ackerman, C. E. (2016, September 1). Pollyanna principle: The psychology of positivity bias. PositivePsychology.com. https://positivepsychology.com/pollyanna-principle/
  7. Lovallo, D., & Kahneman, D. (2003, July). Delusions of success: How optimism undermines executives’ decisions. Harvard Business Review. https://hbr.org/2003/07/delusions-of-success-how-optimism-undermines-executives-decisions
  8. Aronson, E., & Mills, J. (1959). The effect of severity of initiation on liking for a group. The Journal of Abnormal and Social Psychology59(2), 177-181. https://doi.org/10.1037/h0047195
  9. Larson, R. C., Ghaffarzadegan, N., & Xue, Y. (2014). Too many PhD graduates or too few academic job openings: the basic reproductive number R0 in academia. Systems research and behavioral science31(6), 745-750.
  10. Inzlicht, M. (2020, June 26). The replication crisis is not over. Michael Inzlicht. https://michaelinzlicht.com/getting-better/2020/6/26/the-replication-crisis-is-not-over
  11. Center for Open Science. (n.d.). Preregistrationhttps://www.cos.io/initiatives/prereg
  12. In praise of replication studies and null results, Nature 578, 489-490 (2019).
  13. Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine2(8), e124.
  14. John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological science23(5), 524-532.
  15. Yong, E. (2018, November 19). Psychology’s replication crisis is running out of excuses. The Atlantic. https://www.theatlantic.com/science/archive/2018/11/psychologys-replication-crisis-real/576223/
  16. Flender, S. (2019, July 28). The statistics of the improbable. Medium. https://towardsdatascience.com/the-statistics-of-the-improbable-cec9a754e0ff
  17. Dawid, R. (2015). Higgs discovery and the look elsewhere effect. Philosophy of Science82(1), 76-96.
Notes illustration

Eager to learn about how behavioral science can help your organization?