Red bayesiana

La idea básica

La incertidumbre es un hecho de la vida. Sin embargo, la existencia de incertidumbre no significa que no podamos hacer predicciones sobre las relaciones causa-efecto. La teoría de la probabilidad sugiere que, aunque no podamos estar seguros de un único resultado de un suceso aleatorio, sí podemos predecir la probabilidad de una serie de resultados posibles.1 La teoría de la probabilidad trata de hacer inferencias fundamentadas ante la incertidumbre.

Una red bayesiana es un modelo gráfico probabilístico. Se utiliza para modelizar lo desconocido basándose en el concepto de la teoría de la probabilidad. Las redes bayesianas muestran una relación entre nodos -que representan variables- y resultados, determinando si las variables son dependientes o independientes. Una red bayesiana funciona hacia atrás, observando un suceso y sugiriendo las posibles variables que lo han provocado. En otras palabras, una red bayesiana proporciona información sobre las probabilidades relativas a las causas y los efectos de los acontecimientos.

Por ejemplo, si observaras que el césped está mojado, podrías preguntarte: "¿Cuál es la probabilidad de que esté mojado porque está lloviendo?". Para averiguar la probabilidad, tendrías que calcular con qué frecuencia la causa de que la hierba esté mojada es la lluvia, lo que también significa saber con qué frecuencia la hierba está mojada por una razón diferente (como que el aspersor esté encendido). Dado que el hecho de que el aspersor esté encendido también depende de si llueve o no, una red bayesiana trazaría un mapa de las distintas variables condicionales y sus respectivas probabilidades.2

Según el teorema de Bayes, ninguna teoría es perfecta. Se trata más bien de un trabajo en curso, siempre sujeto a mejoras y pruebas.


- El estadístico estadounidense Nate Silver3

Términos clave

Teoría de la probabilidad: rama de las matemáticas que examina la relación entre los fenómenos aleatorios. Determina la probabilidad de que se produzca un suceso dividiendo su frecuencia en el conjunto de resultados por el número total de resultados potenciales. Para determinar la probabilidad de que una moneda salga cara, por ejemplo, la teoría de la probabilidad dividiría la frecuencia de "cara" en el conjunto (1) por el número de resultados posibles (2: cara o cruz), lo que arroja una probabilidad de 1 entre 2.4

Nodos: en una red bayesiana, cada nota es una variable aleatoria distinta.2

Grafos acíclicos dirigidos: muestra supuestos sobre la relación entre variables (nodos). En los gráficos acíclicos dirigidos, las relaciones son siempre unidireccionales. Sólo se mueven de causa a efecto. Es importante destacar que los gráficos acíclicos no tienen bucles de retroalimentación: los nodos descendientes no afectan a los nodos padres. Esencialmente, los nodos padres son variables situadas más arriba en el grafo que afectan a las situadas más abajo (nodos descendientes).5

Bucle de retroalimentación: los bucles se producen en las redes gráficas cuando los nodos descendientes también afectan a los nodos padres.

Condición de Markov: suposición que se hace en las redes bayesianas de que los nodos padres son independientes de sus nodos descendientes. Esta suposición es la razón por la que la red es un grafo acíclico con enlaces unidireccionales.6

Historia

Thomas Bayes fue un matemático inglés del siglo XVIII. Desarrolló una ecuación matemática para determinar la probabilidad de que se produzca un suceso, basándose en la frecuencia con la que ocurrió en el pasado.7 Esta ecuación pasó a conocerse como probabilidad inversa.

Durante su vida, Bayes no publicó gran parte de su obra, sin embargo, póstumamente, en 1762, se publicó su trabajo "Ensayo para resolver un problema de la doctrina de las probabilidades", en el que esbozaba las bases de lo que llegó a conocerse como el teorema de Bayes.7

El teorema de Bayes sugiere que, para determinar la probabilidad de que se produzca un suceso, debemos incorporar el conocimiento previo de las condiciones que pueden estar relacionadas con el suceso. Esencialmente, es una forma de averiguar la probabilidad condicional: ¿Cuál es la probabilidad de que ocurra X, dado que ha ocurrido Y? Al incorporar este conocimiento previo de las variables relacionadas, el teorema de Bayes es capaz de hacer inferencias informadas, en lugar de sugerir que todo es igualmente aleatorio. Sugiere que las probabilidades de los sucesos deben ajustarse en función de la información disponible.

Para utilizar el teorema de Bayes, hay que empezar con una hipótesis y un grado de creencia en la exactitud de la hipótesis. A medida que recopile más información o datos relacionados con la hipótesis, podrá ajustar su grado de creencia.8 Por ejemplo, el teorema de Bayes podría utilizarse para determinar la probabilidad de que un paciente sufra una enfermedad cardiovascular si experimenta dolor torácico. En un principio, la hipótesis podría ser que existe un 10% de probabilidades de que el paciente padezca una enfermedad cardiovascular, porque el 10% de los pacientes que acuden quejándose de dolor torácico resultan padecer dicha enfermedad. Sin embargo, más información puede aumentar el nivel de creencia de la hipótesis.

Las enfermedades cardiovasculares son más frecuentes en los pacientes de más edad. Si el paciente en cuestión tiene más de 60 años, habría que ajustar la hipótesis para reflejar cuántos pacientes mayores de 60 años son diagnosticados de una enfermedad cardiovascular tras experimentar dolor torácico. La probabilidad de que el paciente padezca una enfermedad cardiovascular podría pasar al 12% en función de su edad. Esa cifra puede seguir cambiando en función de otros datos de que se disponga, por ejemplo, si lleva un estilo de vida activo, si es fumador o si en su familia hay antecedentes de enfermedades cardiovasculares.

El teorema de Bayes incorpora múltiples variables diferentes en la elaboración de una hipótesis y puede reflejarse en un modelo gráfico probabilístico. Así nació la red bayesiana, que ayuda a representar el teorema.

Un principio fundamental de las redes bayesianas es que deben cumplir la condición de Markov. Los nodos "padres" influyen en sus descendientes, pero los nodos padres no se influyen entre sí. Por ejemplo, en la siguiente red bayesiana simple 9 "Dieta" y "Ejercicio" son nodos padres. Aunque la dieta y el ejercicio pueden estar correlacionados, no tienen una relación causal (hacer ejercicio no hace que tenga una dieta diferente, ni viceversa). Estos nodos padre son condicionalmente independientes, pero ambos influyen en su nodo descendiente, la pérdida de peso.

Bayesian Network

Las redes bayesianas ganaron popularidad en la década de 1980, cuando los investigadores médicos empezaron a comprender que muchas condiciones, como el diagnóstico médico, no arrojaban conclusiones seguras. Las herramientas de diagnóstico nunca son precisas al 100%, lo que significa que la probabilidad de que un paciente padezca una enfermedad concreta no se basa únicamente en la frecuencia de la enfermedad, sino también en la precisión de la prueba de diagnóstico.

Por suerte, una red bayesiana puede tener en cuenta todas estas variables. Al mismo tiempo, los investigadores de la comunidad de inteligencia artificial también empezaron a adoptar las redes bayesianas para poder incorporar la incertidumbre a los sistemas basados en el conocimiento.10 El término red bayesiana fue acuñado oficialmente por el informático israelí-estadounidense Judea Pearl en 1985.11

Consecuencias

Se cree que las redes bayesianas reflejan fielmente la vida real porque incorporan la incertidumbre a su modelo predictivo. Las redes bayesianas demuestran que, aunque las variables sean aleatorias, hay formas de hacer predicciones informadas sobre las probabilidades. Además, la representación gráfica de una red bayesiana puede hacer que las complejas matemáticas de la probabilidad sean más fáciles de seguir. Como modelo que permite a los investigadores ajustar sus hipótesis ante nuevas pruebas, también puede evitar que seamos víctimas del sesgo de confirmación.

La repercusión de las redes bayesianas queda demostrada por su clasificación en 2004 como número 4 en la lista de "10 tecnologías emergentes que cambiarán tu mundo" del Instituto Tecnológico de Massachusetts.11 El uso de redes bayesianas puede simplificar el análisis de datos. Las redes son relativamente fáciles de entender, lo que significa que la gente corriente puede utilizarlas para determinar la probabilidad de relaciones causales. 12 Como resultado, la incertidumbre no significa que tengamos que tomar decisiones completamente a oscuras. Si la hierba está mojada, podemos deducir la probabilidad de que haya llovido y, por tanto, tomar una decisión informada sobre si llevar o no un paraguas, en función de la probabilidad de que vuelva a llover.

Controversias

Una crítica a las redes bayesianas es que, al ser grafos acíclicos dirigidos, no permiten bucles de retroalimentación. Esta carencia puede ser un problema cuando el modelo se utiliza para mostrar información sobre biología, concretamente porque nuestros cuerpos funcionan a menudo como respuesta a bucles de retroalimentación.

La homeostasis -la regulación del funcionamiento interno de nuestro cuerpo- es un ejemplo de bucle de retroalimentación biológica en el que los nodos descendientes influirían en los nodos progenitores. Por ejemplo, la piel de gallina es un efecto del frío. En una red bayesiana, la piel de gallina sería un nodo descendiente y la sensación de frío sería el nodo padre. Sin embargo, la piel de gallina influye en la probabilidad de que tengas frío, ya que te calienta. Una red bayesiana no tiene en cuenta esta dirección bilateral de causa y efecto.13

Existen otros modelos probabilísticos que funcionan de forma diferente a las redes bayesianas, como las redes neuronales. Las redes neuronales permiten correlaciones entre las variables de entrada, a diferencia de las redes bayesianas.14 En lugar de basarse únicamente en las probabilidades de las variables independientes, las redes neuronales funcionan enseñando al sistema a diferenciar entre distintas variables.

Por ejemplo, si quiere crear un programa capaz de diferenciar entre imágenes de cuadrados e imágenes de círculos, introduciría muchos ejemplos diferentes de círculos y cuadrados y los clasificaría como tales. Con suerte, la máquina aprendería por sí misma qué propiedades debe examinar para categorizar las formas entrantes. Esencialmente, las redes neuronales trabajan desde las entradas hasta las salidas, mientras que las redes bayesianas trabajan desde las salidas e intentan rastrear las causas hasta las entradas.

Predecir los resultados electorales

El estadístico estadounidense Nate Silver saltó a la fama tras predecir correctamente no solo que Barack Obama ganaría las elecciones presidenciales de 2012, sino también el resultado de la votación en cada uno de los estados.15 ¿Cómo pudo este bloguero desconocido hasta entonces realizar estas predicciones tan acertadas, incluso cuando los medios de comunicación afirmaban que la carrera estaba prácticamente igualada? Todo gracias a las redes bayesianas.

El funcionamiento de las elecciones presidenciales estadounidenses es jerárquico, lo que las hace perfectas para una red bayesiana que asuma que los nodos padres influyen en los nodos descendientes, pero no viceversa. Para ganar las elecciones, los candidatos deben ganar el mayor número de estados. Los estados son, por tanto, los nodos padre que influyen en el nodo descendiente: el resultado de las elecciones.

Silver recogió datos meses antes de la votación sobre cómo pensaba votar la gente. Por supuesto, siempre puede haber discrepancias entre lo que la gente piensa que va a votar y lo que realmente vota. Por suerte, eso no supuso un problema para Silver, porque el teorema de Bayes permite cambiar de hipótesis en función de la nueva información recopilada.

Silver comenzó con un "nowcast", que determinaba la probabilidad del resultado de cada estado si se votaba en un día determinado. En esta decisión influyeron diversas variables: el estatus socioeconómico de la población de cada estado, su composición racial y su historial electoral, entre otras. Estas variables dieron a Silver una predicción inicial de quién ganaría cada estado. Luego, a medida que pasaba el tiempo, Silver incorporaba nuevos datos entrantes. Por ejemplo, si las tasas de desempleo cambiaban en un estado, lo consideraba un factor y actualizaba sus predicciones.15

Silver generó la probabilidad de que Obama ganara en diferentes momentos a lo largo del periodo electoral. A medida que se acercaba el día de las elecciones, aparecían cada vez más datos de encuestas, lo que daba a Silver confianza en sus predicciones. Gracias a la asignación de todas las variables a redes bayesianas, Silver pudo predecir correctamente el resultado de las elecciones de 2012.15

Incertidumbre en el diagnóstico médico

Por desgracia, las pruebas de diagnóstico nunca son precisas al 100%. Afortunadamente, las redes bayesianas tienen en cuenta esta incertidumbre. Las redes bayesianas entienden que los resultados de las pruebas no son la única variable importante a la hora de diagnosticar. La frecuencia de falsos positivos y falsos negativos también influye en la probabilidad de diagnóstico .

Las redes bayesianas podrían ser útiles para calcular cifras exactas de las tasas de infección y mortalidad por COVID-19. Un grupo de investigadores realizó un estudio en el que se sugería que las estadísticas de COVID-19 notificadas a escala mundial no tienen en cuenta la incertidumbre de los datos.17 Estas estadísticas se limitan a utilizar el número de personas que han dado positivo como cifra de la tasa de infección.

Utilizando una red bayesiana, los investigadores examinaron cuántas veces las pruebas positivas y negativas eran realmente falsas y ajustaron la tasa de infección en consecuencia. Diferentes pruebas tienen diferentes tasas de precisión, lo que significa que la variable de si alguien tiene o no COVID-19 no depende únicamente del resultado de la prueba.

Averiguar los falsos positivos y negativos también es importante para determinar las tasas de letalidad. Si alguien muere y previamente ha dado positivo en la prueba de COVID-19, obviamente aumenta la probabilidad de que la prueba de COVID haya sido exacta. Como resultado del empleo de un modelo de red bayesiano, los investigadores llegaron a la conclusión de que las tasas de infección son en realidad más altas de lo que sugieren las estadísticas populares, pero las tasas de mortalidad son más bajas de lo que se informa.17

Contenido TDL relacionado

IA, indeterminismo y buena narrativa

Poder predecir los accidentes de coche es útil para las compañías de seguros de automóviles, ya que las predicciones les informan de sus costes probables y, por tanto, prevén cuánto cobrarán a los clientes. Estas probabilidades no son deterministas; no pueden decir por qué ocurren los accidentes de coche, sino sólo que ocurren. En este artículo, Brooke Struck, Directora de Investigación de TDL, explica cómo los sistemas de inteligencia artificial están empezando a incorporar el mismo tipo de modelización probabilística indeterminista, y por qué esto resulta incómodo para los humanos, que prefieren explicaciones más causales.

Sesgos de decisión entre los abogados: Falacia de conjunción

La forma en que se enmarca la narración de un acontecimiento influye en si creemos o no que ocurrió. Según la falacia de la conjunción, cuanto más precisa es la descripción de un suceso, más probable nos parece que haya ocurrido. En este artículo, nuestro redactor Tom Spiegler analiza cómo afecta la falacia de la conjunción a abogados, jueces y decisiones judiciales.

Fuentes

  1. Siegmund, D. O. (2005, 9 de septiembre). Probability theory. Encyclopedia Britannica. https://www.britannica.com/science/probability-theory
  2. Kim, A. (2019, 1 de noviembre). Independencia condicional - La columna vertebral de las redes bayesianas. Medio. https://towardsdatascience.com/conditional-independence-the-backbone-of-bayesian-networks-85710f1b35b
  3. Citas de Bayes. (s.f.). Goodreads. Obtenido el 13 de abril de 2021, del sitio Web: https://www.goodreads.com/quotes/tag/bayes#.
  4. Probabilidad: conceptos básicos. (sin fecha). Khan Academy. Obtenido el 13 de abril de 2021, del sitio Web: https://www.khanacademy.org/math/statistics-probability/probability-library/basic-theoretical-probability/a/probability-the-basics.
  5. Barrett, M. (2021, 11 de enero). An Introduction to Directed Acyclic Graphs (Introducción a los grafos acíclicos dirigidos). The Comprehensive R Archive Network. https://cran.r-project.org/web/packages/ggdag/vignettes/intro-to-dags.html
  6. Silver, L. (2016, 20 de agosto). Explicación simple de la condición causal de Markov. Cross Validated. https://stats.stackexchange.com/questions/230897/causal-markov-condition-simple-explanation
  7. Routledge, R. (2005, 10 de noviembre). Teorema de Bayes. Encyclopedia Britannica. https://www.britannica.com/topic/Bayess-theorem
  8. Sánchez, F. (2017, 2 de noviembre). Introducción al pensamiento bayesiano: del teorema de Bayes a las redes de Bayes. Medio. https://towardsdatascience.com/will-you-become-a-zombie-if-a-99-accuracy-test-result-positive-3da371f5134#_=_
  9. McKevitt, P. (2020, 3 de septiembre). Figura 2.33: Ejemplo de red bayesiana simple. ResearchGate. https://www.researchgate.net/figure/Example-of-a-simple-Bayesian-Network_fig13_228776941
  10. Neapolitan, R., y Jiang, X. (2016). La historia de la red bayesiana. En A. Hájek & C. Hitchcock (Eds.), The Oxford handbook of Probability and Philosophy. Oxford University Press, EE. UU. https://doi.org/10.1093/oxfordhb/9780199607617.013.31
  11. ¿Qué es una red bayesiana? (sin fecha). The BayesiaLab Knowledge Hub. Obtenido el 13 de abril de 2021, de https://library.bayesia.com/articles/#!bayesialab-knowledge-hub/bayesian-belief-network-definition-2850990
  12. Friedman, N., Goldszmidt, M., Heckerman, D., & Russell, S. J. (1997). Desafío: ¿Cuál es el impacto de las redes bayesianas en el aprendizaje? En Proceedings of the 15th international joint conference on Artificial intelligence (pp. 10-15).
  13. El equipo Albert. (2020, 1 de junio). Circuitos de retroalimentación positiva y negativa en biología. Recursos Albert. https://www.albert.io/blog/positive-negative-feedback-loops-biology/
  14. Gupta, C. (2016, 7 de diciembre). Cuál es la diferencia entre una red bayesiana y una red neuronal artificial? Quora. https://www.quora.com/What-is-the-difference-between-a-Bayesian-network-and-an-artificial-neural-network
  15. O'Hara, B. (2012, 8 de noviembre). ¿Cómo predijo Nate Silver las elecciones estadounidenses? The Guardian. https://www.theguardian.com/science/grrlscientist/2012/nov/08/nate-sliver-predict-us-election
  16. Neil, M., Fenton, N., Osman, M., & McLachlan, S. (2020). Bayesian network analysis of Covid-19 data reveals higher infection prevalence rates and lower fatality rates than widely reported. Journal of Risk Research, 23(7-8), 866-879. https://doi.org/10.1101/2020.05.25.20112466

Read Next

Notes illustration

Eager to learn about how behavioral science can help your organization?