Réseau bayésien

L'idée de base

L'incertitude est une réalité de la vie. Cependant, l'existence de l'incertitude ne signifie pas que nous ne pouvons pas faire de prédictions sur les relations de cause à effet. La théorie des probabilités suggère que, bien que nous ne puissions pas être certains d'un seul résultat d'un événement aléatoire, nous pouvons prédire la probabilité d'un certain nombre de résultats possibles.1 La théorie des probabilités consiste à faire des déductions éclairées face à l'incertitude.

Un réseau bayésien est un modèle graphique probabiliste. Il est utilisé pour modéliser l'inconnu sur la base du concept de la théorie des probabilités. Les réseaux bayésiens montrent une relation entre les nœuds - qui représentent les variables - et les résultats, en déterminant si les variables sont dépendantes ou indépendantes. Un réseau bayésien fonctionne à rebours, en examinant un événement et en suggérant les variables possibles qui y ont conduit. En d'autres termes, un réseau bayésien fournit des informations sur les probabilités concernant les causes et les effets des événements.

Par exemple, si vous observez que l'herbe est mouillée, vous pouvez demander : "Quelle est la probabilité que l'herbe soit mouillée parce qu'il pleut ?" Pour déterminer cette probabilité, vous devez calculer la fréquence à laquelle la pluie est à l'origine de l'herbe mouillée, ce qui implique également de connaître la fréquence à laquelle l'herbe est mouillée pour une autre raison (par exemple, si l'arroseur est en marche). Étant donné que la mise en marche de l'arroseur dépend également du fait qu'il pleuve ou non, un réseau bayésien représenterait les différentes variables conditionnelles et leurs probabilités respectives.2

Selon le théorème de Bayes, aucune théorie n'est parfaite. Il s'agit plutôt d'un travail en cours, toujours susceptible d'être affiné et testé.


- Le statisticien américain Nate Silver3

Termes clés

Théorie des probabilités : branche des mathématiques qui étudie la relation entre les phénomènes aléatoires. Elle détermine la probabilité qu'un événement se produise en divisant sa fréquence dans l'ensemble des résultats par le nombre total de résultats potentiels. Pour déterminer la probabilité qu'une pièce tombe sur pile, par exemple, la théorie des probabilités divise la fréquence de "pile" dans le pool (1) par le nombre de résultats possibles (2 : pile ou face), ce qui donne une chance sur deux.4

Nœuds : dans un réseau bayésien, chaque note est une variable aléatoire distincte2.

Graphes acycliques dirigés : affiche des hypothèses sur la relation entre les variables (nœuds). Dans les graphes acycliques dirigés, les relations sont toujours unidirectionnelles. Elles vont de la cause à l'effet uniquement. Il est important de noter que les graphes acycliques n'ont pas de boucle de rétroaction : les nœuds descendants n'ont pas d'impact sur les nœuds parents. Essentiellement, les nœuds parents sont des variables situées plus haut dans le graphe qui ont un impact sur ce qui se trouve en dessous (nœuds descendants).5

Boucle de rétroaction : les boucles se produisent dans les réseaux graphiques lorsque les nœuds descendants ont également un impact sur les nœuds parents.

Condition de Markov : une hypothèse faite dans les réseaux bayésiens selon laquelle les nœuds parents sont indépendants de leurs nœuds descendants. Cette hypothèse explique pourquoi le réseau est un graphe acyclique avec des liens unidirectionnels.6

L'histoire

Thomas Bayes était un mathématicien anglais du 18e siècle. Il a développé une équation mathématique permettant de déterminer la probabilité qu'un événement se produise, en se basant sur la fréquence de son occurrence dans le passé.7 Cette équation est connue sous le nom de probabilité inverse.

De son vivant, Bayes n'a pas publié beaucoup de ses travaux, mais à titre posthume, en 1762, son article intitulé "Essay Towards Solving a Problem in the Doctrine of Chances" a été publié et a jeté les bases de ce qui a été connu sous le nom de théorème de Bayes.7

Le théorème de Bayes suggère que pour déterminer la probabilité qu'un événement se produise, nous devons intégrer des connaissances préalables sur les conditions qui pourraient être liées à l'événement. Il s'agit essentiellement d'un moyen de déterminer la probabilité conditionnelle : Quelle est la probabilité que X se produise, étant donné que Y s'est produit ? En incorporant cette connaissance préalable des variables liées, le théorème de Bayes est capable de faire des déductions éclairées, au lieu de suggérer que tout est également aléatoire. Il suggère que les probabilités d'événements doivent être ajustées en fonction des informations disponibles.

Pour utiliser le théorème de Bayes, il faut partir d'une hypothèse et d'un degré de conviction quant à l'exactitude de cette hypothèse. Au fur et à mesure que vous recueillez des informations ou des données relatives à l'hypothèse, vous pouvez ajuster votre degré de conviction.8 Par exemple, le théorème de Bayes peut être utilisé pour déterminer la probabilité qu'un patient souffre d'une maladie cardiovasculaire s'il éprouve des douleurs thoraciques. À l'origine, l'hypothèse pourrait être qu'il y a 10 % de chances que le patient souffre d'une maladie cardiovasculaire, parce que 10 % des patients qui viennent se plaindre de douleurs thoraciques sont atteints d'une telle maladie. Cependant, un complément d'information peut augmenter le niveau de croyance de l'hypothèse.

Les maladies cardiovasculaires sont plus fréquentes chez les patients plus âgés. Si le patient en question a plus de 60 ans, vous devrez ajuster l'hypothèse pour tenir compte du nombre de patients de plus de 60 ans chez qui une maladie cardiovasculaire est diagnostiquée après une douleur thoracique. La probabilité que le patient souffre d'une maladie cardiovasculaire pourrait passer à 12 % compte tenu de son âge. Ce chiffre peut continuer à évoluer en fonction d'autres informations disponibles - par exemple, s'il mène une vie active, s'il est fumeur ou si les maladies cardiovasculaires sont présentes dans sa famille.

Le théorème de Bayes intègre de multiples variables différentes dans l'élaboration d'une hypothèse et peut être reflété sur un modèle graphique probabiliste. C'est ainsi qu'est né le réseau bayésien, qui permet de représenter le théorème.

L'un des principes fondamentaux des réseaux bayésiens est qu'ils doivent satisfaire à la condition de Markov. Les nœuds "parents" ont un impact sur leurs descendants, mais les nœuds parents n'ont pas d'impact les uns sur les autres. Par exemple, dans le réseau bayésien simple suivant, les nœuds "Régime" et "Exercice" sont des nœuds parents. Bien que le régime alimentaire et l'exercice physique puissent être corrélés, ils n'ont pas de relation de cause à effet (l'exercice physique n'entraîne pas un changement de régime alimentaire, ni l'inverse). Ces nœuds parents sont conditionnellement indépendants, mais ils ont tous deux un impact sur le nœud descendant, la perte de poids.

Bayesian Network

Les réseaux bayésiens ont gagné en popularité dans les années 1980, lorsque les chercheurs médicaux ont commencé à comprendre que de nombreuses conditions, telles que le diagnostic médical, ne permettaient pas de tirer des conclusions certaines. Les outils de diagnostic ne sont jamais précis à 100 %, ce qui signifie que la probabilité qu'un patient soit atteint d'une maladie particulière ne repose pas uniquement sur la fréquence de la maladie, mais également sur la précision du test de diagnostic.

Heureusement, un réseau bayésien peut prendre en compte toutes ces variables. Au même moment, les chercheurs de la communauté de l'intelligence artificielle ont également commencé à adopter les réseaux bayésiens, afin d'intégrer l'incertitude dans les systèmes basés sur la connaissance.10 Le terme de réseau bayésien a été officiellement inventé par l'informaticien israélo-américain Judea Pearl en 1985.11

Conséquences

Les réseaux bayésiens sont censés refléter fidèlement la vie réelle parce que l'incertitude est incorporée dans leur modèle prédictif. Les réseaux bayésiens montrent que même si les variables sont aléatoires, il existe des moyens de faire des prédictions éclairées sur les probabilités. En outre, la représentation graphique d'un réseau bayésien peut faciliter la compréhension des mathématiques complexes relatives aux probabilités. En tant que modèle permettant aux chercheurs d'ajuster leur hypothèse face à de nouvelles preuves, il peut également nous empêcher d'être victimes d'un biais de confirmation.

L'impact des réseaux bayésiens est prouvé par leur classement en 2004 au quatrième rang de la liste des "10 technologies émergentes qui changeront votre monde" du Massachusetts Institute of Technology.11 L'utilisation des réseaux bayésiens peut simplifier l'analyse des données. Les réseaux sont relativement faciles à comprendre, ce qui signifie que les gens ordinaires peuvent les utiliser pour déterminer la probabilité des relations causales. 12 Par conséquent, l'incertitude ne signifie pas que nous devons prendre des décisions dans le noir. Si l'herbe est mouillée, nous pouvons en déduire la probabilité qu'il ait plu, et donc décider en connaissance de cause d'emporter ou non un parapluie, en fonction de la probabilité qu'il pleuve à nouveau.

Controverses

L'une des critiques formulées à l'encontre des réseaux bayésiens est que, comme il s'agit de graphes acycliques dirigés, ils ne permettent pas l'existence de boucles de rétroaction. Cette lacune peut poser problème lorsque le modèle est utilisé pour afficher des informations sur la biologie, en particulier parce que notre corps fonctionne souvent en réponse à des boucles de rétroaction.

L'homéostasie - la régulation du fonctionnement interne de notre organisme - est un exemple de boucle de rétroaction biologique dans laquelle les nœuds descendants ont un impact sur les nœuds parents. Par exemple, la chair de poule est un effet du froid. Dans un réseau bayésien, la chair de poule serait un nœud descendant et la sensation de froid serait le nœud parent. Cependant, la chair de poule a un impact sur la probabilité que vous ayez froid, puisqu'elle vous réchauffe. Un réseau bayésien ne tient pas compte de cette direction bilatérale de la cause et de l'effet.13

Il existe d'autres modèles de probabilité qui fonctionnent différemment des réseaux bayésiens, comme les réseaux neuronaux. Au lieu de se baser uniquement sur les probabilités des variables indépendantes, les réseaux neuronaux apprennent au système à différencier les différentes variables.

Par exemple, si vous souhaitez créer un programme capable de faire la différence entre des images de carrés et des images de cercles, vous devrez saisir de nombreux exemples différents de cercles et de carrés et les classer comme tels. La machine apprendrait alors d'elle-même, espérons-le, les propriétés qu'elle doit examiner pour classer les formes qui lui parviennent. Essentiellement, les réseaux neuronaux travaillent à partir des entrées vers les sorties, tandis que les réseaux bayésiens travaillent à partir des sorties et tentent de remonter aux causes des entrées.

Prédire les résultats des élections

Le statisticien américain Nate Silver est devenu célèbre après avoir correctement prédit non seulement que Barack Obama remporterait l'élection présidentielle américaine de 2012, mais aussi le résultat du vote dans chaque État.15 Comment ce blogueur jusqu'alors inconnu a-t-il pu faire ces prédictions extrêmement précises, même lorsque les médias affirmaient que la course était à peu près égale ? Grâce aux réseaux bayésiens.

Le fonctionnement de l'élection présidentielle américaine est hiérarchique, ce qui le rend parfait pour un réseau bayésien qui suppose que les nœuds parents ont un impact sur les nœuds descendants, mais pas l'inverse. Pour remporter l'élection, les candidats doivent gagner le plus grand nombre d'États. Les États sont donc les nœuds parents qui ont un impact sur le nœud descendant : le résultat de l'élection.

Silver a recueilli des données sur la façon dont les gens pensaient voter plusieurs mois avant le scrutin. Bien entendu, il peut toujours y avoir des divergences entre la façon dont les gens pensent qu'ils vont voter et la façon dont ils votent réellement. Heureusement, cela n'a pas posé de problème à M. Silver, car le théorème de Bayes permet de modifier les hypothèses en fonction des nouvelles informations recueillies.

Silver a commencé par un "nowcast", qui détermine la probabilité du résultat de chaque État si le vote devait avoir lieu un jour donné. Diverses variables ont influencé cette décision : le statut socio-économique de la population de chaque État, sa composition raciale et ses antécédents électoraux, entre autres. Ces variables ont permis à Silver de faire une première prédiction sur le vainqueur de chaque État. Ensuite, au fil du temps, Silver a intégré de nouvelles données. Par exemple, si le taux de chômage changeait dans un État, il le considérait comme un facteur et mettait à jour ses prédictions.15

Silver a généré la probabilité qu'Obama gagne à différents moments de la période électorale. À mesure que le jour de l'élection approchait, de plus en plus de données de sondage sont apparues, ce qui a conforté Silver dans ses prédictions. C'est en cartographiant toutes les variables sur des réseaux bayésiens que Silver a pu prédire correctement le résultat de l'élection de 2012.15

Incertitude du diagnostic médical

Malheureusement, les tests de diagnostic ne sont jamais exacts à 100 %. Heureusement, les réseaux bayésiens tiennent compte de cette incertitude. Les réseaux bayésiens comprennent que les résultats des tests ne sont pas la seule variable importante en matière de diagnostic. La fréquence des faux positifs et des faux négatifs influe également sur la probabilité du diagnostic.

Les réseaux bayésiens pourraient être utiles pour déterminer les chiffres exacts des taux d'infection et de mortalité de COVID-19. Un groupe de chercheurs a mené une étude suggérant que les statistiques mondiales relatives à COVID-19 ne tiennent pas compte de l'incertitude des données.17 Ces statistiques utilisent simplement le nombre de personnes testées positives comme chiffre du taux d'infection.

À l'aide d'un réseau bayésien, les chercheurs ont examiné le nombre de fois où les tests positifs et négatifs étaient réellement faux et ont ajusté le taux d'infection en conséquence. Les taux de précision varient d'un test à l'autre, ce qui signifie que la variable permettant de déterminer si une personne est atteinte ou non du COVID-19 ne dépend pas uniquement du résultat du test.

Le calcul des faux positifs et négatifs est également important pour déterminer les taux de mortalité. Si une personne décède alors qu'elle avait été testée positive au COVID-19, la probabilité que le test COVID ait été exact augmente évidemment. En utilisant un modèle de réseau bayésien, les chercheurs ont conclu que les taux d'infection sont en fait plus élevés que ce que les statistiques populaires suggèrent, mais que les taux de mortalité sont plus faibles que ce qui est rapporté.17

Contenu connexe de TDL

IA, indéterminisme et bonnes histoires

Il est utile pour les compagnies d'assurance automobile de pouvoir prédire les accidents de voiture, car les prédictions les informent de leurs coûts probables et prévoient donc le montant des frais qu'elles facturent à leurs clients. Ces probabilités ne sont pas déterministes ; elles ne peuvent pas vous dire pourquoi les accidents de voiture se produisent, mais seulement qu'ils se produisent. Dans cet article, Brooke Struck, directeur de recherche au TDL, explique comment les systèmes d'intelligence artificielle commencent à intégrer le même type de modèle de probabilité indéterministe, et pourquoi cela met mal à l'aise les humains qui préfèrent les explications plus causales.

Biais de décision chez les avocats : Le sophisme de la conjonction

Le fait de croire ou non qu'un événement s'est produit est influencé par la manière dont sa narration est formulée. Selon le sophisme de la conjonction, plus les détails de la description d'un événement sont précis, plus les gens ont tendance à penser qu'il s'est produit. Dans cet article, notre rédacteur Tom Spiegler explore l'impact du sophisme de la conjonction sur les avocats, les juges et les décisions de justice.

Sources d'information

  1. Siegmund, D. O. (2005, 9 septembre). Probability theory. Encyclopedia Britannica. https://www.britannica.com/science/probability-theory
  2. Kim, A. (2019, 1er novembre). L'indépendance conditionnelle - L'épine dorsale des réseaux bayésiens. Moyen. https://towardsdatascience.com/conditional-independence-the-backbone-of-bayesian-networks-85710f1b35b
  3. Citations de Bayes. (n.d.). Goodreads. Consulté le 13 avril 2021 sur https://www.goodreads.com/quotes/tag/bayes#
  4. Probabilité : les bases. (n.d.). Khan Academy. Consulté le 13 avril 2021 sur le site https://www.khanacademy.org/math/statistics-probability/probability-library/basic-theoretical-probability/a/probability-the-basics
  5. Barrett, M. (2021, 11 janvier). An Introduction to Directed Acyclic Graphs (Introduction aux graphes acycliques dirigés). The Comprehensive R Archive Network. https://cran.r-project.org/web/packages/ggdag/vignettes/intro-to-dags.html
  6. Silver, L. (2016, 20 août). Explication simple de la condition de Markov causale. Validation croisée. https://stats.stackexchange.com/questions/230897/causal-markov-condition-simple-explanation
  7. Routledge, R. (2005, 10 novembre). Théorème de Bayes. Encyclopedia Britannica. https://www.britannica.com/topic/Bayess-theorem
  8. Sanchez, F. (2017, 2 novembre). Introduction à la pensée bayésienne : du théorème de Bayes aux réseaux de Bayes. Média. https://towardsdatascience.com/will-you-become-a-zombie-if-a-99-accuracy-test-result-positive-3da371f5134#_=_
  9. McKevitt, P. (2020, 3 septembre). Figure 2.33 : Exemple de réseau bayésien simple. ResearchGate. https://www.researchgate.net/figure/Example-of-a-simple-Bayesian-Network_fig13_228776941
  10. Neapolitan, R. et Jiang, X. (2016). The Bayesian Network Story. Dans A. Hájek & C. Hitchcock (Eds.), The Oxford handbook of Probability and Philosophy. Oxford University Press, États-Unis. https://doi.org/10.1093/oxfordhb/9780199607617.013.31
  11. Qu'est-ce qu'un réseau bayésien ? (s.d.). The BayesiaLab Knowledge Hub. Consulté le 13 avril 2021 à l'adresse https://library.bayesia.com/articles/#!bayesialab-knowledge-hub/bayesian-belief-network-definition-2850990
  12. Friedman, N., Goldszmidt, M., Heckerman, D. et Russell, S. J. (1997). Challenge : What is the Impact of Bayesian Networks on Learning ? In Proceedings of the 15th international joint conference on Artificial intelligence (pp. 10-15).
  13. L'équipe Albert. (2020, 1er juin). Boucles de rétroaction positives et négatives en biologie. Ressources Albert. https://www.albert.io/blog/positive-negative-feedback-loops-biology/
  14. Gupta, C. (2016, 7 décembre). Quelle est la différence entre un réseau bayésien et un réseau neuronal artificiel ? Quora. https://www.quora.com/What-is-the-difference-between-a-Bayesian-network-and-an-artificial-neural-network
  15. O'Hara, B. (2012, 8 novembre). Comment Nate Silver a-t-il prédit les élections américaines ? The Guardian. https://www.theguardian.com/science/grrlscientist/2012/nov/08/nate-sliver-predict-us-election
  16. Neil, M., Fenton, N., Osman, M. et McLachlan, S. (2020). Bayesian network analysis of Covid-19 data reveals higher infection prevalence rates and lower fatality rates than widely reported. Journal of Risk Research, 23(7-8), 866-879. https://doi.org/10.1101/2020.05.25.20112466
Notes illustration

Vous souhaitez savoir comment les sciences du comportement peuvent aider votre organisation ?