Renforcement positif

L'idée de base

Avez-vous déjà assisté à un affrontement entre un enfant en bas âge qui réclame un jouet et ses parents ? L'enfant peut employer des dizaines de tactiques impitoyables, jusqu'à déclencher l'humiliation ultime : une crise de colère en plein centre commercial. En tant que spectateur, vous vous dites : "Achetez-lui le jouet, n'importe quoi pour que ça s'arrête !". Cependant, comme le savent les parents expérimentés, cette capitulation indiquera à l'enfant qu'un mauvais comportement lui permet d'obtenir ce qu'il veut. En d'autres termes, le jouet agira comme un renforçateur positif pour le mauvais comportement. En psychologie comportementale, le renforcement positif est un concept clé du conditionnement opérant, une forme puissante d'apprentissage dans laquelle les conséquences comportementales déterminent la probabilité d'un comportement futur.1

Qu'est-ce que l'amour, si ce n'est un autre nom pour l'utilisation du renforcement positif ? Ou vice versa.


-Psychologue américain B. F. Skinner dans Walden Two

La théorie au service de la pratique

TDL est un cabinet de recherche appliquée. Dans notre travail, nous tirons parti des connaissances de divers domaines - de la psychologie et de l'économie à l'apprentissage automatique et à la science des données comportementales - pour sculpter des solutions ciblées à des problèmes nuancés.

Nos services de conseil

Termes clés

Conditionnement opérant : Processus d'apprentissage dans lequel les conséquences d'un comportement influencent sa répétition dans le futur.2 Le conditionnement opérant se réfère à une action intentionnelle.

Renforcement positif : Lorsqu'une conséquence d'un comportement augmente la force du comportement. Le terme "positif" fait référence à l'ajout d'un stimulus, tandis que le renforcement fait référence à l'augmentation du comportement.

Behaviorisme : Mouvement de psychologie qui met l'accent sur l'étude des processus observables (comportement) plutôt que sur les états mentaux subjectifs.3

L'histoire

Au début des années 1900, de nombreuses théories sur l'esprit et le comportement humains n'étaient pas testées expérimentalement. Pour rendre la psychologie plus scientifique, certains chercheurs ont suggéré que les psychologues se concentrent sur l'étude de processus observables et quantifiables. Ces chercheurs ont déclenché un mouvement aujourd'hui connu sous le nom de béhaviorisme. E.L. Thorndike a été l'un des principaux artisans de cette révolution. Thorndike a principalement étudié les processus d'apprentissage des animaux en observant comment les chats apprennent à s'échapper des boîtes de puzzle. Ses découvertes ont abouti à sa thèse de 1911, dans laquelle il a exposé la loi de l'effet.4 Cette loi stipule que lorsqu'un stimulus et un comportement sont suivis de quelque chose d'agréable, le comportement est susceptible d'être répété en présence du stimulus. Si le stimulus et le comportement sont suivis d'une conséquence désagréable, le comportement est susceptible de diminuer en réponse au stimulus. Bien que cette conclusion puisse sembler évidente aujourd'hui, les recherches de Thorndike étaient très novatrices à l'époque, car elles mettaient l'accent sur une analyse quantifiable. Ses travaux sur la loi de l'effet sont largement considérés comme la première étude en laboratoire de l'apprentissage, ce qui a ouvert la voie à d'autres recherches dans ce domaine.

Dans les années 1930, un jeune psychologue nommé B.F. Skinner a considérablement développé les recherches de Thorndike, allant même jusqu'à créer sa propre boîte à puzzle, baptisée plus tard "boîte de Skinner".5 Cette boîte plus petite, fréquentée plus souvent par des rats que par des chats, a été utilisée pour étudier comment le comportement des animaux changeait en fonction de différentes conséquences. Sur la base de ces recherches, Skinner a défini le conditionnement opérant comme le renforcement ou l'affaiblissement d'un comportement en fonction de ses conséquences.

Il a également identifié quatre types d'apprentissage opérant, parfois appelés contingences. Deux de ces types entraînent une augmentation du comportement (renforcement positif, renforcement négatif), et les deux autres affaiblissent le comportement (punition positive, punition négative).5 L'éventualité la plus connue, le renforcement positif, fait référence à l'augmentation de la probabilité qu'un comportement se reproduise s'il est associé à un stimulus conséquent. Ce stimulus est un renforçateur positif, qui implique souvent quelque chose d'agréable. C'est pourquoi certains chercheurs qualifient cette forme d'apprentissage d'"apprentissage par la récompense". Cependant, Skinner a souligné que ce qui détermine si un stimulus est un renforçateur positif, c'est qu'il renforce un comportement, plutôt qu'il ne provoque un plaisir subjectif. Par exemple, dans certaines situations, des chocs électriques très désagréables peuvent entraîner une augmentation du comportement. En outre, ce qu'une personne trouve gratifiant peut être totalement désagréable pour une autre.

Allen Neuringer a souligné par la suite que le renforcement positif n'entraîne pas seulement une augmentation de la probabilité qu'un comportement se reproduise, mais qu'il peut avoir un impact sur plusieurs autres aspects du comportement, tels que la durée ou la persistance. Une expérience menée par Neuringer et Page sur des pigeons a démontré que même un comportement aléatoire peut être enseigné par le biais du renforcement positif. Ils ont prouvé cela en fournissant des renforçateurs aux pigeons uniquement lorsque leur comportement de picorage était différent de tous les essais précédents.6

Les personnes

Edward Lee Thorndike

Thorndike a commencé sa carrière universitaire à l'université Wesleyan, en étudiant la littérature. Il s'est ensuite tourné vers la psychologie, qu'il a étudiée à la fois à Harvard et à Columbia.4 Pendant son séjour à Harvard, il a commencé à étudier l'apprentissage chez les animaux.5 En raison du manque d'espace de laboratoire pour cette recherche innovante, Thorndike a été contraint de garder ses sujets à fourrure dans sa chambre jusqu'à ce que William James lui offre gentiment un espace au sous-sol.5 Finalement, Thorndike s'est vu offrir une bourse de recherche à Columbia, où il a rédigé sa fameuse thèse articulant la loi de l'effet. Devenu professeur, Thorndike s'est efforcé d'appliquer au système scolaire ce qu'il avait appris au cours de ses recherches expérimentales sur l'apprentissage et a publié plusieurs ouvrages expliquant comment appliquer la psychologie à l'enseignement.4

Burrhus Frederick Skinner

B.F. Skinner est largement considéré comme le Darwin de la science du comportement et l'éminent psychologue du 20e siècle. Bien qu'il ait d'abord aspiré à devenir écrivain, les travaux du physiologiste Ivan P. Pavlov sur le conditionnement classique et ceux de John B. Watson sur le béhaviorisme ont incité Skinner à s'orienter vers la psychologie.5,7 Il a obtenu son doctorat à Harvard, et on lui attribuera plus tard diverses améliorations du processus de recherche sur l'apprentissage. Il a proposé d'utiliser le taux de changement de comportement comme mesure de l'apprentissage, a conçu la boîte de Skinner pour étudier l'apprentissage et a considérablement fait progresser l'utilisation des méthodes scientifiques dans le domaine de la psychologie.5,7 Les recherches de Skinner et ses travaux non académiques, tels que son roman utopique Walden Two, ont suscité une grande controverse, mais peu de critiques nieraient l'importance de cette figure dans l'avancement du domaine de la psychologie.

Conséquences

Plusieurs variables peuvent influer sur le succès du renforcement positif, ainsi que sur les autres formes de conditionnement opérant. La première variable est la contingence, c'est-à-dire la probabilité qu'un renforçateur suive un comportement.5 Si les récompenses sont rarement accordées après des comportements épuisants, il est peu probable que nous dépensions une énergie précieuse pour effectuer ces comportements. Une autre variable est le temps qui s'écoule entre un comportement et son renforçateur. En général, plus la récompense est offerte rapidement, plus le sujet apprend vite. Si trop de temps s'écoule, le mauvais comportement risque d'être renforcé. Le type, la quantité et la qualité du renforçateur sont également importants. Même les rats ont des préférences alimentaires - ils apprennent mieux lorsqu'on leur propose du pain que des graines!5

Différents calendriers peuvent être utilisés pour le renforcement positif, qui a un impact considérable sur l'apprentissage.8 L'une des options consiste à rendre le calendrier continu, c'est-à-dire à accorder des récompenses à chaque fois qu'un comportement est adopté. Une autre option est de rendre le programme intermittent, ce qui signifie que la récompense n'est donnée qu'après que le comportement a été répété un certain nombre de fois ou après un intervalle de temps déterminé.

L'octroi de récompenses par intermittence peut également se faire de manière variable, ce qui signifie que le renforçateur peut être donné après un laps de temps variable (par exemple, toutes les trois à sept minutes), ou qu'une quantité variable de comportement est effectuée (par exemple, tous les 2 à 5 coups de bec). Chaque schéma de renforcement peut être efficace dans différents scénarios : un patron qui paie ses employés de manière variable provoquerait le chaos, alors que ce schéma est très excitant pour les joueurs de machines à sous au casino.

Toutes les recherches menées par Thorndike, Skinner et leurs successeurs ne se sont pas limitées au laboratoire. Le renforcement positif a été appliqué à l'éducation des enfants, à l'enseignement, à la toxicomanie, à l'économie, au comportement organisationnel et à plusieurs autres domaines. La théorie du coup de pouce, par exemple, repose sur l'idée que le renforcement positif et d'autres méthodes non coercitives peuvent promouvoir avec succès des décisions et des comportements sains.9

Controverses

Depuis la création du conditionnement opérant et du renforcement positif, les critiques ont été nombreuses. Certains des premiers critiques ont affirmé que les perspectives de Skinner étaient réductrices, car elles niaient le rôle de la biologie, des pensées, des sentiments et de l'autonomie dans le comportement.5 Les partisans de Skinner estiment que cette critique est une fausse représentation de ses idées et soulignent que ses méthodes ont été cruciales pour faire de la psychologie un domaine scientifique fondé sur des preuves. À l'ère moderne, des domaines tels que les sciences cognitives et les neurosciences peuvent s'attaquer à la "boîte noire" de l'esprit, ce qui était autrefois considéré comme inaccessible lorsque l'on observait le renforcement positif. Par conséquent, les critiques modernes se concentrent sur les défauts spécifiques de la méthode et des preuves de la théorie du renforcement positif, au lieu de rejeter le concept dans son ensemble.

Scott et Landrum, chercheurs en éducation, ont abordé certaines de ces critiques contemporaines.10 Bien que leur article réponde principalement aux critiques du renforcement positif dans le contexte de l'enseignement, leurs raisonnements peuvent s'appliquer à d'autres domaines. Par exemple, l'une des critiques les plus courantes à l'égard du renforcement positif est qu'il n'est pas étayé par la recherche. Pour contrer cette affirmation, les auteurs montrent que les méta-analyses soutiennent l'utilisation du retour d'information positif dans le cadre de l'enseignement. La raison pour laquelle les preuves dans ce domaine peuvent sembler contradictoires est que le type de renforçateur et de nombreux autres facteurs peuvent influencer le succès du renforcement positif. Une autre critique mentionnée est que le renforcement inhibe la créativité, ce que les auteurs réfutent en proposant que la créativité implique l'adaptation des compétences à des situations authentiques, ce qui ne serait pas possible si la compétence n'était pas acquise en premier lieu (un processus qui est facilité par le renforcement positif). Après avoir réfuté plusieurs autres critiques, les auteurs concluent que le retour d'information positif dans les écoles est largement étayé par des données scientifiques et encouragent les lecteurs à lire et à faire confiance à la littérature scientifique plutôt qu'à la psychologie populaire. Il est clair que les déclarations à l'emporte-pièce sur le renforcement positif, qu'il s'agisse de critiques ou de célébrations, doivent être examinées avec prudence.

Étude de cas

Encourager l'hygiène des mains grâce à la technologie du retour d'information

Une étude menée dans une unité de soins intensifs de New York a examiné si un retour d'information positif pouvait améliorer les pratiques d'hygiène des mains du personnel soignant. L'intervention a consisté à installer des capteurs dans les portes des chambres des patients, ainsi que des caméras qui ont enregistré les lavabos et les désinfectants pour les mains. Des auditeurs vidéo externes ont vérifié si le personnel soignant respectait les règles d'hygiène des mains et des tableaux électriques ont immédiatement fourni aux travailleurs un retour d'information sur le déroulement de leur service (par exemple : excellent service ! 92 % de réussite), ainsi que des résumés par courrier électronique et des rapports de performance hebdomadaires. Les chercheurs ont constaté que le respect des règles n'augmentait pas après le début de la surveillance par caméra, mais qu'il s'améliorait une fois le retour d'information effectué. Le taux d'hygiène de 10 % avant le retour d'information est passé à 81,6 % après le retour d'information. Bien que cette technologie ait été coûteuse, les chercheurs pensent que l'investissement sera justifié si des études futures confirment une réduction du taux d'infections nosocomiales.

Renforcement positif et dépendance aux médias sociaux

Le documentaire populaire de Netflix, The Social Dilemma, explique comment les sites de réseaux sociaux tirent parti d'un renforcement positif intermittent pour rendre leurs plateformes plus addictives. Pour expliquer comment cela fonctionne en pratique, Tristan Harris, ancien éthicien de la conception chez Google, compare les médias sociaux aux machines à sous de Las Vegas.12 Lorsque nous obtenons une correspondance sur Tinder, un "like" sur Instagram ou que nous voyons que notre Youtuber préféré a téléchargé une vidéo, nous recevons une décharge de dopamine en guise de récompense. Comme dans une machine à sous, ces récompenses sont rares mais suffisamment fréquentes pour nous rendre accros. En obtenant un renforçateur positif de manière relativement aléatoire, nous sommes encouragés à utiliser ces applications en permanence.

Contenu connexe de TDL

Renforcement négatif

Alors que le renforcement positif implique l'ajout d'un stimulus pour augmenter un comportement, le renforcement négatif implique la suppression d'un stimulus pour augmenter un comportement. Ces deux concepts coïncident souvent dans les cas réels de conditionnement opérant. Lisez cet article de la TDL pour en savoir plus sur le terme apparenté de renforcement positif et ses applications à la toxicomanie.

La science de la récompense

La recherche sur le renforcement positif démontre que tous les renforçateurs ne sont pas égaux et que plusieurs facteurs peuvent influencer la réussite de cette condition d'apprentissage. Cet article du TDL explore les facteurs qui influencent le succès du renforcement monétaire et la façon dont ce type de renforcement interagit avec la motivation intrinsèque.

Sources d'information

  1. Poling, A., Carr, J. E., & LeBlanc, L. A. (2002). Operant conditioning. Encyclopédie de la psychothérapie, 271-287. https://doi.org/10.1016/b0-12-343010-0/00154-9
  2. Quickel, E. J. (2020). Le conditionnement opérant. Encyclopédie de la personnalité et des différences individuelles, 3340-3342. https://doi.org/10.1007/978-3-319-24612-3_987
  3. Dictionary.com. (n.d.). Behaviorism. Dictionary.com. https://www.dictionary.com/browse/behaviorism.
  4. Encyclopedia Britannica, inc. (n.d.). Edward L. thorndike. Encyclopedia Britannica. https://www.britannica.com/biography/Edward-L-Thorndike#ref253227.
  5. Chance, P. (2014). Learning and Behavior (7e éd.). Cengage Learning.
  6. Page, S. et Neuringer, A. (1985). Variability is an Operant. Journal of Experimental Psychology : Animal Behavior Processes, 11(3), 429-452. https://doi.org/10.1037/0097-7403.11.3.429
  7. Encyclopedia Britannica, inc. (n.d.). B.F. Skinner. Encyclopedia Britannica. https://www.britannica.com/biography/B-F-Skinner.
  8. Boundless. (n.d.). Psychologie sans frontières. Lumen. https://courses.lumenlearning.com/boundless-psychology/chapter/operant-conditioning/.
    non défini
  9. Scott, T. M., et Landrum, T. J. (2020). Une logique fondée sur des données probantes pour l'utilisation du renforcement positif : Responses to typical criticisms. Beyond Behavior, 29(2), 69-77. https://doi.org/10.1177/1074295620917153
  10. Armellino, D., Hussain, E., Schilling, M. E., Senicola, W., Eichorn, A., Dlugacz, Y. et Farber, B. F. (2011). Using high-technology to enforce low-technology safety measures : The use of third-party remote video auditing and real-time feedback in healthcare. Clinical Infectious Diseases, 54(1), 1-7. https://doi.org/10.1093/cid/cir773
  11. Marciano, J. (2020, 15 septembre). Comment les médias sociaux piratent notre psychologie. BetterMarketing. https://bettermarketing.pub/how-social-media-hacks-our-psychology-9f901f55e54a.
Notes illustration

Vous souhaitez savoir comment les sciences du comportement peuvent aider votre organisation ?