Comment le cheval apprend : renforcements et punitions

Tu t’es déjà demandé comment aider ton cheval à mieux apprendre ? Comment tes actions à toi vont lui permettre d’apprendre de nouveaux comportements ? Tu as peut-être même entendu parler de R+, R- et compagnie, et tu as envie de mieux les comprendre ?

Dans cet article, tu vas découvrir le mécanisme d’apprentissage le plus courant dans le travail du cheval, et comprendre comment l’utiliser dans ta pratique équestre.

Si tu préfères apprendre en version audio, découvre comment le cheval apprend dans l’épisode 2 du podcast Les Chevaux Explorateurs, disponibles sur toutes les plateformes d’écoute.

Le cheval apprend par les conséquences de ses actions.

Lorsque le cheval fait une action, cette action a une conséquence. Le cheval va alors modifier son comportement en fonction de cette conséquence. S’il apprécie cette conséquence, il aura tendance à répéter l’action qui l’a amenée. Si cette conséquence est désagréable, il aura tendance à éviter l’action qui l’a causée.

Ici, c’est le cheval qui « opère » sur son environnement, par ses actions : cette forme d’apprentissage est appelée conditionnement opérant.

Les conséquences d’un comportement peuvent être directement consécutives à l’action du cheval, selon l’environnement. Par exemple, tirer son humain au bout d’une longe peut permettre de mettre le nez dans l’herbe : trop chouette ! Toucher un fil électrique fait prendre un coup de jus : pas cool !

Tu vois ici que tu peux aussi agir sur les conséquences des actions de ton cheval, par ta propre réaction. De cette façon, tu vas pouvoir encourager la diminution ou la répétition d’un comportement de ton cheval, et donc lui apprendre quelque chose de nouveau.

Par exemple, si le cheval cède à la pression (comportement), alors l’humain retire cette pression (conséquence) : soulagement ! Le comportement de céder à la pression est encouragé, le cheval va apprendre à le répéter.

Autre exemple : le cheval fait un truc chouette (comportement), alors l’humain clique et donne un bonbon (conséquence) : récompense ! Le cheval apprend à répéter ce comportement chouette.

Dans les deux cas, le cheval comprend qu’il a trouvé la solution que l’humain recherche, et va avoir tendance à recommencer.

Deux points clés sont présents ici pour aider le cheval à apprendre :

La conséquence doit suivre immédiatement le comportement du cheval, pour qu’il comprenne qu’elle y est associée. Si c’est trop décalé dans le temps, le cheval ne comprendra pas l’association, et ne sera pas encouragé à répéter son comportement. C’est pour cela que le timing de tes actions est important.
À chaque fois que le cheval fait un comportement, il y a une nouvelle conséquence qui va influencer la répétition de ce comportement. C’est donc important d’avoir toujours la même action en conséquence d’un comportement pour permettre au cheval de l’apprendre. La répétition cohérente est importante pour l’apprentissage.

Principes d’apprentissage : les quadrants du conditionnement opérant

Cette forme d’apprentissage est la plus utilisée avec les chevaux (et les autres animaux, et peut-être même avec les humains). Elle est définie dans les principes scientifiques d’apprentissage sous le nom de conditionnement opérant. Il s’agit d’un apprentissage associatif : une modification d’un comportement par association de deux événements.

Selon le type de conséquence qui suit un comportement du cheval, on a un type de conditionnement opérant différent. Il est important de noter que ces concepts s’appliquent spécifiquement à un contexte où il y a un apprentissage qui a lieu, et non pas aux comportements déjà codés.

Un comportement effectué par le cheval peut ainsi avoir deux formes de conséquences :

soit cette conséquence fait augmenter la fréquence de ce comportement et la probabilité qu’il se répète : on la nomme renforcement

soit cette conséquence fait diminuer la fréquence de ce comportement et la probabilité qu’il se répète, voire fait disparaître ce comportement : on la nomme punition

Attention, ce sont les définitions scientifiques de ces mots : il n’y a pas de jugement de valeur !

Les conséquences d’un comportement peuvent également prendre différentes formes :

soit être l’ajout de quelque chose : on dit que c’est une conséquence positive (+, comme dans une addition)

soit être le retrait de quelque chose : on dit que c’est une conséquence négative (-, comme dans une soustraction)

Ces termes sont souvent résumés avec des abréviations :

P pour punition

R pour renforcement

+ pour positif

– pour négatif

Il existe donc dans le conditionnement opérant 4 types de conséquences à un comportement qui vont influencer sa répétition.

Couramment avec les chevaux, on utilise un stimulus aversif, la pression, que l’on retire au moment où le cheval effectue le comportement souhaité : c’est donc du renforcement négatif.

À l’inverse, le clicker training ajoute un stimulus que le cheval aime (clic + récompense) au moment où le cheval effectue le comportement souhaité : c’est donc du renforcement positif.

Retenir le repas ou la récompense d’un cheval tant que son comportement ne nous plaît pas, c’est lui soustraire quelque chose qu’il aime pour faire disparaitre un comportement : c’est de la punition négative.

Et donner des coups de cravache quand le cheval n’avance pas, c’est ajouter un stimulus désagréable pour (tenter de) faire disparaitre un comportement : c’est de la punition positive.

Au-delà du fait qu’il est peu efficace, ce dernier exemple montre bien qu’il n’y a pas de notion de valeur dans l’utilisation des termes « positif » et « négatif » dans le cadre du conditionnement opérant.

C’est le cheval qui décide

Comment savoir si ton action est un renforcement ou une punition ?

Regarde le comportement de ton cheval !

En effet, ce qui compte dans la définition de ces deux notions, ce n’est pas notre intention de départ, mais bien la conséquence réelle de cette action chez le cheval.

D’ailleurs, c’est parfois un des problèmes qu’on rencontre dans l’apprentissage. Là où tu voudrais renforcer un comportement, le cheval lui perçoit ton action comme une punition. Ou l’inverse.

Par exemple, tu peux vouloir punir un cheval qui essaie de mordiller en lui repoussant le bout du nez avec ta main. Mais si ton cheval veut jouer, il peut prendre l’action de ta main comme une invitation au jeu : son comportement est alors renforcé, et il va continuer à mordiller. Quand tu comprends que ton action est un renforcement, tu comprends aussi pourquoi ça ne marche pas. Et ça te permet alors de chercher une autre façon plus efficace d’apprendre à ton cheval à ne pas mordiller.

À l’inverse, pour un cheval qui a peur de l’humain, une caresse peut être perçue comme une punition, alors que l’humain la voit comme une récompense. Pareil pour un cheval qui a mal à l’endroit où tu lui fais une gratouille : tu voulais lui apporter un moment agréable, mais lui le vit comme une punition.

C’est donc important de retenir que c’est le cheval qui décide si ton action est une punition ou un renforcement, et de sa puissance. Selon le cheval, une même action peut être perçue comme un renforcement ou une punition.

Comment savoir si c’est l’un ou l’autre ? Regarde si le comportement sur lequel tu as agi augmente ou diminue. S’il augmente, ton action est un renforcement. S’il diminue, ton action est une punition.

Dans ce contexte du conditionnement opérant, on regarde toujours le comportement qui est juste avant le renforcement ou la punition. C’est celui sur lequel ils agissent, et donc celui d’après lequel on va les définir.

Ton défi est alors d’adapter tes actions au cheval qui est face à toi, pour utiliser le plus possible de renforcements.

Une autre façon de comprendre renforcements et punitions

Il est parfois difficile d’identifier vraiment si l’action en cours est un renforcement ou une punition.

Dans ce cas, tu peux regarder si cette action est plutôt agréable ou désagréable pour le cheval.

En effet, un renforcement est quelque chose que le cheval recherche : il va répéter son comportement dans l’attente d’obtenir un renforcement. Le renforcement est toujours donc quelque chose que le cheval apprécie à l’instant T.

Ce peut être le fait de gagner du confort par le retrait d’un aversif (renforcement négatif), ou le fait de recevoir quelque chose en plus qu’il aime (renforcement positif).

À l’inverse, une punition est toujours quelque chose que le cheval n’apprécie pas : c’est la raison pour laquelle il va arrêter le comportement associé, pour éviter la punition. Une punition va créer des réactions d’évitement du comportement chez le cheval.

Une punition est donc désagréable pour le cheval, même si ça peut être à un niveau très léger.

Tout élément aversif est donc une punition (positive). Si ça crée de l’inconfort, de la douleur ou de la peur, c’est une punition.

La pression, quand elle pousse le cheval à déplacer une partie de son corps, crée un inconfort et une réaction d’évitement : c’est une punition positive. Et quand cette pression est retirée, le cheval retrouve du confort : le retrait de la pression est un renforcement négatif. C’est d’ailleurs grâce à ce R- que le cheval apprend. Pas par la pression en elle-même, mais par son retrait.

Ce dernier exemple rappelle qu’il n’y a pas de jugement de valeur dans le terme de punition tel qu’il est utilisé ici.

Moins évident mais pourtant important aussi, le fait de ne pas obtenir quelque chose qui est important pour nous est aussi désagréable : c’est la punition négative. Par exemple, quand le cheval voit le seau de nourriture devant lui sans pouvoir y accéder, c’est une situation de punition négative. Il va donc changer de comportement et en essayer de nouveaux pour trouver comment atteindre ce renforcement positif qu’est la nourriture.

Un comportement n’est jamais seul : quand un comportement diminue, un autre augmente à sa place. Alors parfois, il est important de se demander si on prend bien le bon comportement comme référence.

Mon cheval n’arrête pas de bouger à l’attache : je peux punir le fait qu’il bouge, ou renforcer son immobilité.

Je mets des jambes pour faire accélérer mon cheval au galop : je suis en train de punir le fait qu’il ne galope pas assez vite. Je retire mon action de jambes au moment où mon cheval accélère : je renforce le fait qu’il accélère.

Je garde la friandise cachée quand mon cheval fouille mes poches : c’est une punition. Je récompense avec un bonbon le moment où mon cheval est calme et ne réclame pas : c’est un renforcement.

Ainsi, renforcements et punitions sont proches est souvent liés.

Pour les distinguer, tu peux retenir que ce qui est apprécié par le cheval est un renforcement, ce qui est désagréable pour lui est une punition.

Les renforcements sont toujours à privilégier par rapport aux punitions : non seulement ils sont plus appréciés par le cheval, mais en plus ils sont plus efficaces !

Utiliser ces notions dans ta pratique

Quel est l’intérêt de comprendre le conditionnement opérant pour travailler ton cheval ?

Ce regard va te permettre d’abord d’identifier les mécanismes que tu mets en œuvre quand tu enseignes un nouveau comportement à ton cheval.

Je t’invite à observer tes actions en conséquence des comportements de ton cheval. Pour chacun, essaie d’identifier si c’est un renforcement ou une punition, et s’il est positif ou négatif.

Dans ta pratique, mieux vaut favoriser l’utilisation des renforcements. En effet, le problème avec la punition, c’est qu’elle indique au cheval ce qu’il ne doit pas faire, mais ne l’aide pas à trouver quoi faire à la place. La punition est un type d’apprentissage peu efficace.

À l’inverse, le renforcement encourage la répétition d’un comportement : il indique clairement au cheval ce qui est attendu de lui. Et ça, ça aide l’apprentissage !

Tu pourras aussi identifier quand tes actions ne sont ni renforcement ni punition, par exemple si elles ont lieu avant le comportement, ou trop longtemps après. Dans ce cas, cela indique que ton action n’est pas nécessairement aussi efficace que tu le voudrais : à toi de réfléchir comment la modifier pour en faire un renforcement.

Point bonus : comprendre ces notions te permettra de communiquer avec des définitions claires partagées par d’autres personnes. Et de comprendre mieux les études scientifiques qui les utilisent.

Le conditionnement opérant se place ainsi dans une dynamique d’action-réaction. Le cheval agit, l’environnement ou l’humain réagit, et le cheval modifie son comportement en fonction de cette réaction.

Cette description de l’apprentissage par conditionnement opérant, développée au milieu du XXe siècle par B F Skinner, a cependant une limite non négligeable : c’est une vision très mécanique de l’apprentissage. Et oui, à l’époque, on n’envisageait pas vraiment que les animaux aient des émotions !

Ainsi, si ce modèle est un bon support pour comprendre et expliquer comment le cheval apprend, pour communiquer sur nos façons de travailler, il ne faut pas oublier que la relation au cheval au quotidien dépasse le conditionnement opérant.

Alors, R+, R-, P+, P-, cela te semble-t-il un peu plus clair ?

Cet article est adapté d’un extrait de mon programme en ligne Devenir autonome en clicker training.