Apprentissage par renforcement 2: équation de Bellman

Intelligence Artificielle [11.2] : Processus de décision markovien - définitions

Algorithme d'apprentissage: la descente de gradient

Harley Quinn's revenge plan！！！#Harley Quinn #joker

Vybíráme outfit na koncert😅 Berete 💛 nebo 🩷? #justforfun

Cool barbie shoes! #shoes #makeover #diy #upcycling #handmade

Apprentissage par renforcement 1: processus de décision markovien

L42Project

zhlédnutí 10 321

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 21. 08. 2024

Komentáře • 29

@philippe-da6081 Před 3 lety ⁺²
Bravo pour cette excellente vidéo! Les choses sont présentés clairement et avec une application pratique qui rend les choses très accessibles.
@l42project47 Před 3 lety
merci pour ce message sympa :)
Laurent
@manoo7730 Před 4 lety ⁺¹
Juste merci Monsieur pour ça.
@davidBi94 Před 4 lety
Merci pour votre pédagogie et votre partage de votre connaissance.
@l42project47 Před 4 lety
Merci pour ce message sympa :)
@greggs2444 Před 4 lety
Merci beaucoup pour vos videos, vous méritez bien plus de visibilité
@l42project47 Před 4 lety
Merci pour ce message sympa ;)
@technoflyclgfl8575 Před 4 lety
Merci pour la qualité du travail...
@l42project47 Před 4 lety
Merci pour ce message sympa :)
@jeremymeissner7603 Před 2 lety
Merci pour cette vidéo ! Je suis en train de faire un cours de RL sur Coursera et votre vidéo m'aide beaucoup à consolider !
@theomarechal5113 Před 3 lety ⁺¹
C'est super intéressant et très pédagogique (pour moi en tout cas) merci beaucoup !
@l42project47 Před 3 lety
merci pour ce message sympa :)
@smartlearn2.0 Před 4 lety
Merci beaucoup pour le contenu, c'est très intéressant comme d'habitude
@l42project47 Před 4 lety
Merci pour ce commentaire sympa ;)
@ervinanoh3791 Před 4 lety
Merci beaucoup, c'est très bien expliqué
@l42project47 Před 4 lety ⁺¹
Merci pour ce commentaire sympathique ;)
@drm8164 Před 9 měsíci
Merci Chef
@AgentRex42 Před 4 lety ⁺¹
Yes, j'attendais ça !
@ibrahimabarry8839 Před 4 lety ⁺¹
merci beaucoup
@WahranRai Před 3 lety
Une chaine de Markov = une suite de coups d'état
@user-lv3fg2go9q Před rokem
Merci pour cette très utile présentation, j'ai une question, est-ce que l'algoritme converge toujours vers les memes valeur de Q
@koenvanduin7141 Před 3 lety
Bonjour,
Tout d'abord merci pour le contenu. J'ai des questions à propos des égalités qui apparaissent autour de 18:47: Pourriez-vous me dire comment ces équations s'appellent ? J'ai du mal à les retrouver sur Wikipedia ou ailleurs. Sinon je me demande ce que fait le s' dans ces équations, et quel état s' représente.
J'espère mieux comprendre tout ça quand j'ai des réponses à ces questions. Merci d'avance.
@l42project47 Před 3 lety
Bonjour
c'est formule de Bellman version "différence temporelle". On parle souvent de différence temporelle quand on a un algo itératif qui se met à jour au fil d'expérience; on les repère facilement puisque l'on a un V(t+1)(X)=F(V(t)(X)), c'est à dire que l'on calcul une valeur, on met à jour une valeur en fonction de la valeur précédente, de cette manière, on converge vers la valeur que l'on cherche, dans ce cas, les récompense que l'on peut avoir en prenant tel ou tel chemin/action.
Regardez la 2eme vidéo sur le renforcement, je montre un exemple concret.
Laurent
@koenvanduin7141 Před 3 lety
Bonjour, désolé de vous poser deux questions de suite mais il y a une chose qui m'embrouille pas mal.
Je me demande si le "V_{t+1}(s)" qu'on peut voir quand on arrête la vidéo à 16:24 ne devrait pas être remplacé par "V_{t-1}(s)". Le V_t(s) est un peu ce qu'un peut s'attendre à gagner en argent en partant de l'état s au moment t non? En plus les états s' à droite sont des états auxquels on arrive en faisant un pas à partir de s.
J'espère que vous avez le temps de me répondre. Sinon, bonne continuation.
@l42project47 Před 3 lety ⁺¹
Bonjour,
il s’agit ici d'un algorithme itératif, le but est de construire de façon statistique la valeur de V (ou de Q); l'idée est de donc de faire vivre à l'agent des expériences dans un environnement, de noter les valeur recherché à l'instant t pour construire une nouvelle valeur qui sera meilleur. Le V_t est bien ce que vous dites, l’espérance des gains, mais à t0, on ne le connaît pas encore, d’où la nécessité d'avoir un algo itératif.
J'espère vous avoir éclairé un peu :)
@koenvanduin7141 Před 3 lety
@@l42project47 Je crois mieux comprendre maintenant. Merci
@l42project47 Před 3 lety
Ce que vous faites ici est le plus important, rester sur les formules jusqu’à avoir parfaitement compris chacun des termes, beaucoup on tendance à vite passer aux exercices sans trop comprendre la formule. Il ne faut pas hésiter à revenir régulièrement sur toutes ces formules
@yazanelmahmoud9947 Před 2 lety ⁺¹
Vous n'expliquer les choses par étapes et vous tenter d'expliquer une grosse formule/ code directement sans le construire avec nous. Cela rend les choses compliquées. Vous n'appliquer pas des exemples d'application sur l'équation alors que c'est nécessaire pour comprendre
@khallafaissa5230 Před 4 lety
merci bocp mensieur,,, svp est ce que vous me pouvez aider d'ecrir un programme python pour MDP sur les réseau sans fils

Další v pořadí

Automatické přehrávání

Apprentissage par renforcement 2: équation de Bellman

Apprentissage par renforcement 2: équation de Bellman

Intelligence Artificielle [11.2] : Processus de décision markovien - définitions

Intelligence Artificielle [11.2] : Processus de décision markovien - définitions

Algorithme d'apprentissage: la descente de gradient

Algorithme d'apprentissage: la descente de gradient

Harley Quinn's revenge plan！！！#Harley Quinn #joker

Harley Quinn's revenge plan！！！#Harley Quinn #joker

Vybíráme outfit na koncert😅 Berete 💛 nebo 🩷? #justforfun

Vybíráme outfit na koncert😅 Berete 💛 nebo 🩷? #justforfun

Cool barbie shoes! #shoes #makeover #diy #upcycling #handmade

Cool barbie shoes! #shoes #makeover #diy #upcycling #handmade

VAŠE DÁVKA USPOKOJENÍ #74 😍

VAŠE DÁVKA USPOKOJENÍ #74 😍

Deep Learning Cars

Deep Learning Cars

Intro RL I - 2: Définition d'un Markov Decision Process (MDP)

Intro RL I - 2: Définition d'un Markov Decision Process (MDP)

The moment we stopped understanding AI [AlexNet]

The moment we stopped understanding AI [AlexNet]

J'ai demandé aux CLIENTS de CARTIER : êtes-vous vraiment RICHE ?

J'ai demandé aux CLIENTS de CARTIER : êtes-vous vraiment RICHE ?

L'apprentissage par renforcement : Les bases

L'apprentissage par renforcement : Les bases

LE DISCOURS DE CE VIEILLARD VA CHANGER TA VIE ! Lou Holtz - Motivation Fr

LE DISCOURS DE CE VIEILLARD VA CHANGER TA VIE ! Lou Holtz - Motivation Fr

FORMATION DEEP LEARNING COMPLETE (2021)

FORMATION DEEP LEARNING COMPLETE (2021)

Apprentissage par renforcement #7 : Deep Q-Learning, apprendre à conduire

Apprentissage par renforcement #7 : Deep Q-Learning, apprendre à conduire

Why Does Diffusion Work Better than Auto-Regression?

Why Does Diffusion Work Better than Auto-Regression?

Sad To Announce I Did Not Qualify For Mens 2024 Olympic Gymnastics Team

Sad To Announce I Did Not Qualify For Mens 2024 Olympic Gymnastics Team

Our Life In A Nutshell🤗

Our Life In A Nutshell🤗

ONLYNET Challenge s Mich Sakem a Dodem!

ONLYNET Challenge s Mich Sakem a Dodem!

Co na to ŘÍKÁTE?🔥 JIŽ online na HEROHERO🔥

Co na to ŘÍKÁTE?🔥 JIŽ online na HEROHERO🔥

WHO CAN RUN FASTER?

WHO CAN RUN FASTER?

Survive 100 Days In Nuclear Bunker, Win $500,000

Survive 100 Days In Nuclear Bunker, Win $500,000

Wait for the last one! 👀 🍽️

Wait for the last one! 👀 🍽️

Send this to an artist to make them… 🫢✨🎨 #artistomg

Send this to an artist to make them… 🫢✨🎨 #artistomg