Bonjour, Tout d'abord merci pour le contenu. J'ai des questions à propos des égalités qui apparaissent autour de 18:47: Pourriez-vous me dire comment ces équations s'appellent ? J'ai du mal à les retrouver sur Wikipedia ou ailleurs. Sinon je me demande ce que fait le s' dans ces équations, et quel état s' représente. J'espère mieux comprendre tout ça quand j'ai des réponses à ces questions. Merci d'avance.
Bonjour c'est formule de Bellman version "différence temporelle". On parle souvent de différence temporelle quand on a un algo itératif qui se met à jour au fil d'expérience; on les repère facilement puisque l'on a un V(t+1)(X)=F(V(t)(X)), c'est à dire que l'on calcul une valeur, on met à jour une valeur en fonction de la valeur précédente, de cette manière, on converge vers la valeur que l'on cherche, dans ce cas, les récompense que l'on peut avoir en prenant tel ou tel chemin/action. Regardez la 2eme vidéo sur le renforcement, je montre un exemple concret. Laurent
Bonjour, désolé de vous poser deux questions de suite mais il y a une chose qui m'embrouille pas mal. Je me demande si le "V_{t+1}(s)" qu'on peut voir quand on arrête la vidéo à 16:24 ne devrait pas être remplacé par "V_{t-1}(s)". Le V_t(s) est un peu ce qu'un peut s'attendre à gagner en argent en partant de l'état s au moment t non? En plus les états s' à droite sont des états auxquels on arrive en faisant un pas à partir de s. J'espère que vous avez le temps de me répondre. Sinon, bonne continuation.
Bonjour, il s’agit ici d'un algorithme itératif, le but est de construire de façon statistique la valeur de V (ou de Q); l'idée est de donc de faire vivre à l'agent des expériences dans un environnement, de noter les valeur recherché à l'instant t pour construire une nouvelle valeur qui sera meilleur. Le V_t est bien ce que vous dites, l’espérance des gains, mais à t0, on ne le connaît pas encore, d’où la nécessité d'avoir un algo itératif. J'espère vous avoir éclairé un peu :)
Ce que vous faites ici est le plus important, rester sur les formules jusqu’à avoir parfaitement compris chacun des termes, beaucoup on tendance à vite passer aux exercices sans trop comprendre la formule. Il ne faut pas hésiter à revenir régulièrement sur toutes ces formules
Vous n'expliquer les choses par étapes et vous tenter d'expliquer une grosse formule/ code directement sans le construire avec nous. Cela rend les choses compliquées. Vous n'appliquer pas des exemples d'application sur l'équation alors que c'est nécessaire pour comprendre
Bravo pour cette excellente vidéo! Les choses sont présentés clairement et avec une application pratique qui rend les choses très accessibles.
merci pour ce message sympa :)
Laurent
Juste merci Monsieur pour ça.
Merci pour votre pédagogie et votre partage de votre connaissance.
Merci pour ce message sympa :)
Merci beaucoup pour vos videos, vous méritez bien plus de visibilité
Merci pour ce message sympa ;)
Merci pour la qualité du travail...
Merci pour ce message sympa :)
Merci pour cette vidéo ! Je suis en train de faire un cours de RL sur Coursera et votre vidéo m'aide beaucoup à consolider !
C'est super intéressant et très pédagogique (pour moi en tout cas) merci beaucoup !
merci pour ce message sympa :)
Merci beaucoup pour le contenu, c'est très intéressant comme d'habitude
Merci pour ce commentaire sympa ;)
Merci beaucoup, c'est très bien expliqué
Merci pour ce commentaire sympathique ;)
Merci Chef
Yes, j'attendais ça !
merci beaucoup
Une chaine de Markov = une suite de coups d'état
Merci pour cette très utile présentation, j'ai une question, est-ce que l'algoritme converge toujours vers les memes valeur de Q
Bonjour,
Tout d'abord merci pour le contenu. J'ai des questions à propos des égalités qui apparaissent autour de 18:47: Pourriez-vous me dire comment ces équations s'appellent ? J'ai du mal à les retrouver sur Wikipedia ou ailleurs. Sinon je me demande ce que fait le s' dans ces équations, et quel état s' représente.
J'espère mieux comprendre tout ça quand j'ai des réponses à ces questions. Merci d'avance.
Bonjour
c'est formule de Bellman version "différence temporelle". On parle souvent de différence temporelle quand on a un algo itératif qui se met à jour au fil d'expérience; on les repère facilement puisque l'on a un V(t+1)(X)=F(V(t)(X)), c'est à dire que l'on calcul une valeur, on met à jour une valeur en fonction de la valeur précédente, de cette manière, on converge vers la valeur que l'on cherche, dans ce cas, les récompense que l'on peut avoir en prenant tel ou tel chemin/action.
Regardez la 2eme vidéo sur le renforcement, je montre un exemple concret.
Laurent
Bonjour, désolé de vous poser deux questions de suite mais il y a une chose qui m'embrouille pas mal.
Je me demande si le "V_{t+1}(s)" qu'on peut voir quand on arrête la vidéo à 16:24 ne devrait pas être remplacé par "V_{t-1}(s)". Le V_t(s) est un peu ce qu'un peut s'attendre à gagner en argent en partant de l'état s au moment t non? En plus les états s' à droite sont des états auxquels on arrive en faisant un pas à partir de s.
J'espère que vous avez le temps de me répondre. Sinon, bonne continuation.
Bonjour,
il s’agit ici d'un algorithme itératif, le but est de construire de façon statistique la valeur de V (ou de Q); l'idée est de donc de faire vivre à l'agent des expériences dans un environnement, de noter les valeur recherché à l'instant t pour construire une nouvelle valeur qui sera meilleur. Le V_t est bien ce que vous dites, l’espérance des gains, mais à t0, on ne le connaît pas encore, d’où la nécessité d'avoir un algo itératif.
J'espère vous avoir éclairé un peu :)
@@l42project47 Je crois mieux comprendre maintenant. Merci
Ce que vous faites ici est le plus important, rester sur les formules jusqu’à avoir parfaitement compris chacun des termes, beaucoup on tendance à vite passer aux exercices sans trop comprendre la formule. Il ne faut pas hésiter à revenir régulièrement sur toutes ces formules
Vous n'expliquer les choses par étapes et vous tenter d'expliquer une grosse formule/ code directement sans le construire avec nous. Cela rend les choses compliquées. Vous n'appliquer pas des exemples d'application sur l'équation alors que c'est nécessaire pour comprendre
merci bocp mensieur,,, svp est ce que vous me pouvez aider d'ecrir un programme python pour MDP sur les réseau sans fils