Apprentissage par renforcement 1: processus de décision markovien

Sdílet
Vložit
  • čas přidán 21. 08. 2024

Komentáře • 29

  • @philippe-da6081
    @philippe-da6081 Před 3 lety +2

    Bravo pour cette excellente vidéo! Les choses sont présentés clairement et avec une application pratique qui rend les choses très accessibles.

  • @manoo7730
    @manoo7730 Před 4 lety +1

    Juste merci Monsieur pour ça.

  • @davidBi94
    @davidBi94 Před 4 lety

    Merci pour votre pédagogie et votre partage de votre connaissance.

  • @greggs2444
    @greggs2444 Před 4 lety

    Merci beaucoup pour vos videos, vous méritez bien plus de visibilité

  • @technoflyclgfl8575
    @technoflyclgfl8575 Před 4 lety

    Merci pour la qualité du travail...

  • @jeremymeissner7603
    @jeremymeissner7603 Před 2 lety

    Merci pour cette vidéo ! Je suis en train de faire un cours de RL sur Coursera et votre vidéo m'aide beaucoup à consolider !

  • @theomarechal5113
    @theomarechal5113 Před 3 lety +1

    C'est super intéressant et très pédagogique (pour moi en tout cas) merci beaucoup !

  • @smartlearn2.0
    @smartlearn2.0 Před 4 lety

    Merci beaucoup pour le contenu, c'est très intéressant comme d'habitude

  • @ervinanoh3791
    @ervinanoh3791 Před 4 lety

    Merci beaucoup, c'est très bien expliqué

    • @l42project47
      @l42project47  Před 4 lety +1

      Merci pour ce commentaire sympathique ;)

  • @drm8164
    @drm8164 Před 9 měsíci

    Merci Chef

  • @AgentRex42
    @AgentRex42 Před 4 lety +1

    Yes, j'attendais ça !

  • @ibrahimabarry8839
    @ibrahimabarry8839 Před 4 lety +1

    merci beaucoup

  • @WahranRai
    @WahranRai Před 3 lety

    Une chaine de Markov = une suite de coups d'état

  • @user-lv3fg2go9q
    @user-lv3fg2go9q Před rokem

    Merci pour cette très utile présentation, j'ai une question, est-ce que l'algoritme converge toujours vers les memes valeur de Q

  • @koenvanduin7141
    @koenvanduin7141 Před 3 lety

    Bonjour,
    Tout d'abord merci pour le contenu. J'ai des questions à propos des égalités qui apparaissent autour de 18:47: Pourriez-vous me dire comment ces équations s'appellent ? J'ai du mal à les retrouver sur Wikipedia ou ailleurs. Sinon je me demande ce que fait le s' dans ces équations, et quel état s' représente.
    J'espère mieux comprendre tout ça quand j'ai des réponses à ces questions. Merci d'avance.

    • @l42project47
      @l42project47  Před 3 lety

      Bonjour
      c'est formule de Bellman version "différence temporelle". On parle souvent de différence temporelle quand on a un algo itératif qui se met à jour au fil d'expérience; on les repère facilement puisque l'on a un V(t+1)(X)=F(V(t)(X)), c'est à dire que l'on calcul une valeur, on met à jour une valeur en fonction de la valeur précédente, de cette manière, on converge vers la valeur que l'on cherche, dans ce cas, les récompense que l'on peut avoir en prenant tel ou tel chemin/action.
      Regardez la 2eme vidéo sur le renforcement, je montre un exemple concret.
      Laurent

  • @koenvanduin7141
    @koenvanduin7141 Před 3 lety

    Bonjour, désolé de vous poser deux questions de suite mais il y a une chose qui m'embrouille pas mal.
    Je me demande si le "V_{t+1}(s)" qu'on peut voir quand on arrête la vidéo à 16:24 ne devrait pas être remplacé par "V_{t-1}(s)". Le V_t(s) est un peu ce qu'un peut s'attendre à gagner en argent en partant de l'état s au moment t non? En plus les états s' à droite sont des états auxquels on arrive en faisant un pas à partir de s.
    J'espère que vous avez le temps de me répondre. Sinon, bonne continuation.

    • @l42project47
      @l42project47  Před 3 lety +1

      Bonjour,
      il s’agit ici d'un algorithme itératif, le but est de construire de façon statistique la valeur de V (ou de Q); l'idée est de donc de faire vivre à l'agent des expériences dans un environnement, de noter les valeur recherché à l'instant t pour construire une nouvelle valeur qui sera meilleur. Le V_t est bien ce que vous dites, l’espérance des gains, mais à t0, on ne le connaît pas encore, d’où la nécessité d'avoir un algo itératif.
      J'espère vous avoir éclairé un peu :)

    • @koenvanduin7141
      @koenvanduin7141 Před 3 lety

      @@l42project47 Je crois mieux comprendre maintenant. Merci

    • @l42project47
      @l42project47  Před 3 lety

      Ce que vous faites ici est le plus important, rester sur les formules jusqu’à avoir parfaitement compris chacun des termes, beaucoup on tendance à vite passer aux exercices sans trop comprendre la formule. Il ne faut pas hésiter à revenir régulièrement sur toutes ces formules

  • @yazanelmahmoud9947
    @yazanelmahmoud9947 Před 2 lety +1

    Vous n'expliquer les choses par étapes et vous tenter d'expliquer une grosse formule/ code directement sans le construire avec nous. Cela rend les choses compliquées. Vous n'appliquer pas des exemples d'application sur l'équation alors que c'est nécessaire pour comprendre

  • @khallafaissa5230
    @khallafaissa5230 Před 4 lety

    merci bocp mensieur,,, svp est ce que vous me pouvez aider d'ecrir un programme python pour MDP sur les réseau sans fils