Apprentissage par renforcement #4 : Premier Jeu

Sdílet
Vložit
  • čas přidán 21. 08. 2024
  • Patreon : / membership
    Série de vidéos consacrée à l'apprentissage par renforcement. Dans cette vidéo, nous créons notre premier jeu en se basant sur les concepts présentés dans les vidéos précédentes.
    Le code : github.com/thi...
    Discord de la communauté :
    / discord
    [Chronique d'une IA]
    Spotify : open.spotify.c...
    Amazon music : music.amazon.f...
    Apple Podcasts: podcasts.apple...
    [About me]
    Visual Behavior : visualbehavior.ai
    Perso : www.thibaultne...
    Github : github.com/thi...
    Linkedin : / thibaultneveu
    Twitter : / thiboneveu

Komentáře • 43

  • @Jimaniki
    @Jimaniki Před 5 lety +8

    Merci pour tout ce que tu fais.

  • @ecureuilmasque1234
    @ecureuilmasque1234 Před 5 lety +10

    Cette serie est géniale, vivement la suite !

  • @shikyoblood4228
    @shikyoblood4228 Před 5 lety +3

    Génial. Je viens de finir il y a 30 minutes la vidéos précédente et tu sort une nouvelle direct. Parfait :)
    :O et first xD

  • @CyrusPellet
    @CyrusPellet Před 5 lety +7

    Bravo, tes vidéos sont absolument géniales! Merci beaucoup et continue ainsi!

  • @flavio225
    @flavio225 Před 5 lety +3

    On sent que tu maîtrise ton sujet...Continue Thibaut. T un vrai prof!!!

    • @flavio225
      @flavio225 Před 5 lety

      As-tu des ressources pour les chatbots, c'est vraiment ce que je veux maitriser.

    • @ThibaultNeveu
      @ThibaultNeveu  Před 5 lety

      Tu dois regarder en premier lieu côté NLP, word embeddin et seq2seq. Sinon tu peux aussi t'intéresser au site qui propose la création de chatbot automatique

  •  Před 5 lety +1

    Top, très bien expliqué, très clair, et une difficulté progressive... pour l'instant, j'aime bcp.

  • @yentlcollin8809
    @yentlcollin8809 Před rokem

    trop bien

  • @rx3443
    @rx3443 Před rokem

    Juste génial, merci beaucoup

  • @CRATOUFFE
    @CRATOUFFE Před 2 lety

    Merci beaucoup pour ces vidéo. J'ai enfin pu trouver un algorithme qui me permet d'ajouter de l'intelligence aux jeux que je développe

  • @philippecavallini671
    @philippecavallini671 Před 5 lety

    Merci Thibault pour vos vidéos.

  • @xavierfolch2814
    @xavierfolch2814 Před 4 lety +1

    Très bonne vidéo introductive à l'application du renforcement. Attention au scintillement de la barre google chrome en haut de l'écran.

  • @dominiquegeradts4242
    @dominiquegeradts4242 Před 3 lety

    Génial ! Littéralement génial !

  • @bumbledev
    @bumbledev Před 2 lety

    Salut Thibault, super série de vidéos ! Merci beaucoup très claire. Je vais m'appuyer sur tes exemples et les refaire en Fsharp. Et présenter ca sur ma chaines. (j'oublierais pas de te citer bien sur ;P )

  • @krisbarc4927
    @krisbarc4927 Před 4 lety

    Salut ! Merci pour tes vidéos qui sont très pédagogiques ! J'ai récemment découvert ta chaîne, et ça fait plaisir d'avoir de telles ressources en francophone.
    J'aurais une question au sujet de ta formule d'update de value function, je vois que la reward n'intervient pas directement dans celle-ci (souvent on croise plutôt V(s) = V(s) + alpha*(R(s)+V(s')-V(s)), est-ce dû au fait que dans l'exemple des allumettes que tu choisis seuls les états terminaux ont une reward non nulle, donc il est inutile de prendre en compte R(s) ici ?
    Et autre petite question, cet algorithme est donc une version adaptée du TD-learning pour du renforcement actif ?
    Désolé par avance si je manque de clarté dans mes question :)
    Edit : alors autant pour moi, c'est un algorithme de Monte-Carlo !

  • @alexandredepire6030
    @alexandredepire6030 Před 4 lety +1

    Commentaire de la vidéo "Apprentissage par renforcement #3 : Value function"
    Le calcul n'est pas symétrique, si on rencontre l'expérience (étudie, reetudie) avant l'expérience (étudie, dormir) la value function n'aboutit au même résultat, est-ce normal et logique ?

    • @ThibaultNeveu
      @ThibaultNeveu  Před 4 lety +1

      Oui c'est négligeable sur une grande quantité d'episode

  • @simonwillot5920
    @simonwillot5920 Před 11 měsíci

    Bonjour et merci pour la vidéo ! J'ai une question, quel est l'algorithme que tu expliques ici ?

  • @ibrahimafaye7915
    @ibrahimafaye7915 Před 2 lety

    Tres interessant merci mais y a une chose que je comprends pas dans le calcul de V(s) à l'état 4....En effet vous trouvez V(s)=0,1 alors que dans le calcul vous avez pris V(s)=0 avec la formule V(s)= V(s) -lr*(V(s') - V(s))

  • @nilsburlat1676
    @nilsburlat1676 Před 4 lety

    Bonne série, merci ! J'aurais quelques questions à partager:
    Je tente d'adapter cette technique au célèbre jeu du Puissance 4. On complique un peu plus le jeu, c'est une grille de 6x7. Un article de 1988 définit comme borne supérieure du nombre de grilles valides 7.1x10^13. Mes interrogations sont les suivantes : est-il correct de représenter un état comme un chaîne de 42 caractères ? Comment choisir le learning rate adéquat ? Combien de parties devrais-je simuler pour avoir une IA raisonnable? Comment distinguer le joueur blanc du joueur noir (jaune/rouge pour les versions classiques)?
    Merci !

    • @m.l2473
      @m.l2473 Před 2 lety

      Salut, je travaille sur le même projet et je me pose les mêmes questions pour la grille, aurais-tu trouvé la réponse à ces questions ? :)

    • @nilsburlat1676
      @nilsburlat1676 Před 2 lety

      @@m.l2473 Hello, non, je n'avais finalement pas continué ce projet-ci :) Bon courage !

    • @m.l2473
      @m.l2473 Před 2 lety

      @@nilsburlat1676 OK c'est pas grave, merci je vais en avoir besoin haha

  • @tonydenion3557
    @tonydenion3557 Před 5 lety +1

    J'suis decu, il y a que du Q-learning dans cette video ;)
    T'aurais pas un discord pour discuter ? J'utilise aussi un peut le RL pour mon projet ( github.com/kkuette/TradzQAI ), et ca serait cool de pouvoir echanger !

  • @zrmsraggot
    @zrmsraggot Před 3 lety

    Si tu rajoutes une allumette une fois ton IA entrainée il se passe quoi

  • @ap-qn9hw
    @ap-qn9hw Před 5 lety +1

    J'ai adapté ce code pour un jeu de morpion. Mais j'ai des moins bon résultats. Est-ce que ça intéresserait quelqu'un de pouvoir en parler ?

    • @ThibaultNeveu
      @ThibaultNeveu  Před 5 lety

      J'ai adapté le code pour morpion et j'obtiens 90% de victoire contre une IA random

    • @ap-qn9hw
      @ap-qn9hw Před 5 lety

      @@ThibaultNeveu d'accord, j'ai 62% de mon côté. Est-ce que tu peux me donner le critère d'évolution de l'epsilon que tu as mis et le nombre d'itération d'apprentissage que tu as codé ? C'est soit ça soit mon code qui est pas bon mais je pencherais plutôt pour la seconde solution :)

    • @ThibaultNeveu
      @ThibaultNeveu  Před 5 lety

      @@ap-qn9hw la solution du tic-tac-toe est sur mon github à côté du code de cette vidéo

    • @ap-qn9hw
      @ap-qn9hw Před 5 lety

      @@ThibaultNeveu Ca marche, merci

    • @celinehajjar3212
      @celinehajjar3212 Před 5 lety

      Pareil! et j'ai eu 62% de même. J'ai transformé chaque état en une chaine de caractère (dans son code Thibault les transforme en un nombre). Je ne sais pas si c'est ça qui fait la différence ou si j'ai mal entrainé mon agent. En tt cas veux-tu qu'on échange les codes?