Apprentissage par renforcement #4 : Premier Jeu
Vložit
- čas přidán 21. 08. 2024
- Patreon : / membership
Série de vidéos consacrée à l'apprentissage par renforcement. Dans cette vidéo, nous créons notre premier jeu en se basant sur les concepts présentés dans les vidéos précédentes.
Le code : github.com/thi...
Discord de la communauté :
/ discord
[Chronique d'une IA]
Spotify : open.spotify.c...
Amazon music : music.amazon.f...
Apple Podcasts: podcasts.apple...
[About me]
Visual Behavior : visualbehavior.ai
Perso : www.thibaultne...
Github : github.com/thi...
Linkedin : / thibaultneveu
Twitter : / thiboneveu
Merci pour tout ce que tu fais.
Cette serie est géniale, vivement la suite !
Génial. Je viens de finir il y a 30 minutes la vidéos précédente et tu sort une nouvelle direct. Parfait :)
:O et first xD
Bravo, tes vidéos sont absolument géniales! Merci beaucoup et continue ainsi!
On sent que tu maîtrise ton sujet...Continue Thibaut. T un vrai prof!!!
As-tu des ressources pour les chatbots, c'est vraiment ce que je veux maitriser.
Tu dois regarder en premier lieu côté NLP, word embeddin et seq2seq. Sinon tu peux aussi t'intéresser au site qui propose la création de chatbot automatique
Top, très bien expliqué, très clair, et une difficulté progressive... pour l'instant, j'aime bcp.
trop bien
Juste génial, merci beaucoup
Merci beaucoup pour ces vidéo. J'ai enfin pu trouver un algorithme qui me permet d'ajouter de l'intelligence aux jeux que je développe
Merci Thibault pour vos vidéos.
Très bonne vidéo introductive à l'application du renforcement. Attention au scintillement de la barre google chrome en haut de l'écran.
Génial ! Littéralement génial !
Salut Thibault, super série de vidéos ! Merci beaucoup très claire. Je vais m'appuyer sur tes exemples et les refaire en Fsharp. Et présenter ca sur ma chaines. (j'oublierais pas de te citer bien sur ;P )
Salut ! Merci pour tes vidéos qui sont très pédagogiques ! J'ai récemment découvert ta chaîne, et ça fait plaisir d'avoir de telles ressources en francophone.
J'aurais une question au sujet de ta formule d'update de value function, je vois que la reward n'intervient pas directement dans celle-ci (souvent on croise plutôt V(s) = V(s) + alpha*(R(s)+V(s')-V(s)), est-ce dû au fait que dans l'exemple des allumettes que tu choisis seuls les états terminaux ont une reward non nulle, donc il est inutile de prendre en compte R(s) ici ?
Et autre petite question, cet algorithme est donc une version adaptée du TD-learning pour du renforcement actif ?
Désolé par avance si je manque de clarté dans mes question :)
Edit : alors autant pour moi, c'est un algorithme de Monte-Carlo !
Commentaire de la vidéo "Apprentissage par renforcement #3 : Value function"
Le calcul n'est pas symétrique, si on rencontre l'expérience (étudie, reetudie) avant l'expérience (étudie, dormir) la value function n'aboutit au même résultat, est-ce normal et logique ?
Oui c'est négligeable sur une grande quantité d'episode
Bonjour et merci pour la vidéo ! J'ai une question, quel est l'algorithme que tu expliques ici ?
Tres interessant merci mais y a une chose que je comprends pas dans le calcul de V(s) à l'état 4....En effet vous trouvez V(s)=0,1 alors que dans le calcul vous avez pris V(s)=0 avec la formule V(s)= V(s) -lr*(V(s') - V(s))
Bonne série, merci ! J'aurais quelques questions à partager:
Je tente d'adapter cette technique au célèbre jeu du Puissance 4. On complique un peu plus le jeu, c'est une grille de 6x7. Un article de 1988 définit comme borne supérieure du nombre de grilles valides 7.1x10^13. Mes interrogations sont les suivantes : est-il correct de représenter un état comme un chaîne de 42 caractères ? Comment choisir le learning rate adéquat ? Combien de parties devrais-je simuler pour avoir une IA raisonnable? Comment distinguer le joueur blanc du joueur noir (jaune/rouge pour les versions classiques)?
Merci !
Salut, je travaille sur le même projet et je me pose les mêmes questions pour la grille, aurais-tu trouvé la réponse à ces questions ? :)
@@m.l2473 Hello, non, je n'avais finalement pas continué ce projet-ci :) Bon courage !
@@nilsburlat1676 OK c'est pas grave, merci je vais en avoir besoin haha
J'suis decu, il y a que du Q-learning dans cette video ;)
T'aurais pas un discord pour discuter ? J'utilise aussi un peut le RL pour mon projet ( github.com/kkuette/TradzQAI ), et ca serait cool de pouvoir echanger !
Le discord est ouvert, discord.gg/8Fyzc8V
Si tu rajoutes une allumette une fois ton IA entrainée il se passe quoi
J'ai adapté ce code pour un jeu de morpion. Mais j'ai des moins bon résultats. Est-ce que ça intéresserait quelqu'un de pouvoir en parler ?
J'ai adapté le code pour morpion et j'obtiens 90% de victoire contre une IA random
@@ThibaultNeveu d'accord, j'ai 62% de mon côté. Est-ce que tu peux me donner le critère d'évolution de l'epsilon que tu as mis et le nombre d'itération d'apprentissage que tu as codé ? C'est soit ça soit mon code qui est pas bon mais je pencherais plutôt pour la seconde solution :)
@@ap-qn9hw la solution du tic-tac-toe est sur mon github à côté du code de cette vidéo
@@ThibaultNeveu Ca marche, merci
Pareil! et j'ai eu 62% de même. J'ai transformé chaque état en une chaine de caractère (dans son code Thibault les transforme en un nombre). Je ne sais pas si c'est ça qui fait la différence ou si j'ai mal entrainé mon agent. En tt cas veux-tu qu'on échange les codes?