Apprentissage par renforcement #5 : Introduction au Q-Learning

AI Learns to Play Super Mario Bros!

AI Expert Explains Future Programming Jobs… and Python

妈妈教育孩子却被父女联合赶出家门！太寒心！ #搞笑#funny#萌娃

Send this to an artist to make them… 🫢✨🎨 #artistomg

Angelo Song Tu To Riyal😆 | Brawl Stars #shorts #brawlstars

Apprentissage par renforcement #4 : Premier Jeu

Thibault Neveu

zhlédnutí 22 569

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 21. 08. 2024
Patreon : / membership
Série de vidéos consacrée à l'apprentissage par renforcement. Dans cette vidéo, nous créons notre premier jeu en se basant sur les concepts présentés dans les vidéos précédentes.
Le code : github.com/thi...
Discord de la communauté :
/ discord
[Chronique d'une IA]
Spotify : open.spotify.c...
Amazon music : music.amazon.f...
Apple Podcasts: podcasts.apple...
[About me]
Visual Behavior : visualbehavior.ai
Perso : www.thibaultne...
Github : github.com/thi...
Linkedin : / thibaultneveu
Twitter : / thiboneveu

Komentáře • 43

@Jimaniki Před 5 lety ⁺⁸
Merci pour tout ce que tu fais.
@ecureuilmasque1234 Před 5 lety ⁺¹⁰
Cette serie est géniale, vivement la suite !
@shikyoblood4228 Před 5 lety ⁺³
Génial. Je viens de finir il y a 30 minutes la vidéos précédente et tu sort une nouvelle direct. Parfait :)
:O et first xD
@CyrusPellet Před 5 lety ⁺⁷
Bravo, tes vidéos sont absolument géniales! Merci beaucoup et continue ainsi!
@flavio225 Před 5 lety ⁺³
On sent que tu maîtrise ton sujet...Continue Thibaut. T un vrai prof!!!
@flavio225 Před 5 lety
As-tu des ressources pour les chatbots, c'est vraiment ce que je veux maitriser.
@ThibaultNeveu Před 5 lety
Tu dois regarder en premier lieu côté NLP, word embeddin et seq2seq. Sinon tu peux aussi t'intéresser au site qui propose la création de chatbot automatique
Před 5 lety ⁺¹
Top, très bien expliqué, très clair, et une difficulté progressive... pour l'instant, j'aime bcp.
@yentlcollin8809 Před rokem
trop bien
@rx3443 Před rokem
Juste génial, merci beaucoup
@CRATOUFFE Před 2 lety
Merci beaucoup pour ces vidéo. J'ai enfin pu trouver un algorithme qui me permet d'ajouter de l'intelligence aux jeux que je développe
@philippecavallini671 Před 5 lety
Merci Thibault pour vos vidéos.
@xavierfolch2814 Před 4 lety ⁺¹
Très bonne vidéo introductive à l'application du renforcement. Attention au scintillement de la barre google chrome en haut de l'écran.
@dominiquegeradts4242 Před 3 lety
Génial ! Littéralement génial !
@bumbledev Před 2 lety
Salut Thibault, super série de vidéos ! Merci beaucoup très claire. Je vais m'appuyer sur tes exemples et les refaire en Fsharp. Et présenter ca sur ma chaines. (j'oublierais pas de te citer bien sur ;P )
@krisbarc4927 Před 4 lety
Salut ! Merci pour tes vidéos qui sont très pédagogiques ! J'ai récemment découvert ta chaîne, et ça fait plaisir d'avoir de telles ressources en francophone.
J'aurais une question au sujet de ta formule d'update de value function, je vois que la reward n'intervient pas directement dans celle-ci (souvent on croise plutôt V(s) = V(s) + alpha*(R(s)+V(s')-V(s)), est-ce dû au fait que dans l'exemple des allumettes que tu choisis seuls les états terminaux ont une reward non nulle, donc il est inutile de prendre en compte R(s) ici ?
Et autre petite question, cet algorithme est donc une version adaptée du TD-learning pour du renforcement actif ?
Désolé par avance si je manque de clarté dans mes question :)
Edit : alors autant pour moi, c'est un algorithme de Monte-Carlo !
@alexandredepire6030 Před 4 lety ⁺¹
Commentaire de la vidéo "Apprentissage par renforcement #3 : Value function"
Le calcul n'est pas symétrique, si on rencontre l'expérience (étudie, reetudie) avant l'expérience (étudie, dormir) la value function n'aboutit au même résultat, est-ce normal et logique ?
@ThibaultNeveu Před 4 lety ⁺¹
Oui c'est négligeable sur une grande quantité d'episode
@simonwillot5920 Před 11 měsíci
Bonjour et merci pour la vidéo ! J'ai une question, quel est l'algorithme que tu expliques ici ?
@ibrahimafaye7915 Před 2 lety
Tres interessant merci mais y a une chose que je comprends pas dans le calcul de V(s) à l'état 4....En effet vous trouvez V(s)=0,1 alors que dans le calcul vous avez pris V(s)=0 avec la formule V(s)= V(s) -lr*(V(s') - V(s))
@nilsburlat1676 Před 4 lety
Bonne série, merci ! J'aurais quelques questions à partager:
Je tente d'adapter cette technique au célèbre jeu du Puissance 4. On complique un peu plus le jeu, c'est une grille de 6x7. Un article de 1988 définit comme borne supérieure du nombre de grilles valides 7.1x10^13. Mes interrogations sont les suivantes : est-il correct de représenter un état comme un chaîne de 42 caractères ? Comment choisir le learning rate adéquat ? Combien de parties devrais-je simuler pour avoir une IA raisonnable? Comment distinguer le joueur blanc du joueur noir (jaune/rouge pour les versions classiques)?
Merci !
@m.l2473 Před 2 lety
Salut, je travaille sur le même projet et je me pose les mêmes questions pour la grille, aurais-tu trouvé la réponse à ces questions ? :)
@nilsburlat1676 Před 2 lety
@@m.l2473 Hello, non, je n'avais finalement pas continué ce projet-ci :) Bon courage !
@m.l2473 Před 2 lety
@@nilsburlat1676 OK c'est pas grave, merci je vais en avoir besoin haha
@tonydenion3557 Před 5 lety ⁺¹
J'suis decu, il y a que du Q-learning dans cette video ;)
T'aurais pas un discord pour discuter ? J'utilise aussi un peut le RL pour mon projet ( github.com/kkuette/TradzQAI ), et ca serait cool de pouvoir echanger !
@ThibaultNeveu Před 5 lety ⁺¹
Le discord est ouvert, discord.gg/8Fyzc8V
@zrmsraggot Před 3 lety
Si tu rajoutes une allumette une fois ton IA entrainée il se passe quoi
@ap-qn9hw Před 5 lety ⁺¹
J'ai adapté ce code pour un jeu de morpion. Mais j'ai des moins bon résultats. Est-ce que ça intéresserait quelqu'un de pouvoir en parler ?
@ThibaultNeveu Před 5 lety
J'ai adapté le code pour morpion et j'obtiens 90% de victoire contre une IA random
@ap-qn9hw Před 5 lety
@@ThibaultNeveu d'accord, j'ai 62% de mon côté. Est-ce que tu peux me donner le critère d'évolution de l'epsilon que tu as mis et le nombre d'itération d'apprentissage que tu as codé ? C'est soit ça soit mon code qui est pas bon mais je pencherais plutôt pour la seconde solution :)
@ThibaultNeveu Před 5 lety
@@ap-qn9hw la solution du tic-tac-toe est sur mon github à côté du code de cette vidéo
@ap-qn9hw Před 5 lety
@@ThibaultNeveu Ca marche, merci
@celinehajjar3212 Před 5 lety
Pareil! et j'ai eu 62% de même. J'ai transformé chaque état en une chaine de caractère (dans son code Thibault les transforme en un nombre). Je ne sais pas si c'est ça qui fait la différence ou si j'ai mal entrainé mon agent. En tt cas veux-tu qu'on échange les codes?

Další v pořadí

Automatické přehrávání

Apprentissage par renforcement #5 : Introduction au Q-Learning

Apprentissage par renforcement #5 : Introduction au Q-Learning

AI Learns to Play Super Mario Bros!

AI Learns to Play Super Mario Bros!

AI Expert Explains Future Programming Jobs… and Python

AI Expert Explains Future Programming Jobs… and Python

妈妈教育孩子却被父女联合赶出家门！太寒心！ #搞笑#funny#萌娃

妈妈教育孩子却被父女联合赶出家门！太寒心！ #搞笑#funny#萌娃

Send this to an artist to make them… 🫢✨🎨 #artistomg

Send this to an artist to make them… 🫢✨🎨 #artistomg

Angelo Song Tu To Riyal😆 | Brawl Stars #shorts #brawlstars

Angelo Song Tu To Riyal😆 | Brawl Stars #shorts #brawlstars

Classic Italian Pasta Dog

Classic Italian Pasta Dog

Reconnaissance faciale : une technologie de plus en plus utilisée en Chine

Reconnaissance faciale : une technologie de plus en plus utilisée en Chine

Tout sur l'OFM IA 🤖

Tout sur l'OFM IA 🤖

J'automatise mon clonage vidéo avec une IA - C'EST FLIPPANT

J'automatise mon clonage vidéo avec une IA - C'EST FLIPPANT

J'ai codé un robot qui DÉTRUIT Snake (Deep Reinforcement Learning)

J'ai codé un robot qui DÉTRUIT Snake (Deep Reinforcement Learning)

J'ai fait une IA qui apprend à jouer à Geometry Dash.

J'ai fait une IA qui apprend à jouer à Geometry Dash.

Apprentissage par renforcement 1: processus de décision markovien

Apprentissage par renforcement 1: processus de décision markovien

I Built a Transparent Boomerang (it's lethal)

I Built a Transparent Boomerang (it's lethal)

How to Make Learning as Addictive as Social Media | Luis Von Ahn | TED

How to Make Learning as Addictive as Social Media | Luis Von Ahn | TED

Just In Time (JIT) Compilers - Computerphile

Just In Time (JIT) Compilers - Computerphile

Koupím Barče Cokoliv Co Trefí Šipkou!

Koupím Barče Cokoliv Co Trefí Šipkou!

My Bed On Different Days #Shorts

My Bed On Different Days #Shorts

Cool barbie shoes! #shoes #makeover #diy #upcycling #handmade

Cool barbie shoes! #shoes #makeover #diy #upcycling #handmade

TOHLE JSTE O V HLAVĚ NEVĚDĚLI #zajimavosti #insideout

TOHLE JSTE O V HLAVĚ NEVĚDĚLI #zajimavosti #insideout

O ka ne ka se gu 초등학생이춘다면??? #춤추는곰돌 #춤추는곰돌의랜덤댄스 #dance #댄스 #kpop #okanekasegu #mamushi #hiphop #춤

O ka ne ka se gu 초등학생이춘다면??? #춤추는곰돌 #춤추는곰돌의랜덤댄스 #dance #댄스 #kpop #okanekasegu #mamushi #hiphop #춤

Joker can't swim!#joker #shorts

Joker can't swim!#joker #shorts

NA toto se úplně ZAPOMÍNÁ! 🙅🏻‍♂️🤯

NA toto se úplně ZAPOMÍNÁ! 🙅🏻‍♂️🤯

Send this to an artist to make them… 🫢✨🎨 #artistomg

Send this to an artist to make them… 🫢✨🎨 #artistomg