Méthodes d'approximation de fonction: polynômes, Fourier, base radiale et réseaux de neurones

Apprentissage par renforcement 1: processus de décision markovien

Systèmes asservis - Révision des outils mathématiques (GRO501)

【斗罗大陆】坏人居然敢欺负唐舞桐？斗罗家族可不好惹哟！#斗罗大陆#唐舞桐#唐三#小舞

GAME OF O.U.T. vs MINI CELINE 🙈⚽️

Vybíráme outfit na koncert😅 Berete 💛 nebo 🩷? #justforfun

Apprentissage par renforcement avec une approximation de fonction

Alexandre Girard

zhlédnutí 255

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 2. 03. 2022
18e capsule d'une série sur la commande optimale et l'apprentissage par renforcement qui sont présentés sous la base commune de la programmation dynamique.
Cette capsule présente comment modifier l'opération d'apprentissage (pour l'agorithme itération de valeur, Q-learning, etc.) lorsque qu'on utilise une approximation de fonction pour approximer la fonction de cout-à-venir.
La série de capsule va couvrir les sujets suivants:
- Principe d'optimalité (Richard Bellman 50s)
- Exemple de commande optimale d'un pendule
- Algorithme de programmation dynamique (version générique)
- Exemple pour les systèmes continus
- Version de l'algorithme pour les systèmes à états discrets et actions discrètes
- Exemple pour trouver le chemin le plus court sur graphe
- Systèmes stochastiques et espérance de la fonction de coût
- Algorithme de programmation dynamique pour optimiser l'espérance d'une fonction de coût
- Exemple d'un contrôle d'inventaire optimal en fonction d'une demande aléatoire
- Systèmes de type chaînes de Markov (stochastique, états discrets et actions discrètes)
- Exemple de stratégie optimale pour un jeu
- Résultats pour les systèmes linéaires et solution LQR (équation de Riccati)
- Algorithme de commande robuste de type minimax
- Optimisation pour un horizon de temps infini
- Algorithme d'itération de valeur (value iteration)
- Algorithme d'itération de loi de commande (policy iteration)
- Apprentissage par renforcement (TD-learning, Q-learning, SARSA, etc.)
- Méthodes hors-ligne pour approximer et paramètrer la fonction de coût à venir
- Apprentissage par renforcement avec des réseaux de neurones (deep reinforcement learning)
- Méthodes en-ligne pour approximer la fonction de coût à venir
- Commande prédictive (MPC)
Matériel pédagogique associé (notes de cours, exemple de code, etc.) et portfolio de projets disponible sur le site : www.alexandreg...

Komentáře •

Další v pořadí

Automatické přehrávání

Méthodes d'approximation de fonction: polynômes, Fourier, base radiale et réseaux de neurones

Méthodes d'approximation de fonction: polynômes, Fourier, base radiale et réseaux de neurones

Apprentissage par renforcement 1: processus de décision markovien

Apprentissage par renforcement 1: processus de décision markovien

Systèmes asservis - Révision des outils mathématiques (GRO501)

Systèmes asservis - Révision des outils mathématiques (GRO501)

【斗罗大陆】坏人居然敢欺负唐舞桐？斗罗家族可不好惹哟！#斗罗大陆#唐舞桐#唐三#小舞

【斗罗大陆】坏人居然敢欺负唐舞桐？斗罗家族可不好惹哟！#斗罗大陆#唐舞桐#唐三#小舞

GAME OF O.U.T. vs MINI CELINE 🙈⚽️

GAME OF O.U.T. vs MINI CELINE 🙈⚽️

Vybíráme outfit na koncert😅 Berete 💛 nebo 🩷? #justforfun

Vybíráme outfit na koncert😅 Berete 💛 nebo 🩷? #justforfun

Cool barbie shoes! #shoes #makeover #diy #upcycling #handmade

Cool barbie shoes! #shoes #makeover #diy #upcycling #handmade

Commande LQR: Introduction

Commande LQR: Introduction

Python Robotique (Pyro): une boîte à outils pour la commande et la planification.

Python Robotique (Pyro): une boîte à outils pour la commande et la planification.

The Greenwich Meridian is in the wrong place

The Greenwich Meridian is in the wrong place

Tennis vs dopage - L'affaire Jannik Sinner est-elle le début d'un scandale ?

Tennis vs dopage - L'affaire Jannik Sinner est-elle le début d'un scandale ?

Vers la fin des records du monde ?

Vers la fin des records du monde ?

Apprentissage par renforcement et commande optimale (nouveau cours à l'UdeS)

Apprentissage par renforcement et commande optimale (nouveau cours à l'UdeS)

LE PERCEPTRON - DEEP LEARNING (02)

LE PERCEPTRON - DEEP LEARNING (02)

WHO CAN RUN FASTER?

WHO CAN RUN FASTER?

Díl který byl OSOBNÍ🔥 JIŽ online na HEROHERO🔥

Díl který byl OSOBNÍ🔥 JIŽ online na HEROHERO🔥

TOHLE JSTE O V HLAVĚ NEVĚDĚLI #zajimavosti #insideout

TOHLE JSTE O V HLAVĚ NEVĚDĚLI #zajimavosti #insideout

Harley Quinn lost the Joker forever！！！#Harley Quinn #joker

Harley Quinn lost the Joker forever！！！#Harley Quinn #joker

Hilarious Fake Snake Prank On Husband 😂🐍

Hilarious Fake Snake Prank On Husband 😂🐍

Jak Mluvit Jako Sigma

Jak Mluvit Jako Sigma

Attack a Terezka jdou na rande… KINO

Attack a Terezka jdou na rande… KINO