La génération vidéo par IA est décevante. Voici la solution. SORA, Flatland, HexPlane & 4D space

Thibault Neveu

zhlédnutí 8 759

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 22. 08. 2024

Komentáře • 30

@jgcb0071 Před 5 měsíci ⁺⁴
Super intéressant merci ! Très intéressé par avoir d'autres vidéos dans le genre comme sur Mamba par exemple, ou les World model
@Alex-rg1rz Před 5 měsíci
Je suis toujours impressionné par la clarté des explications. Merci !
@xavierfolch2814 Před 5 měsíci
Merci de décortiquer ce modèle et d'expliquer comment les choses pourraient évoluer par la suite.
@Bencurlis Před 5 měsíci ⁺¹
Très bonne analyse, je suis d'accord avec presque tous les points. J'avais aussi pensé à combiner la diffusion avec les NeRF, même pour la génération d'image 2D ça aurait un intérêt, pas juste pour la vidéo. Cela dit, forcer l'IA à toujours avoir une représentation 3D de la scène n'est pas forcément toujours ce qu'on veut. Par exemple, on veut potentiellement que l'IA qui génère des vidéos soient capable aussi de faire de l'animation 2D (où la perspective n'est pas toujours respectée ni même souhaitable), cela peut aussi rendre impossible la générations de scènes non-euclidiennes, même si c'est un problème de niche.
En voyant à quel point SORA maintient une cohérence 3D en ayant pas une représentation 3D explicite de la scène, je me dit que peut être au contraire il faudrait essayer d'avoir une représentation qui n'ait vraiment aucune "forme" du tout. Pas de tokens spatio-temporels, juste un unique vecteur embedding qui représente d'un coup tous les aspects spatio-temporels que le modèle pourrait vouloir manipuler, lui laissant la possibilité de faire au cas par cas.
Au passage, j'aime beaucoup ce format de vidéo! Je pense qu'il n'y a pas assez de critiques techniques et scientifiques des IAs modernes sur youtube, c'est toujours plus intéressant d'explorer les limites et réfléchir à comment on peut améliorer les méthodes plutôt que juste s'extasier en boucle sur les démos comme le font pas mal d'autres youtubeurs.
@TheBoosko Před 5 měsíci
Je commente jamais. Mais la c’est virtuose. Bravo Monsieur de ramener de l’intellect avec pédagogie. Je cours me manger vos autres vidéos
@ThibaultNeveu Před 5 měsíci
Merci pour ton retour !
@alexamand2312 Před 5 měsíci ⁺²
Bonjour, alors je suis d'accord avec la partie sur l'espace 3d directement généré plutot qu'une projection 2D, je pense que ça touche la question la plus chaude dans le deep learning en ce moment.
C'est la question de savoir si cette projection est suffisante pour le modèle afin qu'il puisse créer un world model cohérent. C'est un peu le même débat que pour le texte, est ce que la projection textuelle est suffisante au model pour qu'il puisse généraliser des règles générales ? (on pourrait argumenter que oui au moins dans une certaine mesure)
Admettons que le texte est une représentation moins qualitative qu'une image, et qu'une image est une représentation moins qualitative qu'un espace 3D. Je dirais que n'importe quelle représentation est suffisante mais qu'il faudrait plus de texte que d'image que d'espace 3d. Mais maintenant ça reviens à se demander quand est ce que les courbes se croisent.
Finalement c'est un peu qualité versus quantité.
Si je devais parier je dirais de manière provocatrice que l'AGI serait plutot un modèle textuel qui à force d'avoir lu des descriptions détaillé d'un chat et de l'espace 3d pourrait générer une suite de SVG réalistes formant une vidéo cohérente voir même un espace 3d (disons un nombre de descriptions de plusieurs ordre de grandeur au dessus ce qu'on a actuellement et qui pourrait être synthétiquement généré).
D'ailleurs on sait déjà que cela marche partie parce que nous humain avons généralisé un world modèle à partir d'image projeté en 2d, descriptions textuelle et autres interactions.
voilà comme d'hab mes petites réflexions si ça intéresse quelqu'un :)
@souleymanerashid8885 Před 5 měsíci
Tu nous a tellement manqué monsieur. On vous suit énormément
@eltemblon Před 5 měsíci
Très bonne vidéo sur Sora, enfin une vidéo avec une approche différente sur Sora, je pense d'ailleurs m'inspirer de t'as vidéos pour réaliser la mienne avec pourquoi une redirection sur t'as vidéos pour plus détail.
@ThibaultNeveu Před 5 měsíci ⁺¹
Merci, hésite pas si tu as quelques questions ;)
@eltemblon Před 5 měsíci
@@ThibaultNeveu merci beaucoup, sache qu'il ya 4 ans je débutait l'IA en licence pro dans une école Microsoft IA, toute tes vidéos m'ont plus aidé que n'importe quel autre ressources donc merci a toi pour ton taff et pour m'avoir indirectement aider lors de mes deux années de licences
@yotraxx Před 5 měsíci
Une réelle faculté d'analyse Thibaut ! On ne se connait pas, mais je sens que tu maitrises vraiment le sujet. Je m'abonne :)
@ThibaultNeveu Před 5 měsíci
Merci et bienvenu !
@Yukiche368 Před 4 měsíci
Super vidéo comme toujours! Vraiment super intéressant! En tout cas Nvidia avec IsaacSim, ça va débloquer pas mal de voie sur la génération de vidéo/environnement 🤔
@StaRiToRe Před 5 měsíci ⁺⁵
peux-tu faire une vidéo sur le chemin technique vers agi? par example ce que tu penses être les étapes restantes et comment les abordées
@battlefield5 Před 5 měsíci
Plus de compute, donc juste du temps
@shinobikyojune1849 Před 5 měsíci
@@battlefield5computer tu voulais dure plus de gpu
@battlefield5 Před 5 měsíci
Oui et non, le compute pour du deeplearning c'est du GPU
@AurL_69 Před 5 měsíci
super analyse
@bzhache2830 Před 5 měsíci
Merci de parler de Sora ai, le plus important c'est d en parler. Tout n 'est pas parfait mais ce n 'est que le début et c'est bien plus que prometteur .
@JfD_xUp Před 5 měsíci
tes explications sont très claires, et tu as la bonne approche.
Cependant, il te manques quelques notions sur la vidéo. ce que tu dis en parlant de la 3D est en réalité ce qu'on appelait de la 2.5D en infographie.
(c'est la première vidéo que je regarde de toi, peut-être que tu expliques plus de choses dans tes autres vidéos)
Ton approche de Sora et du future de la génération de vidéo par IA est bonne, et peut être volontairement incomplète pour rester simple :
Sora devra comprendre l'environnement 3D afin d'avoir moins d'artefacts, mais pas seulement, car la vidéo n'est pas qu'une question de 3D : la kinesthésie relative, les mouvements principaux et secondaires, la lumière, la physique, les liens entre les éléments, l'intention, l'anticipation (animation - cf les 12 principes de l'animation & co [Johnston and Thomas, Preston Blair, Richard Williams]), la cohérence (plusieurs recherches actuellement sur ce points sont à l'oeuvre), etc.
On n'est pas réellement en 3D mais en 4D+, où le '+' est le lien entre les différents systèmes ex : trop de lumières fait que la pupille se dilate,
la 4e dimension étant l'élément principale ajouté d'un système 3D connu, ex : la gravité pour le mouvement d'une balle, et le '+' serait alors la liaison entre les éléments 3D - ex : une balle rebondie ou s'écrase contre un mur : ici ça dépendra des propriétés physique de la balle (élastique, dure, malléable)
autre exemple : 4e dimension = réaction thermodynamique, '+' liaison de covalence (water blobs) => gestion des fluides
ton analyse du sous-dimensionnement + ajout de dimension afin de réduire la puissance de calcul est bien,
personnellement je pense que c'est une erreur, et il faudrait essayer d'ajouter des layers avec des dimensions plus grandes (ex : 2-3 hidden layers) pour justement ajouter de la complexité aux modèles, pour ensuite redescendre et poursuivre avec un modèle de diffusion + garder en mémoire ce delta perdu par réduction de dimension afin de garder "l'environnement du modèle" (ce que tu nommes "espace latent")
@domsau2 Před 4 měsíci ⁺¹
Bonjour. Ce n'est pas Sora, mais les vidéos de Sora qui ont été présentées.
@airwaxxmusic Před 5 měsíci
Bonjour Thibault, seule chose que je peux te dire, c'est que l'IA 3D arrive et si elle n'est pas encore la c'est qu'a mon avis ça traîne au niveau de la légiferation
@user-vf1bo3tg1l Před 5 měsíci
on atteindra pas l'agi par là à mon humble avis . mais par les des algo genre alphago qui apprennent tout seul . m'enfin ca reste un raccourci intéressant en attendant .
@filsessoki34 Před 5 měsíci
Salut, je crois avoir vu dans une vidéo des start-up de production prendre d'assaut Sora en utilisant les moyens correctifs, peut-être je me trompe
@arnaudcaplier7909 Před 5 měsíci
Nest on pas déjà en 3D/4D avec Sora ? Je pense à l'ajout le dimension temporelle, par exemple quand il genère de façon bluffantes les mouvements de tête saccadés d'un oiseau.
donc c'est du 2D + dimention temps , donc de la 3D d'un nouveau type ;)
@ThibaultNeveu Před 5 měsíci
Oui, on est en 3D, XY + T, ce que je souligne c'est que a calcul constant on pourrait obtenir de meilleur résultat avec XY +ZT si le modèle est correctement paramétrisé (HexPlane)
@shoorty420 Před 5 měsíci
1m08 jme bare deja du video le mec va me rendormir mdr.
@quentinmabille70 Před 4 měsíci
Je confirme que Sora est totalement inutilisable pour du haut niveau, tout comme Midjourney d'ailleurs pour les mêmes raisons que tu évoques.

Další v pořadí

Automatické přehrávání

Enfin une mémoire à long terme pour l’IA : MAMBA, SSM, S4, S6 & Transformers