Enfin une mémoire à long terme pour l’IA : MAMBA, SSM, S4, S6 & Transformers

Sdílet
Vložit
  • čas přidán 22. 08. 2024

Komentáře • 16

  • @VisionIA-FR
    @VisionIA-FR Před 4 měsíci +3

    Super vidéo, merci pour le travail fait pour l'IA dans le monde francophone. Finalement peut être que Attention Isn’t All You Need :-P

  • @philtoa334
    @philtoa334 Před 4 měsíci

    Excellent.

  • @xavierfolch2814
    @xavierfolch2814 Před 4 měsíci +1

    Merci de cette nouvelle vidéo. Les entreprises en sont toujours à découvrir et établir comment l'IA peut les aider à proposer de nouveaux services. On commence à avoir des propositions intéressantes. Cependant, toutes les entreprises n'ont pas besoin d'avoir la meilleure précision possible. Il y a plusieurs domaines d'applicabilités où le tradeoff coût - exactitude serait probablement acceptable (assurance, comptabilité, ....).

  • @aymericmelt8083
    @aymericmelt8083 Před 4 měsíci

    Bravo! Jamais vu des vidéo rentrant autant dans les détails, merci beaucoup ! C'est une bonne entrée en matière pour lire l'article !

  • @jgcb0071
    @jgcb0071 Před 4 měsíci +2

    Merci beaucoup pour cette vidéo, justement le sujet me travaille en ce moment.
    Si on fait une analogie, quand on reçoit une question et un contexte d’où tirer notre information. On va commencer par lire le contexte, se faire une représentation du contenu, ça c'est la partie que Mamba fait extrêmement bien, mais par contre par la suite je vais aller rechercher l'information par ce que je sais à quel endroit j'ai lu et ajouté en mémoire une information pertinente, et là je vais aller chercher localement l'information.
    Il me semble manquer donc une dimension de time-awereness à ce modèle, l'ajout de cette dimension aurait aussi pour bénéfice de permettre l'implémentation d'une mémoire sur laquelle on aurait le controle de manière similaire aux modèles Larimar (papier : Larimar: Large Language Models with Episodic Memory Control), idéalement il faudrait qu'il choisissent lui même de mettre en mémoire un de ses états car pertinent vis à vis de ce qui est attendu de lui pour répondre à une question, et je pense qu'à ce moment là on obtiendrait un modèle vraiment incroyable.
    Donc je pense qu'une évolution pertinente de Mamba serait de pouvoir revoir les parties les plus pertinentes de la séquence d'après lui, comme le ferait un humain et même si cela réduirait les performances légèrement ce n'est rien comparé aux gains apportés
    Je pense faire quelques expériences sur ça cette semaine, si jamais tu as des idées je suis preneur

    • @ThibaultNeveu
      @ThibaultNeveu  Před 4 měsíci

      Yes, exactement, la combinatoire des deux approches va ouvrir un champ des possibles fascinant !

  • @Bencurlis
    @Bencurlis Před 4 měsíci +1

    Excellente vidéo encore une fois, tout est très clair, sauf peut être la partie sur le delta où j'ai un peu de mal à comprendre (la discrétisation des matrices A et B).
    Corrigez moi si je me trompe mais il me semble qu'une propriété assez importante des Transformers et qui n'existe pas avec les autres architectures, c'est la capacité de "revenir en arrière" connaissant une nouvelle information. Si je comprends bien, il me semble que même Mamba nécessite que le modèle ait retenu toute l'information dans son state space pour être capable de sélectionner une information demandée par la suite. Avec la couche d'attention d'un transformer classique, les nouveaux tokens qui arrivent permettent en quelques sorte au modèle d'aller interroger les tokens précédents directement.
    Après je ne pense pas que ça soit une si grande limitation, et il est plus important d'avoir un algorithme de complexité linéaire ou inférieure. Je verrais bien la réinterprétation de ces modèles LLMs en modèles agents pour résoudre ce problème avec les architectures autre que Transformer: on donnerait simplement au modèle la capacité de choisir si il faut ou non aller relire des passage précédents.

    • @ThibaultNeveu
      @ThibaultNeveu  Před 4 měsíci +2

      Oui ce point que tu cites " il me semble que même Mamba nécessite que le modèle ait retenu toute l'information dans son state space pour être capable de sélectionner une information [....] les tokens précédents directement." est reflété dans le tableau lorsque je dis que Mamba peut faire du raisonnement sélectif mais en théorie pas avec autant de précision qu'un Transformer, par contre avec un plus grand contexte et/ou une plus haute fréquence !

  • @CryptoniteChannel
    @CryptoniteChannel Před 4 měsíci

    Heuresement qu'il existe thibault. Merci pour tes contenus

  • @AurL_69
    @AurL_69 Před 4 měsíci

    Super video, merci Thibault

  • @mraylex2520
    @mraylex2520 Před 4 měsíci

    très intéressant

  • @mimotron
    @mimotron Před 4 měsíci

    Merci pour la vidéo, vous avez des infos sur les xLSTM allemands ? J'en ai pas mal entendu parler il y a quelques mois mais les infos se font rares depuis

  • @Ismaelak
    @Ismaelak Před 3 měsíci

    les videos plus longues stp les prochaines fois.

  • @alreeb2024
    @alreeb2024 Před 4 měsíci +2

    Intéressant ....mais faut vraiment arrêter avec le passage a l'échelle ! 😂

  • @livinaustralian
    @livinaustralian Před 4 měsíci

    très brouillon, unplan au départ serait plutot pas mal. trop d'abréviations et une prononciation supre franglish ... à refaire car c'est domage avec le travail fait en amont;