FIDLE / "Attention Is All You Need", quand les Transformers changent la donne !

Sdílet
Vložit
  • čas přidán 5. 07. 2024
  • De ChatGPT à DeepL ou AlphaFold, les Transformers sont omniprésents et ont objectivement révolutionnés le monde de l'IA :-)
    Proposé par Ashish Vaswani [1] en 2017, sous le titre "Attention Is All You Need", les Transformers sont des réseaux de type "séquence to sequences", tout comme les RNN vus lors de la dernière séquence. Leur force réside dans leur capacité à pondérer l'importance de chaque terme de la séquence et à être fortement parallélisables.
    Au menu de cet épisode :
    - Concept et utilisation des transformers
    - Principe du mécanisme d'attention et du multi-head attention
    - Architectures des transformers (auto-regressive, auto-encoding et encoder decoder)
    - Pré-entraînement (BERT et GPT)
    - Fine tuning
    - Utilisation des transformers dans les autres domaines
    Durée : 2h00
    00:00 Introduction
    05:27 Le traitement du langage naturel avant les transformers
    15:41 Le transformer de base et le mécanisme d'attention
    39:11 Les différentes architectures de transformers
    01:00:45 Pré-entraînement et modèles de fondation
    01:23:59 Spécialisation des modèles de fondation
    01:36:46 Les transformers pour le traitement d'images
    01:47:44 Démonstration d'un BERT sur IMDb
    Pour rappel, FIDLE est une Formation d'Introduction au Deep Learning, libre et gratuite.
    Pour en savoir plus : fidle.cnrs.fr
    Cette vidéo est sous licence Créative Common CC BY-NC-ND 4.0
  • Věda a technologie

Komentáře • 10

  • @youcefachi-og6rr
    @youcefachi-og6rr Před 4 měsíci +3

    vraiment trés interessant, à 43 ans et j'apprend avec vous

    • @CNRS-FIDLE
      @CNRS-FIDLE  Před 4 měsíci

      Merci beaucoup, notre objectif est que le Deep Learning soit accessible de 7 à 77 ans :-)

  • @gno7553
    @gno7553 Před 29 dny

    Très bien expliqué. Je suis allé lire cette Article, c'est très intéressant.

  • @lolo6795
    @lolo6795 Před 4 měsíci +1

    Merci pour cette excellente présentation.

    • @CNRS-FIDLE
      @CNRS-FIDLE  Před 4 měsíci

      Merci beaucoup pour ce retour !

  • @Arkonis1
    @Arkonis1 Před 2 měsíci

    Pour l'image les resnext ne sont plus aussi bon que les transformers? Il y a deux ou trois ans, un papier disait que les resnext faisaient aussi bien

    • @CNRS-FIDLE
      @CNRS-FIDLE  Před měsícem +1

      Vous faites peut-être référence au papier "ResNet strikes back" de 2021 ? Pour la tâche limitée de classification / Imagenet c'était effectivement le cas, mais depuis des architectures type MetaFormer, ou mixé Conv / Attention font sensiblement mieux. Sinon pour la tâche plus généraliste d'extraction de features visuelles, ce sont les Transformers qui sont largement utilisés, entrainés avec des datasets beaucoup plus conséquents qu'Imagenet.

    • @Arkonis1
      @Arkonis1 Před měsícem

      @@CNRS-FIDLE Merci de votre retour. Pardon, je parlais en fait du convnext pas du resnext. Je viens de retrouver le papier dont je parlais: "A ConvNet for the 2020s" de Z. Liu et al.
      Apparemment ils en ont fait une suite: "ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders" début 2023, que je n'ai pas encore lu.

    • @CNRS-FIDLE
      @CNRS-FIDLE  Před měsícem

      Ah d'accord oui ConvNext fait effectivement un meilleur score sur Imagenet Top-1 par rapport aux résultats originaux de ViT avec des modèles équivalents en taille. Cependant vous pouvez voir sur paperwithcode que le haut du tableau est occupé par des modèles avec une base VisionTransformer.