FIDLE / "Attention Is All You Need", quand les Transformers changent la donne !
Vložit
- čas přidán 5. 07. 2024
- De ChatGPT à DeepL ou AlphaFold, les Transformers sont omniprésents et ont objectivement révolutionnés le monde de l'IA :-)
Proposé par Ashish Vaswani [1] en 2017, sous le titre "Attention Is All You Need", les Transformers sont des réseaux de type "séquence to sequences", tout comme les RNN vus lors de la dernière séquence. Leur force réside dans leur capacité à pondérer l'importance de chaque terme de la séquence et à être fortement parallélisables.
Au menu de cet épisode :
- Concept et utilisation des transformers
- Principe du mécanisme d'attention et du multi-head attention
- Architectures des transformers (auto-regressive, auto-encoding et encoder decoder)
- Pré-entraînement (BERT et GPT)
- Fine tuning
- Utilisation des transformers dans les autres domaines
Durée : 2h00
00:00 Introduction
05:27 Le traitement du langage naturel avant les transformers
15:41 Le transformer de base et le mécanisme d'attention
39:11 Les différentes architectures de transformers
01:00:45 Pré-entraînement et modèles de fondation
01:23:59 Spécialisation des modèles de fondation
01:36:46 Les transformers pour le traitement d'images
01:47:44 Démonstration d'un BERT sur IMDb
Pour rappel, FIDLE est une Formation d'Introduction au Deep Learning, libre et gratuite.
Pour en savoir plus : fidle.cnrs.fr
Cette vidéo est sous licence Créative Common CC BY-NC-ND 4.0 - Věda a technologie
vraiment trés interessant, à 43 ans et j'apprend avec vous
Merci beaucoup, notre objectif est que le Deep Learning soit accessible de 7 à 77 ans :-)
Très bien expliqué. Je suis allé lire cette Article, c'est très intéressant.
Merci beaucoup :-)
Merci pour cette excellente présentation.
Merci beaucoup pour ce retour !
Pour l'image les resnext ne sont plus aussi bon que les transformers? Il y a deux ou trois ans, un papier disait que les resnext faisaient aussi bien
Vous faites peut-être référence au papier "ResNet strikes back" de 2021 ? Pour la tâche limitée de classification / Imagenet c'était effectivement le cas, mais depuis des architectures type MetaFormer, ou mixé Conv / Attention font sensiblement mieux. Sinon pour la tâche plus généraliste d'extraction de features visuelles, ce sont les Transformers qui sont largement utilisés, entrainés avec des datasets beaucoup plus conséquents qu'Imagenet.
@@CNRS-FIDLE Merci de votre retour. Pardon, je parlais en fait du convnext pas du resnext. Je viens de retrouver le papier dont je parlais: "A ConvNet for the 2020s" de Z. Liu et al.
Apparemment ils en ont fait une suite: "ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders" début 2023, que je n'ai pas encore lu.
Ah d'accord oui ConvNext fait effectivement un meilleur score sur Imagenet Top-1 par rapport aux résultats originaux de ViT avec des modèles équivalents en taille. Cependant vous pouvez voir sur paperwithcode que le haut du tableau est occupé par des modèles avec une base VisionTransformer.