Vision Transformers : Les transformers pour l'analyse d'image
Vložit
- čas přidán 24. 07. 2024
- #transformers #vision #attention
Patreon : / membership
Les transformers peuvent-ils remplacer les réseaux à convolution ? Dans cette vidéo j'explore les avantages des transformers et ce que cela apporte pour les domaines de recherche liés au computer vision. Je présente comment le passage d'une représentation emmêlée vers une représentation démêlée est rendu possible. Le contexte global rendu possible par l'utilisation de l'attention. Les kernels dynamiques ainsi que les capacité multi-modal des transformers.
Pour aider à aborder les notions de cette vidéo:
Comprendre les Transformers et les mécanismes d'attention
• Comprendre les Transfo...
Slides: docs.google.com/presentation/...
00:00 Intro
01:37 Vision & NLP
05:42 Structure
08:04 CNN
09:34 Entangled & disentangled representation
14:30 DETR
18:40 Contexte global
21:00 Kernel dynamique
22:22 VQGAN , DALL - E
26:40 Système de vision de Tesla
20:33 Perceiver IO
30:22 Transformer vs CNN
[Chronique d'une IA]
Spotify : open.spotify.com/show/5yTTTKf...
Amazon music : music.amazon.fr/podcasts/5097...
Apple Podcasts: podcasts.apple.com/us/podcast...
[About me]
Visual Behavior : visualbehavior.ai
Perso : www.thibaultneveu.ai/
Github : github.com/thibo73800
Linkedin : / thibaultneveu
Twitter : / thiboneveu - Věda a technologie
Merci, super super intéressant.
C'est vrai que les liens possible avec différentes entrée grâce au Transformers c'est fou
Bonjour, vidéo de qualité comme d'habitude est-ce que vous comptez faire une vidéo explicative sur data2vec svp ? ça a l'air énorme mais j'aimerais bien une explication comme vous aviez pu faire pour les mecanismes d'attention et transformers. Merci :)
Bravo pour ces vidéos, en plus en Français, c'est parfait. Après les CNN restent les entrées des transformers, d'après ce que je comprend, donc on ne peut pas les remplacer pour l'heure
Le grand retour! Il était temps.
Merci pour toutes ces explications. Ce soir j'en vais m'endormir un peu moins con ;)
Un plaisir de te retrouver ici =)
Héhé. Je cherche une petite vidéo de vulga sur vision transformer et bim : vidéo de Thibault il y a 5 minutes 😆. Comme par hasard la vidéo est parfaite ! Comme toujours c'est clair, c'est structuré, on part des basiques et on avance pas à pas jusqu'au SOA. Bravo et merci pour cette vidéo et pour toutes les autres ! Tu fournis un contenu de très grande qualité. J'ai hâte de voir le tp pratique sur le sujet 😉. Encore Merci et Bravo!
Super, merci pour cette découverte très intéressante !
Super, merci pour cette vidéo ça tombe à pic!!
Bravo ! Merci pour tout !!!
super comme d hab 👍🏽
the king is back
De retour
Bonsoir, j'espère que vous allez bien, jai une base de données avec 3 fichiers donc 3 classes je veux faire la classification avec les VIT svp
Pour une image 1080p, on créer 5 images avec un niveau de zoom différents sur un point P de l'image originale et on les downscale en 144p,
On fait du CNN pour chacune des 5 images, dont on agrège les output pour extraire de l'information de chaque niveau de zoom, ainsi qu'un nouveau point P pour la prochaine step d'un RNN.
Comme ça à chaque step le réseau regarde à un point différent de l'image, comme un humain. ça a déjà été fait ?
Super video, ou pourrai-je trouver le code svp?