Vision Transformers : Les transformers pour l'analyse d'image

Sdílet
Vložit
  • čas přidán 24. 07. 2024
  • #transformers #vision #attention
    Patreon : / membership
    Les transformers peuvent-ils remplacer les réseaux à convolution ? Dans cette vidéo j'explore les avantages des transformers et ce que cela apporte pour les domaines de recherche liés au computer vision. Je présente comment le passage d'une représentation emmêlée vers une représentation démêlée est rendu possible. Le contexte global rendu possible par l'utilisation de l'attention. Les kernels dynamiques ainsi que les capacité multi-modal des transformers.
    Pour aider à aborder les notions de cette vidéo:
    Comprendre les Transformers et les mécanismes d'attention
    • Comprendre les Transfo...
    Slides: docs.google.com/presentation/...
    00:00 Intro
    01:37 Vision & NLP
    05:42 Structure
    08:04 CNN
    09:34 Entangled & disentangled representation
    14:30 DETR
    18:40 Contexte global
    21:00 Kernel dynamique
    22:22 VQGAN , DALL - E
    26:40 Système de vision de Tesla
    20:33 Perceiver IO
    30:22 Transformer vs CNN
    [Chronique d'une IA]
    Spotify : open.spotify.com/show/5yTTTKf...
    Amazon music : music.amazon.fr/podcasts/5097...
    Apple Podcasts: podcasts.apple.com/us/podcast...
    [About me]
    Visual Behavior : visualbehavior.ai
    Perso : www.thibaultneveu.ai/
    Github : github.com/thibo73800
    Linkedin : / thibaultneveu
    Twitter : / thiboneveu
  • Věda a technologie

Komentáře • 15

  • @turokpolo1668
    @turokpolo1668 Před 2 lety +3

    Merci, super super intéressant.
    C'est vrai que les liens possible avec différentes entrée grâce au Transformers c'est fou

  • @maximumentropyofficial9
    @maximumentropyofficial9 Před 2 lety +5

    Bonjour, vidéo de qualité comme d'habitude est-ce que vous comptez faire une vidéo explicative sur data2vec svp ? ça a l'air énorme mais j'aimerais bien une explication comme vous aviez pu faire pour les mecanismes d'attention et transformers. Merci :)

  • @tractopelleimmortel5981

    Bravo pour ces vidéos, en plus en Français, c'est parfait. Après les CNN restent les entrées des transformers, d'après ce que je comprend, donc on ne peut pas les remplacer pour l'heure

  • @Paranorama
    @Paranorama Před 2 lety

    Le grand retour! Il était temps.
    Merci pour toutes ces explications. Ce soir j'en vais m'endormir un peu moins con ;)

  • @14Tyrion
    @14Tyrion Před 2 lety

    Un plaisir de te retrouver ici =)

  • @alexandregazagnes4577
    @alexandregazagnes4577 Před 2 lety

    Héhé. Je cherche une petite vidéo de vulga sur vision transformer et bim : vidéo de Thibault il y a 5 minutes 😆. Comme par hasard la vidéo est parfaite ! Comme toujours c'est clair, c'est structuré, on part des basiques et on avance pas à pas jusqu'au SOA. Bravo et merci pour cette vidéo et pour toutes les autres ! Tu fournis un contenu de très grande qualité. J'ai hâte de voir le tp pratique sur le sujet 😉. Encore Merci et Bravo!

  • @nghianguyenngoctrong9645

    Super, merci pour cette découverte très intéressante !

  • @renemiche735
    @renemiche735 Před 2 lety

    Super, merci pour cette vidéo ça tombe à pic!!

  • @mathieu6088
    @mathieu6088 Před 2 lety

    Bravo ! Merci pour tout !!!

  • @jeanbaptisterobens3352

    super comme d hab 👍🏽

  • @AL-kb3cb
    @AL-kb3cb Před 2 lety

    the king is back

  • @pseudounknow5559
    @pseudounknow5559 Před 2 lety

    De retour

  • @khalladisofiane9195
    @khalladisofiane9195 Před rokem

    Bonsoir, j'espère que vous allez bien, jai une base de données avec 3 fichiers donc 3 classes je veux faire la classification avec les VIT svp

  • @leosarrazin3937
    @leosarrazin3937 Před 2 lety

    Pour une image 1080p, on créer 5 images avec un niveau de zoom différents sur un point P de l'image originale et on les downscale en 144p,
    On fait du CNN pour chacune des 5 images, dont on agrège les output pour extraire de l'information de chaque niveau de zoom, ainsi qu'un nouveau point P pour la prochaine step d'un RNN.
    Comme ça à chaque step le réseau regarde à un point différent de l'image, comme un humain. ça a déjà été fait ?

  • @learn5754
    @learn5754 Před 2 lety

    Super video, ou pourrai-je trouver le code svp?