Coder un Transformer avec Tensorflow et Keras (LIVE)
Vložit
- čas přidán 9. 07. 2024
- Dans la dernière vidéo j'introduis les mécanismes d'attention, l'architecture transformer ainsi que le papier Attention is all you need. Dans ce LIVE nous passons à la pratique et codons ensemble un Transformer avec Tensorflow et Keras !
Google colab du live:
colab.research.google.com/dri...
00:00 Intro
04:00 Data
20:00 Scaled dot product attention
43:00 Encoder
49:00 Multi Head Attention
49:00 Multi Head Attention
01:14:00 Masked multi head
01:14:00 Masked multi head
01:48:00 Decoder
02:10:00 Pos encoding
02:15:00 Prediction
Pour suivre au mieux la vidéo, le cours théorique suivant sur les Transformer est recommandée:
• Comprendre les Transfo...
Ainsi que les vidéos suivantes:
Pour aider à aborder les notions de cette vidéo :
Comment passer le test de Turing ? Traitement automatique du langage (NLP) • Comment passer le test...
Comprendre les réseaux de neurones récurrents (RNN) • Comprendre les réseaux...
Comprendre les LSTM - Réseaux de neurones récurrents
• Comprendre les LSTM - ...
Slides: docs.google.com/presentation/...
Attention is all you need: arxiv.org/abs/1706.03762
About me:
Visual Behavior : visualbehavior.ai/
Github: github.com/thibo73800
Medium: / thibo73800
Twitter: / thiboneveu - Věda a technologie
Magnifique! Encore merci!
Merci Thibault !
Juste une ptite anomalie il me semble car dans Decoder_Layer tu n'utilises pas self.Multi_Head_enc_Attention pour créer enc_attention
Hello Thibault, merci beaucoup pour tes vidéos !!
Bonne continuation =)
Hello Thibault, super vidéo très bien expliquée. Ça serait top si tu pouvais faire une video sur un fine-tuning de modèle BERT à l'avenir.
merci :).
Merci bq ❤️❤️
svp si te peut nous faire la parti training avec un vrais dataset
yup, tu aurais une formation pour apprendre a crée une intelligence artificiel ? j'ai bientôt 19 ans et le bac tu pense que je pourrais en trouver ? ( j'en ai vue mais elle sont souvent en anglais ) et Udacity c'est en francais ?
Quand on commence à faire des abréviations dans les noms de variables c'est que ça commence à être chiant
Au bout de deux heures de code les 'attention' deviennent des 'att', les 'encoders' deviennent des 'enc' et au bout de 3 ou 4h on utilise plus qu'une lettre et on se dit "c'est bon je changerais quand ça marchera" haha
1:19:10 QK = QK / tf.math.sqrt(256.) *ou bien* QK = QK / tf.math.sqrt(256./ nb.head ) = QK / tf.math.sqrt(32.)
merci beaucoup
nous voulons coder un trasformer pour le traitement des images (transformer image en image)
pouvez nous aider!
C'est vraiment gênant de te voir boire et emetre ce sent de surotage c pas du tout agreable bon je ferme la video aucun professionnalisme