FIDLE / Ingénierie de l'Inférence et mise en production : Quand le rêve devient réalité !

Sdílet
Vložit
  • čas přidán 5. 06. 2024
  • Après avoir entraîné un modèle, fine-tuné un modèle, ou sélectionné un modèle pré-entraîné, comment déployer ce modèle et le rendre facilement utilisable ?
    …tout en essayant d’en minimiser l’empreinte ?
    La réponse à cette question correspond à une ingénierie particulière :-)
    Il faudra choisir un système adapté puis transformer, compresser le modèle en prenant en compte le coût énergétique, le coût en stockage, le niveau de performance exigée et la latence.
    Ensuite il faudra se transformer en DevOps, pour mettre en production le modèle, en maîtrisant la containérisation, les orchestrateurs Kubernetes, les serveurs d’inférences, le déploiement en Edge App.
    Nous verrons précisément les solutions simplifiées et dédiées que sont : Gradio, BentoML
    Au menu de cette séquence :
    - Optimisation de l’inférence : Architectures, Compression de Modèle, Frameworks d’inférence
    - Déploiement : Terminaux, serveurs, gestion des dépendances, Orchestrateurs
    - Gradio : une interface complète pour des démos stylisées
    Durée : 2h30
    Pour rappel, FIDLE est une Formation d'Introduction au Deep Learning, libre et gratuite.
    Pour en savoir plus : fidle.cnrs.fr
    Cette vidéo est sous licence Créative Common CC BY-NC-ND 4.0
  • Věda a technologie

Komentáře •