TP - Validation croisée K-fold stratifiée avec Python et scikit-learn | Cycle avancé IA #12
Vložit
- čas přidán 24. 07. 2024
- Dans cette vidéo nous réalisons un travail pratique consacré à la technique de la validation croisée avec le langage Python, le framework scikit-learn et le notebook Jupyter.
L’objectif du TP est de prédire le sous-type moléculaire des échantillons du cancer du sein avec le modèle SVM (machine à vecteurs de support), en l’intégrant dans une validation croisée K-fold stratifiée. On utilisera également la notion de pipeline dans scikit-learn pour produire un code propre, et concis.
Les données et le code sont disponible sur le dépôt Github d’EpiMed : github.com/epimed/eoc-ai-sess....
Intervenant : Ekaterina Flin, ingénieur en informatique, groupe EpiMed, Institut pour l’Avancée des Biosciences (IAB), Université Grenoble Alpes (UGA)
#cross_validation #pipeline #scikit_learn
Table des matières
00:00 Présentation des données de l’exercice
00:52 Objectif du TP
01:36 Import de données
03:02 Validation croisée K-fold stratifiée
06:22 Intégration du modèle SVM
10:28 Interprétation des résultats
11:28 Création d’un pipeline
Liens
* Dépôt Github de cette démonstration : github.com/epimed/eoc-ai-sess...
* Cours sur la validation croisée : • Validation croisée pou...
* TP - Régression logistique et SVM : • Exercice corrigé - Rég...
* TP - ACP appliquée à des données d’expression de gènes dans le cancer du sein : • Démo - ACP, t-SNE et U...
* Démo - Premier modèle d’apprentissage avec scikit-learn en Python : • Démo - Premier modèle ...
Excellente vidéo merci à vous!
J'ai terminé toute la formation! c'était franchement très instructif et très léger. Un grand Merci !
Merci pour votre commentaire et bravo à vous !
Message limpide... Toutefois, je n'arrive pas à comprendre qu'on ne retrouve pas les différentes valeurs de "prédictions" dans le pipeline.
Bonjour,
Merci pour votre commentaire. Dans le pipeline on retrouve les mêmes valeurs de la métrique accuracy puisque le pipeline exécute exactement les mêmes calculs. Mais vous parlez probablement d'autre chose ?
@@epimedopencourse Merci encore Mme. J'ai enfin compris.
formidable je n'arrive pas à télécharger la dataset
Bonjour,
Le code et les données sont disponibles sur le dépôt Github. Voici les étapes pour télécharger les données :
1) Aller sur la page Github de l'exercice : github.com/epimed/eoc-ai-session-2
2) Cliquer sur le bouton vert "Code" en haut à droite de la page. Un menu déroulant va s'ouvrir.
3) Dans le menu déroulant cliquer sur "Download ZIP". Un fichier ZIP sera téléchargé sur votre ordinateur.
4) Ouvrir l'archive téléchargé, aller dans le répertoire "data".
5) Les données se trouvent dans le fichier "breast_cancer.csv"