Pipeline - Paramétrage (scikit-learn / Python)
Vložit
- čas přidán 25. 07. 2024
- Pipeline sous Python dans le cadre de l'analyse conjointe (tandem clustering) mixant analyse factorielle et classification automatique (clustering). Accès aux étapes intermédiaires du pipeline avec une double finalité : (1) lecture des résultats ; (2) manipulation des paramètres des algorithmes pour pouvoir relancer les calculs sans avoir à réinstancier à chaque fois le pipeline dans sa globalité. Exemple avec une ACP (analyse en composantes principales) associée à un K-Means où l'objectif est de déterminer le nombre de facteurs à retenir pour une solution efficace. Nous nous plaçons dans un cadre particulier où les vraies classes d'appartenance sont connues, une mesure externe d'évaluation des partitions est utilisée (v-measure).
Notebook et données : tutoriels-data-science.blogspo...
ACP + CAH sous Tanagra : • Tanagra - ACP #6 - Tan...
ACM + K-Means sous Python : • Clustering - Pipeline ...
Page de cours : cours-machine-learning.blogsp...
00:00 Tandem clustering sous la forme d'un pipeline scikit-learn
04:30 La question du nombre de facteurs à retenir
11:00 Les données "Waveform"
11:17 Mesures externes d'évaluation des partitions
14:20 Objectifs : identifier le nombre de facteurs, manipuler un pipeline
15:00 Démarrage du notebook et inspection des données
15:54 Gestion des warnings
16:30 Construction du pipeline : définition des étapes
18:12 Accès aux propriétés des étapes du pipeline (named_steps)
22:02 Stratégie pour les facteurs : modification des paramètres des étapes (set_params)
25:56 Pipeline définitif : coordonnées factorielles des individus
27:06 Illustration des clusters dans le plan factoriel
27:33 Conclusion et prospectives - Věda a technologie