Démo - ACP, t-SNE et UMAP avec Python et scikit-learn | Cycle avancé IA #8
Vložit
- čas přidán 24. 07. 2024
- Le code et les données de la démo sont disponibles sur le dépôt GitHub d’EpiMed en accès libre : github.com/epimed/eoc-ai-sess...
Cette vidéo présente une démonstration des méthodes non supervisées en machine learning : analyse en composantes principales (ACP), t-SNE et UMAP avec le langage Python et la librairie scikit-learn. Ces méthodes sont souvent utilisées pour projeter les données multidimensionnelles en espace de faible dimension pour pouvoir les visualiser. Elles peuvent également servir pour réduire le nombre de variables, décorréler les variables et supprimer le bruit.
Cette démonstration utilise les données réelles d’expression de gènes dans le cancer du sein. Il s’agit des données de séquençage du génome RNA-seq issues de la base de données publique TCGA-BRCA du portail publique GDC (portal.gdc.cancer.gov). Pour cette démo, les données ont été préalablement prétraitées : alignées, normalisées selon la méthode FPKM et log-transformées. Vous pouvez récupérer les données prêtes à l’analyse ainsi que le code Python de l’exercice sur le dépôt GitHub d’EpiMed.
Le cancer du sein peut se présenter sous forme de différents sous-types moléculaires. Dans nos données, il y a quatre sous-types principaux : luminal-A, luminal-B, HER2-enriched et basal-like. Notre objectif dans ce cours sera de visualiser les différents sous-types moléculaires du cancer du sein, en utilisant les méthodes ACP, t-SNE et UMAP.
ACP (PCA en anglais) = Principal Component Analysis
t-SNE = t-Distributed Stochastic Neighbor Embedding
UMAP = Uniform Manifold Approximation and Projection
Intervenant : Ekaterina Flin, ingénieur en informatique, groupe EpiMed, Institut pour l’Avancée des Biosciences (IAB), Université Grenoble Alpes (UGA)
#acp #tsne #umap
Table des matières
00:00 Introduction
00:48 Accès aux données au code de la démonstration
01:18 Cancer du sein et sous-types moléculaires
02:31 Objectif de l’exercice
02:58 Import de données
04:21 Création de la matrice de données et d’une liste d’étiquettes
05:51 Normalisation centrée-réduite
07:07 Analyse en composantes principales (ACP)
12:27 t-SNE
15:49 UMAP
Liens :
Code de la démo - github.com/epimed/eoc-ai-sess...
Cours ACP - Analyse en composantes principales : • ACP - Analyse en compo...
Cours t-SNE et UMAP - • Méthodes t-SNE et UMAP...
Références bibliographiques :
* Ohnstad et al., 2017. Prognostic value of PAM50 and risk of recurrence score in patients with early-stage breast cancer with long-term follow-up. Breast Cancer Res 2017 Nov 14;19(1):120. Pubmed PMID 29137653. doi: 10.1186/s13058-017-0911-9.
* Picornell et al., 2019. Breast cancer PAM50 signature: correlation and concordance between RNA-Seq and digital multiplexed gene expression technologies in a triple negative breast cancer series. BMC Genomics 2019 Jun 3;20(1):452. Pubmed PMID 31159741. doi: 10.1186/s12864-019-5849-0.
* Pu et al., 2020. Research‑based PAM50 signature and long‑term breast cancer survival. Breast Cancer Research and Treatment (2020) 179:197-206. 179:197-206. Pubmed PMID 31542876. doi: 10.1007/s10549-019-05446-y.
* Weigelt et al., 2010. Breast cancer molecular profiling with single sample predictors: a retrospective analysis. Lancet Oncology 2010 Apr;11(4):339-49. Pubmed PMID 20181526. doi: 10.1016/S1470-2045(10)70008-5.
Merci Beaucoup Vraiment, je me suis enrichis encore d'avantage avec avec votre Démo.
merci
La vidéo est claire est concise. Merci pour le travail fournit.
Il s'agit d'une vidéo excellente et tres claire. Merci beaucoup!
Merci !
Etant à l'aise à avec les données... mais pas du tout expert dans leurs manipulations avancées, vos vidéos sont les premières que je trouve si claires et pédagogiques que je n'ai qu'une envie : plonger dans les océans de données ! Merci à vous
Merci pour votre commentaire. Je suis contente que ces vidéos vous ont été utiles.
J ai bien apprécié la teneur, très généreuse
Votre travail est excellent! Merci
Merci, c'est gentil.
Merci pour la qualité de votre travail
Merci à vous ! Cela fait plaisir.
merci beaucoup, cela m'aide beaucoup!
Merci !
Supposons que nous avons des données d'images de cancer du sein ou de poumons comment allons nous procéder?
Avec le model de Deep Learning ou un des model de Machines Learning pour la partie d'imagerie?
Si vous des articles là dessus s'il vous plait n'hésitez pas me les envoyer ou contacter.
Bravo
Merci !
Merci à vous de suivre la chaîne.