Detección de Outliers Multivariante con ACP en Python
Vložit
- čas přidán 6. 09. 2024
- #datascience #machinelearning
En videos anteriores te platiqué como podias llevar a cabo la detección de valores atípicos en cada una de tus variables
El dia de hoy te explicaré como puedes detectar individuos que se consideran outliers tomando en cuenta los valores contenidos en todas sus variables a la vez
A esto se le conoce como detección de outliers multivariante
Existen varios métodos para detectar outliers multivariantes, en los próximos videos te platicaré acerca de algunos de ellos
Aprovechando que ya vimos lo correspondiente al análisis de componentes principales y cómo podemos llevar a cabo la reducción de la dimensionalidad, comenzaremos con la detección de outliers utilizando dicha técnica
Es importante recordar que para interpretar correctamente los outliers que encontremos es fundamental comprender de donde provienen nuestros datos y qué tipo de información queremos obtener de ellos para determinar si debemos retirarlos o dejarlos
Descarga los archivos que voy analizando en: github.com/roc...
Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos
Si estás interesado en adquirir alguno de mis cursos en línea, vista mi página web rociochavezml.com/cursos-en-linea/ ;)
Muy buen video Gracias
Gran contenido, muchas gracias. El criterio que usas de 2 desviaciones estándar para definir un outlier es parte de la literatura o lo asignas tú de forma arbitraria basada en un razonanmiento estadístico
Hola Victor! Por lo regular se utilizan 2 o 3 desviaciones estandar dependiendo del objetivo del estudio. Escogí las 2 desviaciones estándar para efectos de demostración. Cuando le asignaba las 3 desviaciones estándar dejaba como outlier a Ana (no a José), y era sólo por siete décimos
Hola Rocio, gracias por el contenido que creas, me ha sido de gran utilidad
Hay alguna manera en que yo pueda crear una tabla con los valores de los componentes principales y los nombres de las filas?
Hola Rafael! Cuando mencionas tabla te refieres a un dataframe o a una tabla plana?
@@RocioChavezCienciadeDatos Cualquiera de las dos opciones, quiero poder manipular los datos más allá del gráfico, porque cuando tengo muchas variables se sobreponen unas sobre otras y no es posible hacer una análisis desde la visualización, por eso me gustaría poder exportar una tabla de datos con el nombre de las variables y el valor de los componentes principales
Los componentes principales que se obtuvieron en el minuto 3:53 los puedes convertir a dataframe con: componentes_df=pd.DataFrame(Estudiantes_pca, columns=['pc1', 'pc2'], index=Estudiantes.index)
Gracias Rocio 🙂