Detección de Outliers Multivariante con ACP en Python

Sdílet
Vložit
  • čas přidán 6. 09. 2024
  • #datascience #machinelearning
    En videos anteriores te platiqué como podias llevar a cabo la detección de valores atípicos en cada una de tus variables
    El dia de hoy te explicaré como puedes detectar individuos que se consideran outliers tomando en cuenta los valores contenidos en todas sus variables a la vez
    A esto se le conoce como detección de outliers multivariante
    Existen varios métodos para detectar outliers multivariantes, en los próximos videos te platicaré acerca de algunos de ellos
    Aprovechando que ya vimos lo correspondiente al análisis de componentes principales y cómo podemos llevar a cabo la reducción de la dimensionalidad, comenzaremos con la detección de outliers utilizando dicha técnica
    Es importante recordar que para interpretar correctamente los outliers que encontremos es fundamental comprender de donde provienen nuestros datos y qué tipo de información queremos obtener de ellos para determinar si debemos retirarlos o dejarlos
    Descarga los archivos que voy analizando en: github.com/roc...

Komentáře • 10

  • @RocioChavezCienciadeDatos

    Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos

  • @RocioChavezCienciadeDatos

    Si estás interesado en adquirir alguno de mis cursos en línea, vista mi página web rociochavezml.com/cursos-en-linea/ ;)

  • @tensoescalar1
    @tensoescalar1 Před rokem

    Muy buen video Gracias

  • @victorbelmarlandaeta4763
    @victorbelmarlandaeta4763 Před 3 měsíci

    Gran contenido, muchas gracias. El criterio que usas de 2 desviaciones estándar para definir un outlier es parte de la literatura o lo asignas tú de forma arbitraria basada en un razonanmiento estadístico

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 měsíci +1

      Hola Victor! Por lo regular se utilizan 2 o 3 desviaciones estandar dependiendo del objetivo del estudio. Escogí las 2 desviaciones estándar para efectos de demostración. Cuando le asignaba las 3 desviaciones estándar dejaba como outlier a Ana (no a José), y era sólo por siete décimos

  • @rafaelmartelo01
    @rafaelmartelo01 Před rokem

    Hola Rocio, gracias por el contenido que creas, me ha sido de gran utilidad
    Hay alguna manera en que yo pueda crear una tabla con los valores de los componentes principales y los nombres de las filas?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před rokem

      Hola Rafael! Cuando mencionas tabla te refieres a un dataframe o a una tabla plana?

    • @rafaelmartelo01
      @rafaelmartelo01 Před rokem

      @@RocioChavezCienciadeDatos Cualquiera de las dos opciones, quiero poder manipular los datos más allá del gráfico, porque cuando tengo muchas variables se sobreponen unas sobre otras y no es posible hacer una análisis desde la visualización, por eso me gustaría poder exportar una tabla de datos con el nombre de las variables y el valor de los componentes principales

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před rokem +1

      Los componentes principales que se obtuvieron en el minuto 3:53 los puedes convertir a dataframe con: componentes_df=pd.DataFrame(Estudiantes_pca, columns=['pc1', 'pc2'], index=Estudiantes.index)

    • @rafaelmartelo01
      @rafaelmartelo01 Před rokem +1

      Gracias Rocio 🙂