Rocio Chavez Ciencia de Datos
Rocio Chavez Ciencia de Datos
  • 233
  • 925 185
Deteccion de Outliers Multivariante con la Distancia de Mahalanobis y Mahalanobis Robusta en Python
#datascience #machinelearning
En el video anterior vimos la teoría acerca de cómo se obtiene la distancia de Mahalanobis y la diferencia que tiene con respecto a la distancia Euclídea
En esta ocasión veremos como podemos aplicar estos conocimientos para llevar a cabo la detección de outliers multivariante utilizando python
Veremos también una modificación en la obtención de esta distancia, la llamada Distancia de Mahalanobis Robusta, y cuales son las ventajas de utilizarla
En caso de que todavía no hayas visto el video Distancia de Mahalanobis que se encuentra en mi canal de youtube, te invito a que lo veas para que te sea más facil comprender lo que veremos a continuación
Descarga los archivos que voy analizando en: github.com/rociochavezmx/Rocio-Chavez-youtube-Files
zhlédnutí: 1 127

Video

Distancia de Mahalanobis
zhlédnutí 2,3KPřed rokem
#datascience #machinelearning #statistics Seguimos con el tema de la detección de outliers multivariante En el video anterior te mostré como podías detectar los individuos que presentaban valores atípicos en algunas de sus características utilizando una combinación del análisis de componentes principales y la distancia euclídea El día de hoy te explicaré otra forma en la que puedes llevar a cab...
Detección de Outliers Multivariante con ACP en Python
zhlédnutí 967Před rokem
#datascience #machinelearning En videos anteriores te platiqué como podias llevar a cabo la detección de valores atípicos en cada una de tus variables El dia de hoy te explicaré como puedes detectar individuos que se consideran outliers tomando en cuenta los valores contenidos en todas sus variables a la vez A esto se le conoce como detección de outliers multivariante Existen varios métodos par...
Detectando Redundancia en nuestros Datos con SVD
zhlédnutí 327Před rokem
#datascience #machinelearning El día de hoy utilizaremos la descomposición en valores singulares para saber si existe redundancia en nuestras variables El conocer esta información nos ayuda a determinar si vale la pena o no el aplicar una técnica de reducción de la dimensionalidad a nuestros datos, ya que si de entrada todas nuestras variables son linealmente independientes no será posible conc...
Que es el Analisis de Componentes Principales (PCA) #shorts
zhlédnutí 1,3KPřed rokem
Este video es parte de "Análisis de Componentes Principales | Explicación Matemática" que se encuentra en czcams.com/video/3wxIwRaG6Mo/video.html
Que es la descomposición en valores y vectores propios #shorts
zhlédnutí 185Před rokem
Este video forma parte de "Eigenvalores y Eigenvectores | Explicación Matemática" que se encuentra en czcams.com/video/DbWM6ilPHrQ/video.html
Que es SVD y en donde se utiliza #shorts
zhlédnutí 239Před rokem
Este video es parte de "Descomposición en Valores Singulares (SVD) | Explicación Matemática" que se encuentra en czcams.com/video/Yids3Yxends/video.html
SVD Aplicado a Sistemas de Recomendación en Python
zhlédnutí 1,1KPřed rokem
#datascience #machinelearning En el video anterior vimos la lógica que hay detrás de la aplicación de la descomposición en valores singulares a un sistema de recomendación basado en ratings Te platiqué cómo podias detectar la similitud entre individuos aplicando svd aún cuando a simple vista estos no tuvieran nada en común y ubicamos tanto a los individuos como a los productos en el plano bidim...
SVD aplicado a Sistemas de Recomendación
zhlédnutí 562Před rokem
#datascience #machinelearning En un video anterior te platiqué acerca de las matemáticas que hay detrás de la descomposición en valores singulares En esta ocasión te diré cómo esta técnica puede ser utilizada para construir un sistema de recomendación basado en ratings Veremos como, a pesar de que a simple vista dos individuos no tienen nada en común, aplicando esta técnica se logra detectar la...
SVD aplicado a una imagen en python
zhlédnutí 693Před rokem
#datascience #machinelearning En videos anteriores te platiqué acerca de las matemáticas que hay detrás de la descomposición en valores singulares y de cómo podías llevar a cabo la reducción de la dimensionalidad con ésta técnica Utilizamos python para obtener las tres maneras diferentes de llevar a cabo la reducción de la dimensionalidad y visualizamos en un plano bidimensional a los individuo...
Reducción de la Dimensionalidad con SVD en Python
zhlédnutí 1,3KPřed rokem
#datascience #machinelearning En videos anteriores te platiqué acerca de las matemáticas que hay detrás de la descomposición en valores singulares y de cómo podías llevar a cabo la reducción de la dimensionalidad utilizando ésta técnica El día de hoy vamos a aplicar lo aprendido en python Obtendremos los tres factores en los que se descompone una matriz La gráfica que se suele hacer para determ...
Reducción de la Dimensionalidad con SVD | Teoría
zhlédnutí 708Před rokem
#datascience #machinelearning En un video anterior te platiqué acerca de las matemáticas que hay detrás de la descomposición en valores singulares En esta ocasión te diré cómo puedes llevar a cabo la reducción de la dimensionalidad utilizando ésta técnica Veremos tres maneras diferentes de llevar a cabo la reducción de la dimensionalidad, qué pasa cuando estandarizamos nuestros datos antes de a...
Descomposición en Valores Singulares (SVD) | Explicación Matemática
zhlédnutí 1KPřed rokem
#datascience #machinelearning En esta ocasión vamos a ver cómo se lleva a cabo la factorización de matrices llamada Descomposición en Valores Singulares o SVD por las siglas de su nombre en inglés Esta técnica tiene muchas aplicaciones, entre otras, la reducción de la dimensionalidad, los sistemas de recomendación, el procesamiento de imágenes y de señales y el análisis de redes sociales Te pla...
Variance, Covariance and Correlation with Linear Algebra
zhlédnutí 481Před rokem
#datascience #machinelearning #linearalgebra #statistics As I mentioned before, I am preparing material to explain to you what Principal Component Analysis technique is, which is fundamental in machine learning. The topic we will be covering today, like the one we just covered about obtaining eigenvalues and eigenvectors, is essential to understand PCA Today I will focus on showing you how you ...
Análisis de Componentes Principales en Python
zhlédnutí 3,7KPřed rokem
#datascience #machinelearning #statistics Ahora que ya conocemos las matemáticas que hay detrás de la técnica llamada Análisis de Componentes Principales o PCA por sus siglas en inglés, vamos a ver cómo llevar a cabo la reducción de la dimensionalidad aquí en python utilizando el mismo ejemplo que en el video Análisis de Componentes Principales explicación matemática Descarga los archivos que v...
Eigenvalues and Eigenvectors Graphical Explanation
zhlédnutí 203Před rokem
Eigenvalues and Eigenvectors Graphical Explanation
Eigenvalues and Eigenvectors Mathematical Explanation
zhlédnutí 336Před rokem
Eigenvalues and Eigenvectors Mathematical Explanation
Análisis de Componentes Principales | Explicación Matemática
zhlédnutí 2,6KPřed rokem
Análisis de Componentes Principales | Explicación Matemática
Proyección de un Vector sobre otro Vector
zhlédnutí 307Před rokem
Proyección de un Vector sobre otro Vector
Varianza, Covarianza y Correlacion con Algebra Lineal
zhlédnutí 1,6KPřed rokem
Varianza, Covarianza y Correlacion con Algebra Lineal
Eigenvalores y Eigenvectores en Python
zhlédnutí 904Před rokem
Eigenvalores y Eigenvectores en Python
Eigenvalores y Eigenvectores Explicación Gráfica
zhlédnutí 1,9KPřed rokem
Eigenvalores y Eigenvectores Explicación Gráfica
Eigenvalores y Eigenvectores | Explicación Matemática
zhlédnutí 1KPřed rokem
Eigenvalores y Eigenvectores | Explicación Matemática
Gráficos de Violín en Python
zhlédnutí 1,2KPřed rokem
Gráficos de Violín en Python
Gráficos de Violín | Teoría
zhlédnutí 3KPřed rokem
Gráficos de Violín | Teoría
Kernel Density Estimation KDE en Python
zhlédnutí 1,2KPřed rokem
Kernel Density Estimation KDE en Python
Kernel Density Estimation KDE
zhlédnutí 2,5KPřed rokem
Kernel Density Estimation KDE
Análisis Exploratorio utilizando Tablas Pivote en Python
zhlédnutí 1,8KPřed rokem
Análisis Exploratorio utilizando Tablas Pivote en Python
Análisis Exploratorio utilizando Tablas Cruzadas en Python
zhlédnutí 1,2KPřed rokem
Análisis Exploratorio utilizando Tablas Cruzadas en Python
Obteniendo Estadísticos Descriptivos de Variables Categóricas en Python
zhlédnutí 2,1KPřed rokem
Obteniendo Estadísticos Descriptivos de Variables Categóricas en Python

Komentáře

  • @raulalfredocabezas5247

    Felicidades por tan increíble aporte. Tengo una pregunta: ¿que librerías adicionales a qcc se deben tener instaladas y en uso en Rstudio? pues a mi me genera un error al intentar generar el pareto...

  • @ferhf824
    @ferhf824 Před 6 dny

    eres la mejor muchas gracias :3

  • @pedromendozaaristegui5974

    ¿Doctora donde y donde no aplicar arboles de decision?

  • @RocioChavezCienciadeDatos

    Nota importante: La decisión de seguir buscando y eliminando outliers en la misma variable después de una primera ronda de eliminación depende del contexto y de los objetivos de tu análisis.

  • @RocioChavezCienciadeDatos

    Nota importante: La decisión de seguir buscando y eliminando outliers en la misma variable después de una primera ronda de eliminación depende del contexto y de los objetivos de tu análisis.

  • @jortigasperu
    @jortigasperu Před měsícem

    hola, se podría determinar el numero optimo de clusters, con solo ver el dendrograma?, saludos

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před měsícem

      Hola! Si, cuando se tiene conocimiento del área, se podría determinar visualmente en donde hace más sentido hacer la agrupación de los individuos

  • @victorbelmarlandaeta4763
    @victorbelmarlandaeta4763 Před měsícem

    Gran contenido, muchas gracias. El criterio que usas de 2 desviaciones estándar para definir un outlier es parte de la literatura o lo asignas tú de forma arbitraria basada en un razonanmiento estadístico

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před měsícem

      Hola Victor! Por lo regular se utilizan 2 o 3 desviaciones estandar dependiendo del objetivo del estudio. Escogí las 2 desviaciones estándar para efectos de demostración. Cuando le asignaba las 3 desviaciones estándar dejaba como outlier a Ana (no a José), y era sólo por siete décimos

  • @anamagonzalez6144
    @anamagonzalez6144 Před měsícem

    Y como le hago si ya tengo la tabla de Excel en variables dummy?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před měsícem

      Hola Ana! Te refieres a que tu archivo se encuentra ya como la tabla que se muestra en el minuto 2:34 del video?

  • @user-nd9fn2ci5j
    @user-nd9fn2ci5j Před 2 měsíci

    buen video, pero faltaron mas métricas, no vi nada de coeficiente de silueta, calinski harabaz ni esas. Me gustaría haber visto alguna métrica para evaluar cuantitativamente esos clústers

  • @javiervalerazevallos2368
    @javiervalerazevallos2368 Před 2 měsíci

    Hola rocio, necesito un apoyo para un trabajo para hacer en python y Excel...como me puedo contactar tar contigo

  • @josemiguelcervantescruz5498

    Rápido, digerible, hermoso. Sin palabras, de las mejores descripciones en cuanto a correlación que he visto para R. Muchas felicidades!! 🎉🎉

  • @jencinas8586
    @jencinas8586 Před 2 měsíci

    antes de comenzar con ML recomiendas aprender muy bien SQL ? tengo conocimientos en python y matematicas

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před 2 měsíci

      Hola! Sí sería recomendable aprender SQL (es muy intuitivo y fácil) , sobretodo la parte del pre-procesamiento de datos y la conexión de SQL con Python. En este enlace podrás encontrar mi curso de SQL en Udemy, por si te fuera de utilidad www.udemy.com/course/sql-para-data-science/?referralCode=3EC0403B6113D937C154 y en mi canal tengo varios videos combinando python con SQL, incluyendo cómo puedes conectar ambos lenguajes. Espero que te sean de utilidad

    • @jencinas8586
      @jencinas8586 Před 2 měsíci

      @@RocioChavezCienciadeDatos excelente , gracias!

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před 2 měsíci

      @@jencinas8586 Es un placer!

  • @brianalejandro2502
    @brianalejandro2502 Před 2 měsíci

    videazo 100/10

  • @astronomiahoy264
    @astronomiahoy264 Před 2 měsíci

    Tan buenos tus vídeos

  • @homerogonzalez3745
    @homerogonzalez3745 Před 2 měsíci

    Me han aparecido más de 10 comerciales, espero que ya seas millonaria.

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před 2 měsíci

      No sé bien como determina youtube cuantos anuncios incluir en cada video. CZcams me da alrededor de 300 pesos mexicanos al mes, no lo hago por el dinero, me gusta ayudar a las personas a comprender las técnicas matemáticas que se utilizan en la ciencia de datos. Espero que te haya sido de utilidad el video

  • @susana_grussurgalvez3548
    @susana_grussurgalvez3548 Před 2 měsíci

    Hola Rocío. Muchas gracias por el video. ¿Conoces algún artículo científico publicado que aplique el ACP de esta manera?. Muchas gracias.

  • @antt5602
    @antt5602 Před 2 měsíci

    ¡Muchas gracias por compartir tu conocimiento, estimada Rocio C! La prueba de Kolmogorov-Smirnov es una prueba "no parametrica".

  • @briancardenas5317
    @briancardenas5317 Před 2 měsíci

    Gracias. Es posiblemente mi salvación para una prueba

  • @AngelLoayza94
    @AngelLoayza94 Před 2 měsíci

    Muchas gracias, me ha servido mucho y lo he aplicado con mis datos de solo un vector personas = [....] :D

  • @cendygonzales4524
    @cendygonzales4524 Před 2 měsíci

    Gracias, me salvaron de un examen😅

  • @AurelioDiazHerraiz-tv2yq
    @AurelioDiazHerraiz-tv2yq Před 3 měsíci

    Gracias por tu tiempo y conocimiento Rocio. Abrazos

  • @ricardosebastian9085
    @ricardosebastian9085 Před 3 měsíci

    muchas gracias por tu ayuda, me fue de mucho apoyo

  • @PrototypePaolo
    @PrototypePaolo Před 3 měsíci

    Hola una pregunta, si en vez de eliminar los outliers los quiero reemplazar con algun valor como la media o mediana, cómo se haría?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před 3 měsíci

      Hola! En este video puedes encontrar información acerca del reemplazo de valores perdidos: czcams.com/video/4a4T7A5Kv7M/video.html

  • @noblemaster0173
    @noblemaster0173 Před 3 měsíci

    No se quien sea usted, pero la amo. Gran video no pude encontrar otro mejor en todo el internet, la explicación excelente, impecable y el código super legible <3

  • @emifaro
    @emifaro Před 3 měsíci

    Muy bueno!, sabes como hacer para que la escala de la variable que elijo para mostrar en el relleno del mapa se exprese en cuartiles? Saludos

  • @emifaro
    @emifaro Před 3 měsíci

    Excelente !!! tengo una pregunta, cuando rellena el mapa con la variable que indicamos, la escala la arma automáticamente por cuartiles? Saludos

  • @enriquedelcampoestrada1901
    @enriquedelcampoestrada1901 Před 3 měsíci

    Gracias por la explicación, principalmente las explicaciones matemáticas y de concepto sobre SVD me han sido de gran utilidad, pero me surge una duda a la hora de la implementación. Entiendo que descomponemos la matriz original en matrices U sigma Vt , pero a la hora de realizar la predicción únicamente hacemos el producto matricial U x Vt, esto nos da como resultado valores muy alejados de la escala real de los ratings ( es decir únicamente nos sirve para tener el orden de recomendaciones de items para cada usuario) si quisiéramos unas predicciones en la escala de los ratings originales habría que reconstruir la matriz usando U.dot(sigma).dot(Vt) como haces en Reducción de la Dimensionalidad con SVD en Python, sin embargo he visto que el orden cuando usamos solo las matrices UxVt y el orden cuando reconstruimos usando U x sigma x Vt, son distintos, no se si es que he hecho algo mal o es algo que puede ocurrir. Y por ultimo dado que en PCA es recomendable estandarizar los datos, en SVD, sería recomendable estandarizar los datos por observación , ya sea ademas de para mejorar la convergencia del algoritmo para obtener otros beneficios? Un saludoy gracias de antemano

  • @Sebas923pro
    @Sebas923pro Před 4 měsíci

    Mi problema es que en jupyter no me aparece la opcion de guardar el codigo como .py, ayuda

  • @tatianatrujillo8691
    @tatianatrujillo8691 Před 4 měsíci

    Rocío o alguien de la comunidad, tengo una duda, para utilizar el clustering jerárquico tambn tengo que estandarizar los valores o no es necesario? Si me pueden orientar se los agradecería mucho

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před 4 měsíci

      Hola Tatiana! Es recomendable estandarizar los datos para que queden todos en la misma escala y evitar que las variables que contengan valores más altos vayan a dominar al momento de calcular las distancias entre los individuos.

    • @tatianatrujillo8691
      @tatianatrujillo8691 Před 4 měsíci

      @@RocioChavezCienciadeDatos , de nuevo Muchas gracias

    • @tatianatrujillo8691
      @tatianatrujillo8691 Před 4 měsíci

      @@RocioChavezCienciadeDatos, una consulta en esta misma linea, mis datos además de ser una muestra pequeña tenían muchos nulos, que por la naturaleza de la investigación no me los podía cargar, por lo que los impute con un valor fuera de rango, intente la estandarización pero no me salió, entiendo que es por esto, si consideras que es mucho para preguntar por acá no hay problema.

  • @tatianatrujillo8691
    @tatianatrujillo8691 Před 4 měsíci

    Lucia, infinitas gracias por tu explicación justamente estoy analizado una muestra muy pequeña y no sabía cómo hacer con el K-means 🎉

  • @billysanchez2363
    @billysanchez2363 Před 4 měsíci

    Muchas Gracias

  • @alejandroibarrachavez2770
    @alejandroibarrachavez2770 Před 4 měsíci

    que gran explicación podrías recomendar algún libro donde se explique este tema y que tenga ejemplos?

  • @fernandocardosoordonez8735
    @fernandocardosoordonez8735 Před 4 měsíci

    Buenas tardes me sale un error con la base de datos me dice que no hay coercion y falta instalar library(cluster) para activar hclust

  • @germanuc
    @germanuc Před 4 měsíci

    Muy bien explicado Rocio, gracias

  • @romuloquiros2265
    @romuloquiros2265 Před 5 měsíci

    Hola Rocio, muchas gracias por tu exlicacion tan clara. De verdad que se aprende contigo. Tengo una pregunta. Tienens algun video de como crear un indice utilicando PCA, mil gracias

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos Před 5 měsíci

      Hola Rómulo! Todavía no he creado el video acerca de la creación del índice utilizando PCA. Solamente tengo todo lo correspondiente a la explicación matemática del PCA y algunos ejemplos de aplicación 🙂

  • @enriquedelcampoestrada1901
    @enriquedelcampoestrada1901 Před 5 měsíci

    Buenas tarde, lo primero agradecerte por el contenido que subes al canal. Te que realizar una consulta, pues no entiendo como se realiza el cambio de : AV = sigmaV a ----> A =V sigma V(-1) El procedimiento que hago yo para despejar A es multiplicar por V(-1) a ambos lados por la derecha. A V V(-1) = sigmaV V(-1) , pero llego a un resultado erroneo. Un saludo y gracias de antemano

  • @tomastapia6233
    @tomastapia6233 Před 6 měsíci

    Gracias!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

  • @Antonio-mo9mr
    @Antonio-mo9mr Před 6 měsíci

    Gran video gracias. Como aporte sirve bien en Linux (Ubuntu) usando la conexion con ODBC Driver 17 for SQL Server. Saludos

  • @jpierre8703
    @jpierre8703 Před 6 měsíci

    Muchas gracias!

  • @niltonortizbarraza8895
    @niltonortizbarraza8895 Před 6 měsíci

    Gracias🎉

  • @josedanielisidororeyes5693
    @josedanielisidororeyes5693 Před 6 měsíci

    excelente, explicación muy clara. Me hubiera gustado que se hubiera tratado el tema de sobreajuste en este tipo de modelo.

  • @antt5602
    @antt5602 Před 6 měsíci

    ¡Muchas gracias por compartir tu conocimiento, estimada Rocio Chavez! En mi caso, utilice' la versión de R 4.2.3 y RStudio 2023.03.0 Build 386. Respecto al link compartido, no logre' ubicar el paquete "Johnson". Sin embargo, indagando por la web pude descargarlo "Johnson_1.4.tar.gz" y con el script recomendado lo instale' en el disco C: url <- "C:/.../Johnson_1.4.tar.gz" install.packages(url, repos=NULL, type="source") library(Johnson) El paquete se instalo' sin novedad.

  • @GaboMoya
    @GaboMoya Před 6 měsíci

    alguien teine alguna referencia academica o paper sobre el uso de variabels dummy en un ACP en conjunto a otras variables numericas? Saludos

  • @Rokko-
    @Rokko- Před 6 měsíci

    Hola, quisiera saber qué versión de SQL Server utilizaste para hacer el vídeo, porque yo tengo la "developer" y no me funcionó la creación de la base de datos desde Python.

  • @rubengarcia-xt9qe
    @rubengarcia-xt9qe Před 7 měsíci

    use yeo johnson....y aunque la curva se ajusta bastante bien a la linea recta, el p no arroja evidencia de una distribucion normal, que puedo hacer?

  • @rubengarcia-xt9qe
    @rubengarcia-xt9qe Před 7 měsíci

    Hola Rocio, haces sesiones online particulares? gracias

  • @vladimirhernandez8192
    @vladimirhernandez8192 Před 7 měsíci

    Hola, tomare tus cursos por udemy, saludos

  • @tensoescalar1
    @tensoescalar1 Před 7 měsíci

    Este video me pareció sencillamente impresionante, sumamente útil, muchas gracias Dra. Lo voy a compartir en redes sociales

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos Před 7 měsíci

    Obtén mi curso "Aplica al mundo del Data Science desde cero" a precio preferencial en www.udemy.com/course/sql-para-data-science/?couponCode=PROMOCION_CZcams