![Rocio Chavez Ciencia de Datos](/img/default-banner.jpg)
- 233
- 925 185
Rocio Chavez Ciencia de Datos
Mexico
Registrace 28. 08. 2008
Ingeniero en Comunicaciones y Electrónica, Maestría en Ingeniería Industrial, Doctorado en Tecnologías de Información con especialidad en Modelado y Simulación de Sistemas y Posdoctorado en Bioinformática
En este canal podrás encontrar videos de Machine Learning, Minería de Datos, Estadística y de Matemáticas en general aplicadas a los negocios, en los que te explicaré de manera muy detallada técnicas que te serán de gran utilidad si quieres transformar tus datos en información, utilizando los lenguajes de programación R y Python, tanto si ya has programado con anterioridad como si nunca lo has hecho.
Por favor ayúdame a esparcir el conocimiento en nuestros países hispano-parlantes para poder contribuir con nuestro granito de arena en su desarrollo, ya sea compartiendo mi canal en tus redes sociales o simplemente dando "like" en mis videos para que youtube los recomiende a más personas
Deteccion de Outliers Multivariante con la Distancia de Mahalanobis y Mahalanobis Robusta en Python
#datascience #machinelearning
En el video anterior vimos la teoría acerca de cómo se obtiene la distancia de Mahalanobis y la diferencia que tiene con respecto a la distancia Euclídea
En esta ocasión veremos como podemos aplicar estos conocimientos para llevar a cabo la detección de outliers multivariante utilizando python
Veremos también una modificación en la obtención de esta distancia, la llamada Distancia de Mahalanobis Robusta, y cuales son las ventajas de utilizarla
En caso de que todavía no hayas visto el video Distancia de Mahalanobis que se encuentra en mi canal de youtube, te invito a que lo veas para que te sea más facil comprender lo que veremos a continuación
Descarga los archivos que voy analizando en: github.com/rociochavezmx/Rocio-Chavez-youtube-Files
En el video anterior vimos la teoría acerca de cómo se obtiene la distancia de Mahalanobis y la diferencia que tiene con respecto a la distancia Euclídea
En esta ocasión veremos como podemos aplicar estos conocimientos para llevar a cabo la detección de outliers multivariante utilizando python
Veremos también una modificación en la obtención de esta distancia, la llamada Distancia de Mahalanobis Robusta, y cuales son las ventajas de utilizarla
En caso de que todavía no hayas visto el video Distancia de Mahalanobis que se encuentra en mi canal de youtube, te invito a que lo veas para que te sea más facil comprender lo que veremos a continuación
Descarga los archivos que voy analizando en: github.com/rociochavezmx/Rocio-Chavez-youtube-Files
zhlédnutí: 1 127
Video
Distancia de Mahalanobis
zhlédnutí 2,3KPřed rokem
#datascience #machinelearning #statistics Seguimos con el tema de la detección de outliers multivariante En el video anterior te mostré como podías detectar los individuos que presentaban valores atípicos en algunas de sus características utilizando una combinación del análisis de componentes principales y la distancia euclídea El día de hoy te explicaré otra forma en la que puedes llevar a cab...
Detección de Outliers Multivariante con ACP en Python
zhlédnutí 967Před rokem
#datascience #machinelearning En videos anteriores te platiqué como podias llevar a cabo la detección de valores atípicos en cada una de tus variables El dia de hoy te explicaré como puedes detectar individuos que se consideran outliers tomando en cuenta los valores contenidos en todas sus variables a la vez A esto se le conoce como detección de outliers multivariante Existen varios métodos par...
Detectando Redundancia en nuestros Datos con SVD
zhlédnutí 327Před rokem
#datascience #machinelearning El día de hoy utilizaremos la descomposición en valores singulares para saber si existe redundancia en nuestras variables El conocer esta información nos ayuda a determinar si vale la pena o no el aplicar una técnica de reducción de la dimensionalidad a nuestros datos, ya que si de entrada todas nuestras variables son linealmente independientes no será posible conc...
Que es el Analisis de Componentes Principales (PCA) #shorts
zhlédnutí 1,3KPřed rokem
Este video es parte de "Análisis de Componentes Principales | Explicación Matemática" que se encuentra en czcams.com/video/3wxIwRaG6Mo/video.html
Que es la descomposición en valores y vectores propios #shorts
zhlédnutí 185Před rokem
Este video forma parte de "Eigenvalores y Eigenvectores | Explicación Matemática" que se encuentra en czcams.com/video/DbWM6ilPHrQ/video.html
Que es SVD y en donde se utiliza #shorts
zhlédnutí 239Před rokem
Este video es parte de "Descomposición en Valores Singulares (SVD) | Explicación Matemática" que se encuentra en czcams.com/video/Yids3Yxends/video.html
SVD Aplicado a Sistemas de Recomendación en Python
zhlédnutí 1,1KPřed rokem
#datascience #machinelearning En el video anterior vimos la lógica que hay detrás de la aplicación de la descomposición en valores singulares a un sistema de recomendación basado en ratings Te platiqué cómo podias detectar la similitud entre individuos aplicando svd aún cuando a simple vista estos no tuvieran nada en común y ubicamos tanto a los individuos como a los productos en el plano bidim...
SVD aplicado a Sistemas de Recomendación
zhlédnutí 562Před rokem
#datascience #machinelearning En un video anterior te platiqué acerca de las matemáticas que hay detrás de la descomposición en valores singulares En esta ocasión te diré cómo esta técnica puede ser utilizada para construir un sistema de recomendación basado en ratings Veremos como, a pesar de que a simple vista dos individuos no tienen nada en común, aplicando esta técnica se logra detectar la...
SVD aplicado a una imagen en python
zhlédnutí 693Před rokem
#datascience #machinelearning En videos anteriores te platiqué acerca de las matemáticas que hay detrás de la descomposición en valores singulares y de cómo podías llevar a cabo la reducción de la dimensionalidad con ésta técnica Utilizamos python para obtener las tres maneras diferentes de llevar a cabo la reducción de la dimensionalidad y visualizamos en un plano bidimensional a los individuo...
Reducción de la Dimensionalidad con SVD en Python
zhlédnutí 1,3KPřed rokem
#datascience #machinelearning En videos anteriores te platiqué acerca de las matemáticas que hay detrás de la descomposición en valores singulares y de cómo podías llevar a cabo la reducción de la dimensionalidad utilizando ésta técnica El día de hoy vamos a aplicar lo aprendido en python Obtendremos los tres factores en los que se descompone una matriz La gráfica que se suele hacer para determ...
Reducción de la Dimensionalidad con SVD | Teoría
zhlédnutí 708Před rokem
#datascience #machinelearning En un video anterior te platiqué acerca de las matemáticas que hay detrás de la descomposición en valores singulares En esta ocasión te diré cómo puedes llevar a cabo la reducción de la dimensionalidad utilizando ésta técnica Veremos tres maneras diferentes de llevar a cabo la reducción de la dimensionalidad, qué pasa cuando estandarizamos nuestros datos antes de a...
Descomposición en Valores Singulares (SVD) | Explicación Matemática
zhlédnutí 1KPřed rokem
#datascience #machinelearning En esta ocasión vamos a ver cómo se lleva a cabo la factorización de matrices llamada Descomposición en Valores Singulares o SVD por las siglas de su nombre en inglés Esta técnica tiene muchas aplicaciones, entre otras, la reducción de la dimensionalidad, los sistemas de recomendación, el procesamiento de imágenes y de señales y el análisis de redes sociales Te pla...
Variance, Covariance and Correlation with Linear Algebra
zhlédnutí 481Před rokem
#datascience #machinelearning #linearalgebra #statistics As I mentioned before, I am preparing material to explain to you what Principal Component Analysis technique is, which is fundamental in machine learning. The topic we will be covering today, like the one we just covered about obtaining eigenvalues and eigenvectors, is essential to understand PCA Today I will focus on showing you how you ...
Análisis de Componentes Principales en Python
zhlédnutí 3,7KPřed rokem
#datascience #machinelearning #statistics Ahora que ya conocemos las matemáticas que hay detrás de la técnica llamada Análisis de Componentes Principales o PCA por sus siglas en inglés, vamos a ver cómo llevar a cabo la reducción de la dimensionalidad aquí en python utilizando el mismo ejemplo que en el video Análisis de Componentes Principales explicación matemática Descarga los archivos que v...
Eigenvalues and Eigenvectors Graphical Explanation
zhlédnutí 203Před rokem
Eigenvalues and Eigenvectors Graphical Explanation
Eigenvalues and Eigenvectors Mathematical Explanation
zhlédnutí 336Před rokem
Eigenvalues and Eigenvectors Mathematical Explanation
Análisis de Componentes Principales | Explicación Matemática
zhlédnutí 2,6KPřed rokem
Análisis de Componentes Principales | Explicación Matemática
Proyección de un Vector sobre otro Vector
zhlédnutí 307Před rokem
Proyección de un Vector sobre otro Vector
Varianza, Covarianza y Correlacion con Algebra Lineal
zhlédnutí 1,6KPřed rokem
Varianza, Covarianza y Correlacion con Algebra Lineal
Eigenvalores y Eigenvectores Explicación Gráfica
zhlédnutí 1,9KPřed rokem
Eigenvalores y Eigenvectores Explicación Gráfica
Eigenvalores y Eigenvectores | Explicación Matemática
zhlédnutí 1KPřed rokem
Eigenvalores y Eigenvectores | Explicación Matemática
Kernel Density Estimation KDE en Python
zhlédnutí 1,2KPřed rokem
Kernel Density Estimation KDE en Python
Análisis Exploratorio utilizando Tablas Pivote en Python
zhlédnutí 1,8KPřed rokem
Análisis Exploratorio utilizando Tablas Pivote en Python
Análisis Exploratorio utilizando Tablas Cruzadas en Python
zhlédnutí 1,2KPřed rokem
Análisis Exploratorio utilizando Tablas Cruzadas en Python
Obteniendo Estadísticos Descriptivos de Variables Categóricas en Python
zhlédnutí 2,1KPřed rokem
Obteniendo Estadísticos Descriptivos de Variables Categóricas en Python
Felicidades por tan increíble aporte. Tengo una pregunta: ¿que librerías adicionales a qcc se deben tener instaladas y en uso en Rstudio? pues a mi me genera un error al intentar generar el pareto...
Muchas gracias Raúl! Cual es el error que te arroja?
eres la mejor muchas gracias :3
¿Doctora donde y donde no aplicar arboles de decision?
Nota importante: La decisión de seguir buscando y eliminando outliers en la misma variable después de una primera ronda de eliminación depende del contexto y de los objetivos de tu análisis.
Nota importante: La decisión de seguir buscando y eliminando outliers en la misma variable después de una primera ronda de eliminación depende del contexto y de los objetivos de tu análisis.
hola, se podría determinar el numero optimo de clusters, con solo ver el dendrograma?, saludos
Hola! Si, cuando se tiene conocimiento del área, se podría determinar visualmente en donde hace más sentido hacer la agrupación de los individuos
Gran contenido, muchas gracias. El criterio que usas de 2 desviaciones estándar para definir un outlier es parte de la literatura o lo asignas tú de forma arbitraria basada en un razonanmiento estadístico
Hola Victor! Por lo regular se utilizan 2 o 3 desviaciones estandar dependiendo del objetivo del estudio. Escogí las 2 desviaciones estándar para efectos de demostración. Cuando le asignaba las 3 desviaciones estándar dejaba como outlier a Ana (no a José), y era sólo por siete décimos
Y como le hago si ya tengo la tabla de Excel en variables dummy?
Hola Ana! Te refieres a que tu archivo se encuentra ya como la tabla que se muestra en el minuto 2:34 del video?
buen video, pero faltaron mas métricas, no vi nada de coeficiente de silueta, calinski harabaz ni esas. Me gustaría haber visto alguna métrica para evaluar cuantitativamente esos clústers
Hola rocio, necesito un apoyo para un trabajo para hacer en python y Excel...como me puedo contactar tar contigo
Rápido, digerible, hermoso. Sin palabras, de las mejores descripciones en cuanto a correlación que he visto para R. Muchas felicidades!! 🎉🎉
antes de comenzar con ML recomiendas aprender muy bien SQL ? tengo conocimientos en python y matematicas
Hola! Sí sería recomendable aprender SQL (es muy intuitivo y fácil) , sobretodo la parte del pre-procesamiento de datos y la conexión de SQL con Python. En este enlace podrás encontrar mi curso de SQL en Udemy, por si te fuera de utilidad www.udemy.com/course/sql-para-data-science/?referralCode=3EC0403B6113D937C154 y en mi canal tengo varios videos combinando python con SQL, incluyendo cómo puedes conectar ambos lenguajes. Espero que te sean de utilidad
@@RocioChavezCienciadeDatos excelente , gracias!
@@jencinas8586 Es un placer!
videazo 100/10
Tan buenos tus vídeos
Me han aparecido más de 10 comerciales, espero que ya seas millonaria.
No sé bien como determina youtube cuantos anuncios incluir en cada video. CZcams me da alrededor de 300 pesos mexicanos al mes, no lo hago por el dinero, me gusta ayudar a las personas a comprender las técnicas matemáticas que se utilizan en la ciencia de datos. Espero que te haya sido de utilidad el video
Hola Rocío. Muchas gracias por el video. ¿Conoces algún artículo científico publicado que aplique el ACP de esta manera?. Muchas gracias.
¡Muchas gracias por compartir tu conocimiento, estimada Rocio C! La prueba de Kolmogorov-Smirnov es una prueba "no parametrica".
Gracias. Es posiblemente mi salvación para una prueba
Muchas gracias, me ha servido mucho y lo he aplicado con mis datos de solo un vector personas = [....] :D
Gracias, me salvaron de un examen😅
Gracias por tu tiempo y conocimiento Rocio. Abrazos
muchas gracias por tu ayuda, me fue de mucho apoyo
Hola una pregunta, si en vez de eliminar los outliers los quiero reemplazar con algun valor como la media o mediana, cómo se haría?
Hola! En este video puedes encontrar información acerca del reemplazo de valores perdidos: czcams.com/video/4a4T7A5Kv7M/video.html
No se quien sea usted, pero la amo. Gran video no pude encontrar otro mejor en todo el internet, la explicación excelente, impecable y el código super legible <3
Muy bueno!, sabes como hacer para que la escala de la variable que elijo para mostrar en el relleno del mapa se exprese en cuartiles? Saludos
Excelente !!! tengo una pregunta, cuando rellena el mapa con la variable que indicamos, la escala la arma automáticamente por cuartiles? Saludos
Gracias por la explicación, principalmente las explicaciones matemáticas y de concepto sobre SVD me han sido de gran utilidad, pero me surge una duda a la hora de la implementación. Entiendo que descomponemos la matriz original en matrices U sigma Vt , pero a la hora de realizar la predicción únicamente hacemos el producto matricial U x Vt, esto nos da como resultado valores muy alejados de la escala real de los ratings ( es decir únicamente nos sirve para tener el orden de recomendaciones de items para cada usuario) si quisiéramos unas predicciones en la escala de los ratings originales habría que reconstruir la matriz usando U.dot(sigma).dot(Vt) como haces en Reducción de la Dimensionalidad con SVD en Python, sin embargo he visto que el orden cuando usamos solo las matrices UxVt y el orden cuando reconstruimos usando U x sigma x Vt, son distintos, no se si es que he hecho algo mal o es algo que puede ocurrir. Y por ultimo dado que en PCA es recomendable estandarizar los datos, en SVD, sería recomendable estandarizar los datos por observación , ya sea ademas de para mejorar la convergencia del algoritmo para obtener otros beneficios? Un saludoy gracias de antemano
Mi problema es que en jupyter no me aparece la opcion de guardar el codigo como .py, ayuda
Rocío o alguien de la comunidad, tengo una duda, para utilizar el clustering jerárquico tambn tengo que estandarizar los valores o no es necesario? Si me pueden orientar se los agradecería mucho
Hola Tatiana! Es recomendable estandarizar los datos para que queden todos en la misma escala y evitar que las variables que contengan valores más altos vayan a dominar al momento de calcular las distancias entre los individuos.
@@RocioChavezCienciadeDatos , de nuevo Muchas gracias
@@RocioChavezCienciadeDatos, una consulta en esta misma linea, mis datos además de ser una muestra pequeña tenían muchos nulos, que por la naturaleza de la investigación no me los podía cargar, por lo que los impute con un valor fuera de rango, intente la estandarización pero no me salió, entiendo que es por esto, si consideras que es mucho para preguntar por acá no hay problema.
Lucia, infinitas gracias por tu explicación justamente estoy analizado una muestra muy pequeña y no sabía cómo hacer con el K-means 🎉
Muchas Gracias
que gran explicación podrías recomendar algún libro donde se explique este tema y que tenga ejemplos?
Buenas tardes me sale un error con la base de datos me dice que no hay coercion y falta instalar library(cluster) para activar hclust
Muy bien explicado Rocio, gracias
Hola Rocio, muchas gracias por tu exlicacion tan clara. De verdad que se aprende contigo. Tengo una pregunta. Tienens algun video de como crear un indice utilicando PCA, mil gracias
Hola Rómulo! Todavía no he creado el video acerca de la creación del índice utilizando PCA. Solamente tengo todo lo correspondiente a la explicación matemática del PCA y algunos ejemplos de aplicación 🙂
Buenas tarde, lo primero agradecerte por el contenido que subes al canal. Te que realizar una consulta, pues no entiendo como se realiza el cambio de : AV = sigmaV a ----> A =V sigma V(-1) El procedimiento que hago yo para despejar A es multiplicar por V(-1) a ambos lados por la derecha. A V V(-1) = sigmaV V(-1) , pero llego a un resultado erroneo. Un saludo y gracias de antemano
Gracias!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Gran video gracias. Como aporte sirve bien en Linux (Ubuntu) usando la conexion con ODBC Driver 17 for SQL Server. Saludos
Muchas gracias!
Gracias🎉
excelente, explicación muy clara. Me hubiera gustado que se hubiera tratado el tema de sobreajuste en este tipo de modelo.
¡Muchas gracias por compartir tu conocimiento, estimada Rocio Chavez! En mi caso, utilice' la versión de R 4.2.3 y RStudio 2023.03.0 Build 386. Respecto al link compartido, no logre' ubicar el paquete "Johnson". Sin embargo, indagando por la web pude descargarlo "Johnson_1.4.tar.gz" y con el script recomendado lo instale' en el disco C: url <- "C:/.../Johnson_1.4.tar.gz" install.packages(url, repos=NULL, type="source") library(Johnson) El paquete se instalo' sin novedad.
alguien teine alguna referencia academica o paper sobre el uso de variabels dummy en un ACP en conjunto a otras variables numericas? Saludos
Hola, quisiera saber qué versión de SQL Server utilizaste para hacer el vídeo, porque yo tengo la "developer" y no me funcionó la creación de la base de datos desde Python.
use yeo johnson....y aunque la curva se ajusta bastante bien a la linea recta, el p no arroja evidencia de una distribucion normal, que puedo hacer?
Hola Rocio, haces sesiones online particulares? gracias
Hola, tomare tus cursos por udemy, saludos
Este video me pareció sencillamente impresionante, sumamente útil, muchas gracias Dra. Lo voy a compartir en redes sociales
Obtén mi curso "Aplica al mundo del Data Science desde cero" a precio preferencial en www.udemy.com/course/sql-para-data-science/?couponCode=PROMOCION_CZcams