Clustering Jerarquico en Python
Vložit
- čas přidán 27. 02. 2020
- Si te sirvió el vídeo y deseas apoyarme directamente, te dejo mi cuenta Paypal 😊:
www.paypal.com/paypalme/rocio...
Mis cursos en línea:
======================
- Aplica SQL al Mundo del Data Science
- Creación de Reportes Visuales con RMarkdown
rociochavezml.com/cursos-en-l...
Descarga los archivos que voy analizando en: github.com/rociochavezmx/Roci...
Blog "Aprende Ciencia de Datos con Rocío Chávez": rociochavezml.com/
Espero que mis videos te estén siendo de utilidad. Si gustas cooperar por medio de PayPal para poder seguir creando contenido, puedes hacerlo en la página de mi Blog
Como te comentaba en el video “Clustering Jerárquico en R”, el objetivo de las técnicas de clustering es encontrar las similitudes que existan entre individuos u objetos, por medio del análisis de sus características.
El dia de hoy te explico como llevar a cabo esta técnica de Machine Learning en Python.
Si te interesa conocer más acerca de la interpretación del dendrograma y las matemáticas detrás de la generación del mismo, en mi canal tengo un video que habla acerca de esto y lleva por nombre “Clustering Jerárquico Aglomerativo (Explicación Matemática)”
Los archivos que voy utilizando los puedes encontrar en:
github.com/rociochavezmx/Roci...
Algunos archivos no los encontrarás en el link, ya que se van creando al correr los códigos que vienen en los videos y estos se grabarán en tu computadora.
#machinelearning #datascience #statistics - Věda a technologie
Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos
Lo pude solucionar!
Una de las cosas que me enoja de CZcams, es q canales como estos no tengan como mínimo un millón de suscriptores. Saludos, excelente contenido.
muchas gracias por tu ayuda, me fue de mucho apoyo
No sé cómo no había visto este video, Excelente, muchas Gracias
wow muy clara tu explicación!! mil gracias!!
Eres genial Rocio!!!!!😊😊 ya te ganaste un suscriptor más
Muy bien explicado. Muchas gracias por el video :D
Es un placer Aarón ;)
agregar a que cluster pertenece cada registro es genial!
EXCELENTE VIDEO GRACIAS
Excelente!
Muchas gracias Nicolás! ;)
estuvo genial
me gustaria saber como generar el dendograma con los clusters definidos en el corte. gracias !!!
Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas:
- Compartiendo mi canal en tus redes sociales
- Dejándome un comentario (aunque sea un "Hola!"... ;) )
- Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de youtube promueva mi contenido
- Suscribiéndote a mi canal
- Presionando el ícono "Gracias" y haciendo una donación
Si estás interesado en aprender acerca de algún algoritmo en especial, házmelo saber en los comentarios
Hola! Acabo de correr el código y me dí cuenta de que ya hicieron una modificación al paquete mglearn. En caso de que te dé problemas, puedes teclear pip install --upgrade mglearn (con doble guión) en Powershell Prompt de Anaconda. Si tienes dudas acerca de como hacerlo, envíame un correo a rociochavezmx@yahoo.com ;)
Sólido contenido. Yo estoy tratando de hacer este análisis con un millón de rows pero no he encontrado la forma de ver por ejemplo elementos adyacentes en un mismo clúster.
Para llevar a cabo el pre-procesamiento de tus datos y poder obtener
información confiable en tus análisis, visita mi lista de reproducción
llamada Pre-procesamiento de Datos en Python
czcams.com/play/PLUofJx5RUeFqAIVdzfnJayenwZFEGtCmg.html
Saludos
Excelente video! , tendrás uno de Análisis Factorial ?
Saludos
Muchas gracias Samuel! Todavía no he creado un video acerca de análisis factorial.
Te invito a visitar mi página rociochavezml.com, en la pestaña BLOG encontrarás los temas de este canal de forma más organizada ;)
Como validar los cluster??
Genial video, como conozco las caracteristicas por las que han sido agrupadas de esa manera a la hora de explicarlo?
Hola! En estos momentos no podría decirte el código que necesitarías utilizar, pero lo que podrías hacer es: Una vez que tengas la información incluyendo la columna del cluster en el que se ubicó cada individuo en el archivo csv, obtienes el promedio de cada una de las características de los individuos que forman cada uno de los clusters, es decir, obtienes los centroides de cada cluster. Para que sea más claro lo que te quiero decir, te recomiendo que veas el video Clustering Jerárquico Aglomerativo explicación matemática, que está en czcams.com/video/d_7pU9zqkfM/video.html. Ahí explico lo que son los centroides. Espero que esta información te sea de utilidad ;)
Se puede hacer un grafico jertarquico como el de power bi en python
Hola Rocio. Alguna idea o ayua para realizar el : coeficiente de concordancia de Lin? seri de gran ayuda. muchas gracias
En cuanto tenga una oportunidad, investigo y te aviso. Si gustas puedes enviarme un correo a rociochavezmx@yahoo.com para que no se me olvide... jejeje
Como puedo graficar los datos con los clusters?? muy buen video gracias!!
Hola Mario! Me puedes escribir a rociochavezmx@yahoo.com para poder ayudarte más fácilmente, por favor?
@@RocioChavezCienciadeDatos Muchas gracias, ya te mande correo
si tengo aprox 200000 registros y 10 variables seria factible ??
Hola! Se puede hacer un Cluster Jerarquico con variables cualitativas o categoricas en Python? Muchas gracias!
Hola Alan! Ya te contesté por el LinkedIn ;)
Rocio como se puede exportar a JPG o PNG el grafico del dendograma?
Hola Libardo! Puedes utilizar el comando plt.savefig. Aquí te dejo una página en la que mencionan como hacerlo chartio.com/resources/tutorials/how-to-save-a-plot-to-a-file-using-matplotlib/ Espero que te sea de utilidad ;)
@@RocioChavezCienciadeDatos Rocio gracias, desafortunadamente no me a funcionado o no e podido.
Hola, estaba siguiendo tus instrucciones, pero al momento de "Crear el dendrograma del clustering jerárquico" obtube un error que no he logrado corregir, podrías ayudarme?
Clustering_Jerarquico = linkage(calificaciones, 'ward')
NameError Traceback (most recent call last)
in
----> 1 Clustering_Jerarquico=linkage(calificaciones, 'ward')
NameError: name 'linkage' is not defined
linkage es la impostación que se hizo al inicio de scipy.cluster.hierarchy
Gracias.
Para poder normalizar o estandarizar los datos (Z), que código debo utilizar y donde. saludos
Puedes utilizar parte del preprocessing data del paquete sklearn (SciKit-Learn), tienen algoritmos para normalizar y para estandarizar.
from sklearn.preprocessing import StandardScaler
Como se puede realizar el mismo análisis con variables cualitativas?
Hola Libardo! Podrías utilizar variables dummy y sobre ellas aplicar el clustering. Tengo un video acerca de las variables dummy aquí czcams.com/video/WBY9yrSznP4/video.html&ab_channel=RocioChavezCienciadeDatos
@@RocioChavezCienciadeDatos gracias excelente tutoríal.
Hola. ¿Es posible tener una clase contigo?
Hola María! Desafortunadamente me encuentro muy ocupada :(
ola sabes que hice todo lo que pusiste en el video pero me sale el siguiente error = module 'scipy.cluster.hierarchy' has no attribute 'dendogram' qué hago :(
Hola! La función correcta es dendrogram, no dendogram ;)
@@RocioChavezCienciadeDatos ohh ya veo gracias
Si estás interesado en adquirir alguno de mis cursos en línea, vista mi página web rociochavezml.com/cursos-en-linea/ ;)
Cuando abro el archivo en Excel me aparecen todos lo datos en distintas filas, pero en la misma columna. Alguien sabe por que?
Hola Tomas! Es un archivo de tipo csv, lo que significa que sus valores están separados por comas
En este enlace puedes ver como abrirlo en Excel help.cliengo.com/hc/es/articles/360020203574-C%C3%B3mo-abrir-un-archivo-CSV-en-Excel
@@RocioChavezCienciadeDatos Muchas Gracias!
Rocio, no encuentro el error, quizas puedas aclararme:
File "", line 1
Estudiantes=pd.read_csv('C:/Users/nvinu/Archivos en Jupiter/Bases de datos a Analizar/ejemplo estudiantes.csv', engine'python', index_col=0)#Con index_col indicamos que las filas tienen un nombre
^
SyntaxError: invalid syntax
@@nicolasvinuesa8276 a simple vista, le falta un signo= entre engine y python. Otra cosa que puedes hacer es usar comillas dobles en lugar de sencillas. Espero que te sea de utilidad ;)
@@RocioChavezCienciadeDatos Muchisimas gracias por tu pronta respuesta.
@@nicolasvinuesa8276 Un gusto! Si tuvieras más dudas, me puedes enviar un correo a rociochavezmx@yahoo.com ;)
Saludos Rocio! nos ayudas mucho con tus videos.
Estoy haciendo el ejemplo, este es mi codigo
Estudiantes=pd.read_csv('C:\Users\NANCY\Desktop\Rocio-Chavez-youtube-Files-master\Ejemplo Estudiantes.csv',
engine='python',index_col=0)
Me sale este error:
File "", line 1
Estudiantes=pd.read_csv('C:\Users\NANCY\Desktop\Rocio-Chavez-youtube-Files-master\Ejemplo Estudiantes.csv', engine='python',index_col=0)
^
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
No entiendo cual es el error. Estaría muy agradecido si me ayudas.
Hola Rafael! Muchas gracias por tus palabras. Habría que cambiar las diagonales invertidas de la ruta en donde se encuentra el archivo por diagonales normales / Espero que esta información te sea de utilidad ;)