Clustering Jerarquico en Python

Sdílet
Vložit
  • čas přidán 27. 02. 2020
  • Si te sirvió el vídeo y deseas apoyarme directamente, te dejo mi cuenta Paypal 😊:
    www.paypal.com/paypalme/rocio...
    Mis cursos en línea:
    ======================
    - Aplica SQL al Mundo del Data Science
    - Creación de Reportes Visuales con RMarkdown
    rociochavezml.com/cursos-en-l...
    Descarga los archivos que voy analizando en: github.com/rociochavezmx/Roci...
    Blog "Aprende Ciencia de Datos con Rocío Chávez": rociochavezml.com/
    Espero que mis videos te estén siendo de utilidad. Si gustas cooperar por medio de PayPal para poder seguir creando contenido, puedes hacerlo en la página de mi Blog
    Como te comentaba en el video “Clustering Jerárquico en R”, el objetivo de las técnicas de clustering es encontrar las similitudes que existan entre individuos u objetos, por medio del análisis de sus características.
    El dia de hoy te explico como llevar a cabo esta técnica de Machine Learning en Python.
    Si te interesa conocer más acerca de la interpretación del dendrograma y las matemáticas detrás de la generación del mismo, en mi canal tengo un video que habla acerca de esto y lleva por nombre “Clustering Jerárquico Aglomerativo (Explicación Matemática)”
    Los archivos que voy utilizando los puedes encontrar en:
    github.com/rociochavezmx/Roci...
    Algunos archivos no los encontrarás en el link, ya que se van creando al correr los códigos que vienen en los videos y estos se grabarán en tu computadora.
    #machinelearning #datascience #statistics
  • Věda a technologie

Komentáře • 60

  • @RocioChavezCienciadeDatos

    Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos

  • @jorge1869
    @jorge1869 Před 2 lety +3

    Una de las cosas que me enoja de CZcams, es q canales como estos no tengan como mínimo un millón de suscriptores. Saludos, excelente contenido.

  • @ricardosebastian9085
    @ricardosebastian9085 Před 3 měsíci

    muchas gracias por tu ayuda, me fue de mucho apoyo

  • @tensoescalar1
    @tensoescalar1 Před 9 měsíci

    No sé cómo no había visto este video, Excelente, muchas Gracias

  • @cristianlaiho
    @cristianlaiho Před 3 lety

    wow muy clara tu explicación!! mil gracias!!

  • @calebmedrano3733
    @calebmedrano3733 Před rokem

    Eres genial Rocio!!!!!😊😊 ya te ganaste un suscriptor más

  • @Se-pk8lg
    @Se-pk8lg Před 3 lety +1

    Muy bien explicado. Muchas gracias por el video :D

  • @alexisjose7515
    @alexisjose7515 Před 3 lety

    agregar a que cluster pertenece cada registro es genial!

  • @joseluisvillalpandoaguilar2613

    EXCELENTE VIDEO GRACIAS

  • @nicolasvinuesa8276
    @nicolasvinuesa8276 Před 3 lety

    Excelente!

  • @kimberlyjohanarinconvalenc8650

    estuvo genial
    me gustaria saber como generar el dendograma con los clusters definidos en el corte. gracias !!!

  • @RocioChavezCienciadeDatos

    Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas:
    - Compartiendo mi canal en tus redes sociales
    - Dejándome un comentario (aunque sea un "Hola!"... ;) )
    - Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de youtube promueva mi contenido
    - Suscribiéndote a mi canal
    - Presionando el ícono "Gracias" y haciendo una donación
    Si estás interesado en aprender acerca de algún algoritmo en especial, házmelo saber en los comentarios

  • @RocioChavezCienciadeDatos

    Hola! Acabo de correr el código y me dí cuenta de que ya hicieron una modificación al paquete mglearn. En caso de que te dé problemas, puedes teclear pip install --upgrade mglearn (con doble guión) en Powershell Prompt de Anaconda. Si tienes dudas acerca de como hacerlo, envíame un correo a rociochavezmx@yahoo.com ;)

  • @jorge1869
    @jorge1869 Před 2 lety

    Sólido contenido. Yo estoy tratando de hacer este análisis con un millón de rows pero no he encontrado la forma de ver por ejemplo elementos adyacentes en un mismo clúster.

  • @RocioChavezCienciadeDatos

    Para llevar a cabo el pre-procesamiento de tus datos y poder obtener
    información confiable en tus análisis, visita mi lista de reproducción
    llamada Pre-procesamiento de Datos en Python
    czcams.com/play/PLUofJx5RUeFqAIVdzfnJayenwZFEGtCmg.html

  • @samuelceciliochucuyamamani561

    Excelente video! , tendrás uno de Análisis Factorial ?
    Saludos

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety +1

      Muchas gracias Samuel! Todavía no he creado un video acerca de análisis factorial.
      Te invito a visitar mi página rociochavezml.com, en la pestaña BLOG encontrarás los temas de este canal de forma más organizada ;)

  • @Estampadosconserigrafia
    @Estampadosconserigrafia Před 2 lety +1

    Como validar los cluster??

  • @madsanty8745
    @madsanty8745 Před 3 lety

    Genial video, como conozco las caracteristicas por las que han sido agrupadas de esa manera a la hora de explicarlo?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety

      Hola! En estos momentos no podría decirte el código que necesitarías utilizar, pero lo que podrías hacer es: Una vez que tengas la información incluyendo la columna del cluster en el que se ubicó cada individuo en el archivo csv, obtienes el promedio de cada una de las características de los individuos que forman cada uno de los clusters, es decir, obtienes los centroides de cada cluster. Para que sea más claro lo que te quiero decir, te recomiendo que veas el video Clustering Jerárquico Aglomerativo explicación matemática, que está en czcams.com/video/d_7pU9zqkfM/video.html. Ahí explico lo que son los centroides. Espero que esta información te sea de utilidad ;)

  • @LuisLopez-sc1qc
    @LuisLopez-sc1qc Před 10 měsíci

    Se puede hacer un grafico jertarquico como el de power bi en python

  • @ghumeresh7621
    @ghumeresh7621 Před 4 lety

    Hola Rocio. Alguna idea o ayua para realizar el : coeficiente de concordancia de Lin? seri de gran ayuda. muchas gracias

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 4 lety +2

      En cuanto tenga una oportunidad, investigo y te aviso. Si gustas puedes enviarme un correo a rociochavezmx@yahoo.com para que no se me olvide... jejeje

  • @dr.mariogonzalezsilva877

    Como puedo graficar los datos con los clusters?? muy buen video gracias!!

  • @Estampadosconserigrafia

    si tengo aprox 200000 registros y 10 variables seria factible ??

  • @alanhernandez7201
    @alanhernandez7201 Před 2 lety

    Hola! Se puede hacer un Cluster Jerarquico con variables cualitativas o categoricas en Python? Muchas gracias!

  • @libardochanchy8292
    @libardochanchy8292 Před 3 lety +1

    Rocio como se puede exportar a JPG o PNG el grafico del dendograma?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety

      Hola Libardo! Puedes utilizar el comando plt.savefig. Aquí te dejo una página en la que mencionan como hacerlo chartio.com/resources/tutorials/how-to-save-a-plot-to-a-file-using-matplotlib/ Espero que te sea de utilidad ;)

    • @libardochanchy8292
      @libardochanchy8292 Před 3 lety

      @@RocioChavezCienciadeDatos Rocio gracias, desafortunadamente no me a funcionado o no e podido.

  • @jonathanr.amadorarellano1021

    Hola, estaba siguiendo tus instrucciones, pero al momento de "Crear el dendrograma del clustering jerárquico" obtube un error que no he logrado corregir, podrías ayudarme?
    Clustering_Jerarquico = linkage(calificaciones, 'ward')
    NameError Traceback (most recent call last)
    in
    ----> 1 Clustering_Jerarquico=linkage(calificaciones, 'ward')
    NameError: name 'linkage' is not defined
    linkage es la impostación que se hizo al inicio de scipy.cluster.hierarchy
    Gracias.

  • @rodrigoperalta5778
    @rodrigoperalta5778 Před 3 lety

    Para poder normalizar o estandarizar los datos (Z), que código debo utilizar y donde. saludos

    • @nesivapama
      @nesivapama Před 3 lety +1

      Puedes utilizar parte del preprocessing data del paquete sklearn (SciKit-Learn), tienen algoritmos para normalizar y para estandarizar.

    • @jxccLP
      @jxccLP Před 3 lety

      from sklearn.preprocessing import StandardScaler

  • @libardochanchy8292
    @libardochanchy8292 Před 3 lety

    Como se puede realizar el mismo análisis con variables cualitativas?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety

      Hola Libardo! Podrías utilizar variables dummy y sobre ellas aplicar el clustering. Tengo un video acerca de las variables dummy aquí czcams.com/video/WBY9yrSznP4/video.html&ab_channel=RocioChavezCienciadeDatos

    • @libardochanchy8292
      @libardochanchy8292 Před 3 lety

      @@RocioChavezCienciadeDatos gracias excelente tutoríal.

  • @mariaarbelaez1501
    @mariaarbelaez1501 Před 2 lety

    Hola. ¿Es posible tener una clase contigo?

  • @javieramontecino1674
    @javieramontecino1674 Před 3 lety

    ola sabes que hice todo lo que pusiste en el video pero me sale el siguiente error = module 'scipy.cluster.hierarchy' has no attribute 'dendogram' qué hago :(

  • @RocioChavezCienciadeDatos

    Si estás interesado en adquirir alguno de mis cursos en línea, vista mi página web rociochavezml.com/cursos-en-linea/ ;)

  • @tomasgerzenstein4051
    @tomasgerzenstein4051 Před rokem

    Cuando abro el archivo en Excel me aparecen todos lo datos en distintas filas, pero en la misma columna. Alguien sabe por que?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před rokem +1

      Hola Tomas! Es un archivo de tipo csv, lo que significa que sus valores están separados por comas

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před rokem +1

      En este enlace puedes ver como abrirlo en Excel help.cliengo.com/hc/es/articles/360020203574-C%C3%B3mo-abrir-un-archivo-CSV-en-Excel

    • @tomasgerzenstein4051
      @tomasgerzenstein4051 Před rokem

      @@RocioChavezCienciadeDatos Muchas Gracias!

  • @nicolasvinuesa8276
    @nicolasvinuesa8276 Před 3 lety

    Rocio, no encuentro el error, quizas puedas aclararme:

    • @nicolasvinuesa8276
      @nicolasvinuesa8276 Před 3 lety

      File "", line 1
      Estudiantes=pd.read_csv('C:/Users/nvinu/Archivos en Jupiter/Bases de datos a Analizar/ejemplo estudiantes.csv', engine'python', index_col=0)#Con index_col indicamos que las filas tienen un nombre
      ^
      SyntaxError: invalid syntax

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety

      @@nicolasvinuesa8276 a simple vista, le falta un signo= entre engine y python. Otra cosa que puedes hacer es usar comillas dobles en lugar de sencillas. Espero que te sea de utilidad ;)

    • @nicolasvinuesa8276
      @nicolasvinuesa8276 Před 3 lety +1

      @@RocioChavezCienciadeDatos Muchisimas gracias por tu pronta respuesta.

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety

      @@nicolasvinuesa8276 Un gusto! Si tuvieras más dudas, me puedes enviar un correo a rociochavezmx@yahoo.com ;)

  • @MsBlasster
    @MsBlasster Před 2 lety

    Saludos Rocio! nos ayudas mucho con tus videos.
    Estoy haciendo el ejemplo, este es mi codigo
    Estudiantes=pd.read_csv('C:\Users\NANCY\Desktop\Rocio-Chavez-youtube-Files-master\Ejemplo Estudiantes.csv',
    engine='python',index_col=0)
    Me sale este error:
    File "", line 1
    Estudiantes=pd.read_csv('C:\Users\NANCY\Desktop\Rocio-Chavez-youtube-Files-master\Ejemplo Estudiantes.csv', engine='python',index_col=0)
    ^
    SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
    No entiendo cual es el error. Estaría muy agradecido si me ayudas.

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 2 lety

      Hola Rafael! Muchas gracias por tus palabras. Habría que cambiar las diagonales invertidas de la ruta en donde se encuentra el archivo por diagonales normales / Espero que esta información te sea de utilidad ;)