[K means] Análisis de Clúster en R y Rstudio. [Chupitos de R]

Pablo Vallejo Medina

zhlédnutí 58 630

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 3. 06. 2020
#clúster #kmedias #kmeans
¡¡¡ESTOY INTERPRETANDO AL REVES LA MATRIZ DE DISTANCIA, EL ROJO SERÍA MÁS DISTANCIA (DISIMILITUD), Y NO RELACIÓN, COMO DIGO YO EN EL MIN 3.50.!!!
Si te gusta mi contenido y quieres, puedes pagarme un café en: ko-fi.com/chupitosder así no me dormiré mientras hago los chupitos. Le daré a Alejandro su medio café.
En este chupito de R os explicaré como utilizar este algoritmo para toma de decisiones llamado K medias. Se trata de una técnica de análisis por conglomerado que permite tomar decisiones sobre cuántos grupos se divide nuestra muestra. K-medias es súper fácil de hacer y aquí os muestro cómo se hace en Rstudio de una forma sencilla. Cómo hacer clúster en R. Rstudio es un programa ideal para hacer estos análisis estadísticos.
Toda la sintaxis:
github.com/pableres/cluster/b...
Věda a technologie

Komentáře • 331

@stev0786 Před 6 měsíci
Muchas gracias por esta explicación.
Estoy haciendo el servico con físicos químicos y me pedían hacer un buen código para el análisis multivariable e hice unos con PCA, pero tiempo después conocí el análisis de cluster y no lo lograba entender.
Con este video que hiciste, me acabas de aclarar muchas dudas.
Ojalá vuelvas a subir más videos.
@user-nb3zq3ru7w Před 8 měsíci
una locura! excelente y muy didáctico el video, gracias!
@alejandrogutierrezvalverde3078 Před 3 lety ⁺¹⁴
Me gusto esta frase: "El R-studio te hace cosas mas complejas, sino nos quedaríamos con programas sencillitos como el SPSS"
@PabloVallejoMedina Před 3 lety
Sí, estoy de acuerdo contigo y conmigo ;)
@alboradadelgracioso1 Před 10 měsíci
Gracias por esta explicación, está sencilla y útil. Saludos desde Cali, Colombia
@albertogallegosrivera5934 Před 3 lety
Muchas gracias, en verdad este video me ayudo mucho para poder acomodar de mejor forma la base y poder trabajar con el análisis de cluster
@PabloVallejoMedina Před 3 lety
Genial, me alegra ;)
@josealejandrofausac Před 4 lety
Excelente!!! Muchas gracias por compartir. Me ha sido de gran utilidad
@PabloVallejoMedina Před 4 lety
Me alegra que sea útil;)
@j0oonaa Před 3 lety
Excelente video, muy claro toda la explicación. Gracias!
@PabloVallejoMedina Před 3 lety
Un placer ;)
@jorgeleonardosolisbanguera7003 Před 2 lety
Excelente vídeo. Entendí por fin este tema
@constanzavargas805 Před 2 lety
Muy buen vídeo!! Muchas gracias por compartir y explicar el proceso :)
@PabloVallejoMedina Před 2 lety
Muchas gracias!!!
@JorgeRamirez-hp5fl Před 2 lety
Señor le agradezco..... me ayudo mucho
@jairovx Před 3 lety
Increíble video! Había aprendido a hacer k-mean en python y quería saber cómo se hace en R, tu video es el mejor de todos los que he visto!! Genio!! Gracias por compartir!!
@PabloVallejoMedina Před 3 lety
Muchas gracias, Estos comentarios animan un montón!!
@adancastro2220 Před rokem
Gracias Hermano! excelente explicacion. Saludos de Ultramar 👍
@pedrolopezdelcastillo3069 Před 3 lety ⁺²
Muchas gracias, bien explicado, bien comprendido, saludos sigue así
@PabloVallejoMedina Před 3 lety
Muchas gracias ;)
@josejaramillo8596 Před 3 lety
Gracias por compartir su conocimiento, excelente video.
@PabloVallejoMedina Před 2 lety
Muchas gracias ;)
@deruan7625 Před 2 lety
Creo que por fin he entendido el Cluster Analysis, muy bien explicado!!
@PabloVallejoMedina Před 2 lety
Gracias, no era la intención jijijij.
@damianbahamondes7273 Před 2 lety
Excelente video!!, aprendí bastante, saludos desde Chile.
Suscriptor 5600! a seguir dándole caña
@PabloVallejoMedina Před 2 lety
Muchas gracias !!!
@ruloEcuador Před rokem
Excelente video, gracias por compartir tu conocimiento
@PabloVallejoMedina Před rokem
Un placer ;)
@elizabethvillavicenciobill6124 Před 4 lety
Excelente videos, gracias por el aporte!
@PabloVallejoMedina Před 4 lety
Muchas gracias ;)
@GuilleADC Před 3 lety
Excelente video ! Gracias Pablo.
@PabloVallejoMedina Před 3 lety
Muchas gracias!!!
@luiscardozo4810 Před 3 lety ⁺¹
Excelente, gracias por compartir la sintaxis
@PabloVallejoMedina Před 3 lety
Un placer.
@geolomera Před 2 lety
Muy bien explicado. Muchas gracias!
@PabloVallejoMedina Před 2 lety ⁺¹
Muchas gracias a ti por el comentario, un saludo ;)
@andres59565 Před 3 lety
Gracias man! me ha sido muy útil tu video tutorial. Un saludo desde Argentina.
@PabloVallejoMedina Před 3 lety
Genial, me alegra mucho. Creo que el canal se va haciendo conocido últimamente por Argentina ;)
@BeaMorgado Před 3 lety ⁺¹
Ahaha gracias, creo que te amo. Fuiste de gran ayuda :)
@PabloVallejoMedina Před 3 lety
Muchas gracias!!!
@lorenzorivas5788 Před 2 lety
El video es excelente y didáctico
@luisatorres7193 Před 4 lety ⁺⁹
Me ha encantado! Lo explicas muy muy bien. Cuando puedas uno de ACP😊
@PabloVallejoMedina Před 4 lety ⁺³
Hola, no soy muy fan yo del ACP, pero ya sois varios los que lo habéis pedido. De todas formas hay uno que es de análisis factorial exploratorio... czcams.com/video/V0KOVwoU9gk/video.html
@maribeldelgado4133 Před 3 lety
Saludos desde México!! Que gran video!!!
@PabloVallejoMedina Před 3 lety
Muchas gracias!!!
@wildonrp Před 3 lety
Excelente, felicitaciones y gracias
@PabloVallejoMedina Před 3 lety
Un placer ;)
@MS-BeatrizBosques Před 2 lety
Super bien explicado! Mil gracias
@PabloVallejoMedina Před 2 lety
Muchas gracias!!
@lucasconte1324 Před 3 lety
Excelente, me clarifico mucho el uso de clusters.
@PabloVallejoMedina Před 3 lety
Genial, me alegra ;)
@guadalupevalenzuela2044 Před 4 lety ⁺¹
Súper claro, me ha servido mucho!!! Muy buena explicación. Ojalá puedas hacer uno del algoritmo de Kamila :)
@PabloVallejoMedina Před 4 lety
Hola, muchas gracias. No creo que me meta con cami. Nunca lo he empleado y no suelo hacer chupitos de técnicas que conozco poco ;)
@2u15A Před 8 měsíci
genio. gracias
@mexa31416 Před 3 lety
Está genial tu video. Saludos!
@PabloVallejoMedina Před 3 lety
Muchas gracias!!!
@fabianfelipefernandezdaza8460 Před 2 lety
Muchas gracias, excelente
@PabloVallejoMedina Před 2 lety
Un placer ;)
@PhDPA Před 3 lety
Excelente Pablo muchas gracias por el video estoy estudiante un master en Data Science y me sirvió mucho tu video!!
@PabloVallejoMedina Před 3 lety
Súper, me alegra ;)
@LACARArock Před 3 lety ⁺²
Llevo 2 años aprendiendo R y el logaritmo de CZcams no se había dado cuenta de lo bien que me habrías venido... jaja
Buen trabajo!
@PabloVallejoMedina Před 3 lety
jajaj, hace dos años el canal no existía ;). Así que no está tan mal.
@joserds25 Před 4 lety
Gran vídeo muchas gracias por tus vídeos
@PabloVallejoMedina Před 4 lety
Muchas gracias a todos por participar
@domenech1997 Před 3 lety
Un video genial, me ha ayudado muchisimo
@PabloVallejoMedina Před 3 lety
Un placer ;)
@rogerlmd Před 4 lety ⁺¹
Excelente!!!
@PabloVallejoMedina Před 4 lety
Un placer ;)
@edwarurquizazapata3237 Před 2 lety
Excelente, muy claro.
@PabloVallejoMedina Před 2 lety
Muchas gracias ;)
@gnacho98 Před 3 lety
excelente, muy didactico, te veo desde argentina!
@PabloVallejoMedina Před 3 lety
Muchas gracias!!!. Saludos desde Colombia.
@AntonellaGiglioDigital Před rokem ⁺¹
Muy clara tu explicación, estoy aprendiendo R para clusterizar. Tengo una consulta, se puede descargar la nueva tabla con los datos de cluster que se crean? Mi intención es poder individualizar cada usuario respecto al algoritmo que pertenece para después poder realizar acciones segmentadas. En caso de qué se pueda, cómo podría obtener tal base?
@manueljleon2181 Před 2 lety
Excelente Video mi pana, saludos!!
@PabloVallejoMedina Před 2 lety
Saludos tío!
@danielgodoy9793 Před 3 lety
Muy bueno, gracias!
@PabloVallejoMedina Před 3 lety
De nada!!!!
@cristianpalacios8773 Před 3 lety
Muy bueno Pablo, fue de gran ayuda.
@PabloVallejoMedina Před 3 lety
Un placer ;)
@jessicalopezcasas2290 Před rokem
Excelente explicación...una suscriptora más
@PabloVallejoMedina Před rokem
Muchas gracias!!!
@rubenpizarrogurrola3566 Před 4 lety
Excelente, este tipo de videos
@PabloVallejoMedina Před 4 lety
Muchas gracias ;)
@elqvixote1861 Před 3 lety
Que buen canal. R es espectacular.
@PabloVallejoMedina Před 3 lety
Muchas gracias!!!
@samirricardoneme-chaves9086 Před 4 lety
Tremendo chupito, muy ilustrativo.... Extrañe el ostiaaaaa jejejejeje
@PabloVallejoMedina Před 4 lety ⁺¹
El canal va cambiando un poco ;)
@leiretorices5014 Před 3 lety
Gracias por el vídeo!:)
@PabloVallejoMedina Před 3 lety
De nada!!
@leonardosotoalvarez1156 Před 6 měsíci
Hola Pablo, muy buen video, me encanto!!. Muchas Gracias!!. Solo tengo una duda, una ves definidos los clúster, como puedo ir asignado clúster a posteriores observaciones entrando sin tener que realizar todo el proceso de clusterización nuevamente.
@ayoubben109 Před rokem
Buenas, solo comentarte que enhorabuena por tu capacidad explicativa. Buscaba algún video para conocer los fundamentos del clustering en R, y saber para qué se usa exactamente y las funciones disponibles, y la verdad que en 20 min me he enterado de todo sin tener que parar el video (algo complicado de lograr cuando se tratan tecnicismos). Así que nada, gracias.
@PabloVallejoMedina Před rokem ⁺¹
Un placer, no entro mucho en las matemáticas, pero me alegra que te sirviera de ayuda.
@GaboMoya Před 6 měsíci
Existe alguna forma de utilizar corplot para poder ver como se correlacionan las variables con cada cluster?
@kelvindossantosalves4262 Před 10 měsíci
Hola Pablo, primero queria felicitarte por tu trabajo, es un trabajo muy bonito.
me gustaría hacerte una pregunta. Yo estudio mezclas de partículas y me gustaría hacerte una pregunta. Yo tengo una muestra de partículas llamada A, donde he identificados los clusters 1, 2 y 3. Por otro lado tengo una muestra llamada B, en este caso B está formada por partículas similares a de la muestra A. Me gustaría saber si puedo aplicar las muestra B a mi modelo de cluster de A para saber cuantas muestras de B se encajan en alguno de los cluster observados en A.
un saludo
@tyrahstipe Před 5 měsíci
Muy buena explicación, gracias. Entiendo que gather es lo que ahora es pivot_longer?
@JOHANNEMILIANOOYOLAMASLUCAN Před rokem
Una consulta, por qué cuando ejecuto los comandos para estimar el número de clusters me sale error? Me sale este mensaje Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
@sebastianbustamantemanriqu7386 Před 4 lety
Hola, excelente!!! Cómo se haría para una matriz de presencia ausencia con Jaccard?? Dónde tendría que incluir este método de Jaccard??
@PabloVallejoMedina Před 4 lety
Umhh muy buena pregunta. Creo que sería algo como...
Jmatrix
@diegodiazmilanes3732 Před 2 lety
Muchas gracias por tu video. Ha sido muy útil y didáctico (como todo tu canal). ¿Podrías hacer un video o dar alguna referencia (artículo o pagina web sobre análisis cluster bietapico en R)? Específicamente que pueda integrar variables categóricas como lo hace el algoritmo de SPSS.
@PabloVallejoMedina Před 2 lety
Hola, la verdad no tengo esos conocimientos. En esta ocasión no puedo ayudar ;)
@diegodiazmilanes3732 Před 2 lety
@@PabloVallejoMedina Mil gracias por responder tan rápido. Igualmente, gracias por tu labor y espero que tu canal no deje de crecer.
@halomasterk Před 3 lety
Me encanto
@PabloVallejoMedina Před 3 lety
Muchas gracias ;)
@davidtrash006 Před 2 lety
¡Gracias!
@PabloVallejoMedina Před 2 lety
Un placer, y muchas gracias por la donación ;)!!
@diegomayusa5528 Před 3 lety
Eres el mejor bro
@PabloVallejoMedina Před 3 lety
Muchas gracias ;)
@miguelfranciscogalvancabel6402 Před 3 lety
Muchas gracias por este video, Pablo. Quedó todo muy claro. Me surge una consulta a partir de este tema, quiero realizar un análisis de clúster con dos o tres variables categóricas (Nivel socioeconómico y proyección de estudios). ¿Qué tipo de análisis de clúster recomendarías en estos casos?
Saludos, gracias por el apoyo!!
@PabloVallejoMedina Před 3 lety
Hola, depende un poco de tus datos, pero puedes utilizar RObust Clustering using linKs, o si son mixtos PAM te puede servir, tengo un chupito de ese también czcams.com/video/zyixcd_WKUI/video.html Pero vaya , hay diferentes alternativas.
@alvita7466 Před 2 lety
Hola, felicidades, me encanta como explicas. pero me surge una duda, ojala puedas ayudarme.
en la línea de resnumclust= alphaBeale) && (!foundBeale)) { :
missing value where TRUE/FALSE needed
In addition: Warning messages:
1: In pf(beale, pp, df2) : NaNs produced
2: In pf(beale, pp, df2) : NaNs produced
3: In log(det(P)/det(W)) : NaNs produced
4: In log(det(P)/det(W)) : NaNs produced
5: In log(det(P)/det(W)) : NaNs produced
6: In log(det(P)/det(W)) : NaNs produced
7: In log(det(P)/det(W)) : NaNs produced
8: In log(det(P)/det(W)) : NaNs produced
9: In log(det(P)/det(W)) : NaNs produced
10: In pf(beale, pp, df2) : NaNs produced
No entiendo que es? podrías ayudarme?
@kevinsorzano5088 Před 2 lety
Eres un crack
@PabloVallejoMedina Před 2 lety
Muchas gracias ;)
@estefaniarellanocontreras2474 Před 2 lety
Hola quisiera agregarle a la función fviz_cluster los colores no que me los genere aleatoria mente como seria?
@PabloVallejoMedina Před 2 lety
Hola
fviz_cluster(res_hcpc, ) +
scale_colour_manual(values = c("darkgreen", "orange", "red")) +
scale_fill_manual(values = c("darkgreen", "orange", "red"))
@dhev1987 Před 4 lety ⁺¹
Estimado Pablo, gracias por tus videos y generosidad intelectual. Te quería hacer una consulta, cada vez que quiero hacer un análsis cluster no me permite desarrollar el código con las etiquetas de la base, siempre debo quitar la columna y luego en los gráfico las etiquetas salen con los id de cada línea. ¿Tal vez tu sabes cómo solucionar eso?
@PabloVallejoMedina Před 4 lety ⁺¹
Hola David, ya te contesté en Facebook. Pero lo voy a hacer también por aquí. Creo que la función
dfitems
Před 4 lety
La intro del mango hizo mucha falta! Muy buen video
@PabloVallejoMedina Před 4 lety
Solo tenía un platano y dos naranjas. No quería hacer un cluster con eso ;)
Před 4 lety ⁺¹
@@PabloVallejoMedina ja muy bien!
@marisagalarz Před 3 lety
Uno de los mejores vídeos respecto a K-Medias
@PabloVallejoMedina Před 3 lety
muchas gracias!!
@marisagalarz Před 3 lety
@@PabloVallejoMedina Tengo la siguiente consulta: He tratado de simular el dataset de USArrests para aplicar lo mismo a otros datos. Sin embargo, no sé como manejar la columna de Estado. Creé un csv con 5 columnas, la primera corresponde al estado. Sin embargo, al leer el csv se agrega el rowname con un número de fila y no con el nombre del estado. Es decir, el df generado directamente desde el archivo USArrests es distinto al csv que he creado. No sé como manejar la columna de estado para que sea considerada como rowname. Muchas gracias por tu tiempo y la gran ayuda.
@PabloVallejoMedina Před 3 lety
@@marisagalarz Hola María, podrías utilizar la función Rowtocolumname. En el video de clustar con la base de marvel muestro como se hace.
@marisagalarz Před 3 lety
@@PabloVallejoMedina Hola Pablo. Agradezco tu gran ayuda. Tienes los mejores vídeos.
@PabloVallejoMedina Před 3 lety
@@marisagalarz Muchas gracias!!
@nept4ne Před 4 lety
Hola Pablo!. Gracias por la clase.
Tengo una duda, realicé el procedimiento en base a un diseño experimental en agronomía de bloques completamente al azar en el cultivo de papa y los agrupé por bloques (o repeticiones que fueron 3).
Obtuve el gráfico pero no se como interpretarlo, me podrías ayudar por favor.
Gracias de antemano.
Saludos de Perú.
@PabloVallejoMedina Před 4 lety ⁺¹
En la parte final del video le doy sentido a los clústers quizá puedas hacer lo mismo ;)
@andreshernandocerquerameji2148 Před 3 lety
Gracias.
@PabloVallejoMedina Před 3 lety
Un placer ;)
@juliogomez5224 Před 3 lety
Hola Pablo. Felicidades por tu excelente trabajo con estos vídeos. Tengo una consulta, podrías explicarme que es el (nstart = 25), no lo entiendo muy bien. Además, que me recomiendas al trabajar con 1125 observaciones diferentes, al hacer el cluster, uno se entiende perfectamente (pocas palabras), pero el segundo no se observa nada, debido al gran volumen de palabras que contiene. Saludos!
@PabloVallejoMedina Před 3 lety ⁺¹
El K-means es un algoritmo supervisado. Nosotros le tenemos que ir indicando ciertos parámetros. El te va a escoger x puntos, uno por cada cluster que le hayamos dicho, y va a por ejemplo incluir el vecino más cercano en ese cluster. Esos x puntos se eligen al azar. con el nstart le decimos cuantas iteraciones va a hacer. En función de otros parámetros te elegirá los clúster que mejor optimizados estén.
Respecto a lo segundo a mi tmb me pasa en mi otro video de kmeans (marvel). hay una opción que te saca flechitas y te dice los nombres más claramente, pero sinceramente no ayuda mucho. Eso es lo único que conozco. De todas formas no siempre se puede sacar un listado si hicera falta.
@andrealara4490 Před 3 lety
Cuándo subes uno de PLS?
Excelente explicación. Gracias
@PabloVallejoMedina Před 3 lety ⁺¹
Hola muchas gracias, a ver si el covid me permite volver a grabar pronto. ;)
@mariagranitto2789 Před 3 lety
Muchas gracias Pablo por tu aporte! te hago una consulta, en mi caso tengo mi matriz cargada como csv en R. Cada columna es un sitio de muestreo y cada fila es una sp. Quiero hacer un cluster para ver que sitios son mas similares entre si en relacion a la comunidad de spp de algas. los datos que tengo son abundancias pero hay muchas celdas vacias (con cero) porque no todas las sp fueron encontradas en todos los sitios. Este analisis de cluster que vos mostraste es adecuado para estos datos? Saludos y muchas gracias,
@PabloVallejoMedina Před 3 lety
Hola, sí creo que no habría problema. Prueba a ver cómo te va ;)
@aronladerag4759 Před 3 lety
no se me ejecuta la función "fviz_nbcluster()" y ya instale el paquete factoextra. Usted me puede ayudar. Gracias
@PabloVallejoMedina Před 3 lety
Claro, Aron. La tienes mal escrita: fviz_nbclust()
@WITHHARDMAN Před rokem ⁺¹
Una pregunta, para bases de satos de 1500 filas y 22 columnas, como puedes hacerlo. Por que tengo agrupaciones en columnas en variables en binarias, pero no se puede representar bien puesto que hay 1500 filas ....y no se ni por donde cogerlo, los ejes ni se ven, osea en los ejes de mi base de datos no se aprecian puesto que son los clientes, por que estamos estudiando la base de un banco de Portugal.
@PabloVallejoMedina Před rokem
Hola, no es una base muy grande por lo que no debería haber un gran problema. Pero, para empezar, yo nunca elegiría K-means para hacer un cluster de variables dicotómicas. No sé qué variables son, ni cuál es tu objetivo, pero me replantearía si este análisis cumple con lo necesario. Saludos!!
@Javigarcia222 Před 4 lety
Una pregunta¿Cuando se hacen los clusters todas las variables esas tienen la misma importancia? Quiero decir lo mismo una variable como los asesinatos es mucho más relevante a la hora de tomar decisiones que pongamos los asaltos.¿hay alguna forma de asignar mayor peso a variables o todas tienen el mismo?
@PabloVallejoMedina Před 4 lety ⁺²
Hola, los clúster son para clasificar variables o casos. No son ponderables pues lo único que te dicen es que Nebraska es pequeña, con pocos asesinatos, violaciones y robos como otros XXX estados. Si quieres los puedes agrupar en un clúster. POr otro lado, nuevo méxico es una porquería como estos otros estados.... XXXX. Si después quisieras predecir calidad de vida a partir de estas variables, la propia regresión te ponderará la importancia de las VD.
@aronladerag4759 Před 3 lety
Buenas, estimado una pregunta, la data USArrest tiene 4 variables numéricas y 1 categórica?. Lo pregunto porque el srt y y el head siempre me dice que hay 4 variables, entonces que sucede con la variable ESTADOS?
@PabloVallejoMedina Před 3 lety
Hola, Estados no es una variable. Es el nombre de las filas. ;)
@jessicapaolaamayatovar6169 Před 3 lety
Buenas noches Pablo! Tengo una duda, es que me mandan hacer una regresión por clusters y la verdad no tengo idea, tu me podrías decir como lo hago? o en donde encuentro información por favor!
@PabloVallejoMedina Před 3 lety
Será una regresión jerárquica?
@lorenzorivas5788 Před rokem
Es genial como todos los videos. Una pregunta: una vez que he generado los clusters a partir de mi data frame, puedo construir un modelo de regresión a partir de ellos?
Muchas gracias
@PabloVallejoMedina Před rokem ⁺¹
Sí, claro puedes hacer un modelo por cluster, o emplear la variable como predictora o dependiente (pero adaptado el modelo a variables politómicas).
@lorenzorivas5788 Před rokem
@@PabloVallejoMedina perfecto muchas gracias y enhorabuena por los videos
@jaasjaas9039 Před 2 lety
pablo! tengo una super duda que data frame se pone en el codigo de NbClust() ? el data frame con los datos estandarizados o no estandarizados? ya que no se si colocar en esa funcion el data frame con los datos sin ser estandarizados, porque como en esa funcion se indica que la distancia es euclidea eso no haria que ese data frame que no esta estandarizado se estandarice?
@PabloVallejoMedina Před 2 lety
Hola, el que quieres clustear. Si es normalizado o no depende de los datos.
@B3NORX2 Před 3 lety
Tengo una duda, esta rutina se puede hacer con dataframes con variables mixtas? o se puede hacer una matriz de disimilitud de estas variables mixtas (p.ej. usando gower) y una vez obtenida la matriz se puede hacer la rutina de NBclust ? Saludos desde Mexico!
@PabloVallejoMedina Před 3 lety
Hola yo utilizaría un Kmodes o incluso un Kmedoids
@miancava7552 Před 3 lety
Tengo un conjunto de datos Gigante muy difícil de cargar en R, ¿ es recomendable realizar un proceso de clustering con una muestra ?
@PabloVallejoMedina Před 3 lety ⁺¹
Si no te colapsa adelante ;)
@giovannicamposromero8857 Před 2 lety
Estimado cuando importo una data local me sale el siguiente error al aplicar scale a la df:
df
@PabloVallejoMedina Před 2 lety ⁺¹
Hola, debes de tener variables no numéricas. ëchale un ojo al otro video de cluster con marvel que tengo y ahí te lo explico. Un saludo.
@megacubo Před 3 lety
Muchas gracias. Excelente. Tengo dos preguntas 1)Trabajo en R versión 4.0.2 y me dice que no hay el paquete fviz_nbclust para esta versión. Es posible adaptar el paquete de otra versíon a la versión actual?.. Otra pregunta, 2) ¿cómo se puede hacer para quitar las etiquetas en los dibujos (tengo 600 datos y no se puede apreciar la distribución y configuración de clusters?. Muchas gracias
@PabloVallejoMedina Před 3 lety ⁺¹
Hola lo primero debe ser un Warning no un error. Con respecto a lo segundo en el argumento de fviz ponle label = "none"
@SamuelPLeon Před 4 lety ⁺¹
Muchas gracias por el vídeo Pablo. Una pregunta, he usado el análisis de clúster para hacer perfiles de las puntuaciones de una escala y así usarlos como variables categóricas moduladores en una regresión. El tema es que nunca he hecho este tipo de análisis y no se bien como reportarlo en un paper en estilo apa. Sabrías algún documento, manual, o incluso algún paper tuyo que usar de guía? Gracias
@PabloVallejoMedina Před 4 lety ⁺¹
Hola yo nunca he pasado de cluster a regresión. Si a Anova. Si quieres échale un ojo a este paper que hacen algo parecido:
Colombian people’s willingness to forgive offenses against women perpetrated during the armed conflict... www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-05342019000300226
@SamuelPLeon Před 4 lety
@@PabloVallejoMedina Gracias Pablo. Si lo piensas, Anova y GLM vienen a ser lo mismo. El año pasado, un estudio implementado en r demostraba que (casi) todos los análisis al final son Linear models. Te dejo el link por si lo desconocías:
lindeloev.github.io/tests-as-linear/
@ryvysaint34 Před 3 lety
Muy buena explicación. En el ejercicio que yo tengo los países está como un atributo pero al momento de hacer kmeans tengo que eliminar esa columna y al momento de graficar no sé cómo poner nuevamente los nombres de los países y no me salgan números por los nombres.
@PabloVallejoMedina Před 3 lety
Hola, puedes crear una variable normal con las etiquetas que desees y luego pasarla a rownames así:
dfitems
@ryvysaint34 Před 3 lety
@@PabloVallejoMedina gracias lo voy a intentar
@marceloaguirre3709 Před rokem
Hola ! muy buenos tus videos. Ya me suscribí.
Cuando quiero utilizar la función fviz_nbclust(resnumclust) me sale el siguiente error = Error in if (class(best_nc) == "numeric") print(best_nc) else if (class(best_nc) == : the condition has length > 1
Como podría solucionarlo ?
Saludos
@PabloVallejoMedina Před rokem
Parece que es un error de la función, en algunos casos extraños da ese error. Aquí tienes una posible solución, pero no va a ser fácil. stackoverflow.com/questions/72075707/rstudio-error-with-the-fviz-nbclust-function
@SkoriaD Před 3 lety
Hola Pablo, saludos desde Colombia. Tengo SO Ubuntu 20.04 R Studio Versión 4.0.2 y al instalar el paquete NbClust me dice que no esta disponible para mi versión de R; alguna recomendación?? Pdt: Excelente explicación!!!
@PabloVallejoMedina Před 3 lety
No te preocupes es un Warning, no un error. Puedes seguir adelante sin problema.
@jonathangonzalezrosales1898 Před 3 lety
Disculpa cuando cargue los paquetes me aparece el warning: "no hay un paquete llamado..." solo para el paquete tidyverse y factoextra, saben si en la versión mas actual cambiaron de nombre o de que forma podría solucionarlo? intente buscarlo por medio del administrador de paquete sin embargo tampoco aparece.
Gracias de antemano
@PabloVallejoMedina Před 3 lety
Hola, no no debería ser problema. Asegúrate de estar escribiéndolos bien. respetando las mayúsculas ;)
@jonathangonzalezrosales1898 Před 3 lety
@@PabloVallejoMedina Muchas gracias, de echo al parecer tenia conflictos con el SO, ya que estaba trabajando en Linux Ubuntu pero al cambiarme a Windows no tuve ningun problema. Por cierto muy interesantes tus videos gracias nuevamente!
@judaponce6528 Před rokem
Hola, hay alguna manera de sacar un resumen estadistico por cada cluster?
Gracias
@PabloVallejoMedina Před rokem
Creo que lo hago al final del video, ¿no?
@rodrigobarahona6928 Před 2 měsíci
Hola Pablo, cómo estás? te escribo desde Chile. Quisiera consultarte sobre un error que me arroja el R con tu script: "Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)". He probado de todas las formas y no me resulta. Quizás un error en el csv? coloqué las localidades a comparar en columnas.
@PabloVallejoMedina Před 2 měsíci
Puedes mandarme una foto de la base de datos.
@pereznebra Před 3 lety
Estimado Pablo, queria preguntar una cosa a respecto de los clusters. He visto que usted a partir del minuto 11 más o menos explica y incluye una "palette" de colores. Lo que todavía no logré hacer es tener los clusters 1, 2 , 3 y 4 de colores standard. A ver si me explico: Yo quería hacer comparaciones entre clusters con variables diferentes, así que el cluster más alto tendria un color y el más bajo de otro. Resulta que el R decide los colores y todavía no he visto como. Qué hice, llevé al ggplot2 y lo hice ahí, pero quería saber si hay como hacerlo directamente. Gracias.
@PabloVallejoMedina Před 3 lety
Hola Amalía no se con que función pero los colores los puedes personalizar. De hecho tengo un chupito reciente de paletas de colores donde explico cómo.
@pastorsoto1298 Před 3 lety
Excelente video. Siempre que trabjas con datos lo estandarizas o solo es por este caso en particular? Saludos!
@PabloVallejoMedina Před 3 lety
Hola pastor. Cuando la escala de medida difiere entre variables se recomienda estandarizar. Si todas van de 0 a 100 por ejemplo no seria tan necesario. Pero aun mejor sería mirar si las varianzas sean iguales o distintas... si es el último caso toca estandarizar. 😄
@pastorsoto1298 Před 3 lety
@@PabloVallejoMedina Estandarizar es apropiado en todos los casos? o existen situaciones en las que no es apropiado y puede dar resultados erroneos? Para hacer modelos predictivos (de regresion) estandarizarias siempre? Gracias por tu respuesta!
@PabloVallejoMedina Před 3 lety
@@pastorsoto1298 Hola, es decir, si tus variables tienen varianzas muy desiguales entre ellas. O directamente las unidades de medida son diferentes (por ejemplo millones de dólares en petróleo y PIB) Deberías estandarizarla. En el caso que fueran las mimas unidades (o tuvieran varianzas similares) como ratio de covid por países, entonces no sería necesario. No lo hago como norma general, sino en función de los datos.
@arielhernanreal2722 Před 4 lety
Hola, quisiera saber si en alguno de tus videos puedo ver cómo se realiza un gráfico Silueta para los cluster obtenidos con el método de K-means?
@PabloVallejoMedina Před 4 lety
Creo que lo hago al final ¿no?
@arielhernanreal2722 Před 4 lety
@@PabloVallejoMedina Hola Pablo, no es lo que me están pidiendo realizar. Pero pude construirlo finalmente. Gracias por responderme.
@PabloVallejoMedina Před 4 lety
@@arielhernanreal2722 me alegra ;I
@monsesantillan3012 Před 6 měsíci
Muy buen video, se puede hacer que aparezca como labels otra columna? Y adicionalmente, puede aparecer en el gráfico algún otro dato, como las medias o algo, encima de cada grupo? Gracias por tu respuesta, saludos!
@PabloVallejoMedina Před 6 měsíci ⁺¹
Hola Monse, sí todo se puede. Lo de las etiquetas lo tienes en el video de cluster y super héroes. Y lo de las medias, lo puedes hacer programando en ggplot, o hacerlo una vez exportado. Lo puedes ver en mi video de anotaciones fácil en ggplot. Un saludo!!
@monsesantillan3012 Před 6 měsíci
Muchas gracias! Saludos
@emilianoguisamonde2498 Před 3 lety
Buenos días Pablo, como estas? Te hago una pregunta, cuando quiero usar la función fviz_cluster para plotear como también la función fviz_nbcluster para conocer el numero de clusters, me salta el siguiente error:
"Error in loadNamespace(j = 0.7.4 is required"
@PabloVallejoMedina Před 3 lety ⁺¹
actualiza broom ;)
@luisangelbarrera-guzman7463 Před 4 lety
Hola Pablo que buen vídeo has hecho. A partir del minuto 11:18 sale dibujado el primer gráfico de clusters, en el eje x dice "Dim1 62%" y en el eje y "Dim2 24.7%". Me podrías decir de favor que significan esos porcentajes
@PabloVallejoMedina Před 4 lety
Hola, es el % de variabilidad explicada por cada dimensión. Me alegro que te guste.
@luisangelbarrera-guzman7463 Před 4 lety
@@PabloVallejoMedina Muchas gracias Pablo, no sé si sea parecido al de análisis de componentes principales. Saludos desde México.
@agustingodoy243 Před 4 lety
Hola, muy buen vídeo, pero tengo una consulta. Yo quería hacer un análisis parecido de una tabla que tengo en formato .xlsx, ¿Como puedo hacer para importarla de forma que me siga marcando la primero columna como texto? De la misma forma que en el vídeo esta el dataframe "df" (y luego la matriz) con alabama, alaska, etc. como primer columna
@PabloVallejoMedina Před 4 lety ⁺¹
Hola, creo que la función
dfitems
@agustingodoy243 Před 4 lety
@@PabloVallejoMedina Sirvió, muchas gracias
@PabloVallejoMedina Před 4 lety ⁺¹
@@agustingodoy243 Tmb me pasó a mi ;)
@geomensurainteligente Před rokem
Estimado. Donde puedo descargar la base de datos, que no puedo encontrar dicho link?
@PabloVallejoMedina Před rokem
USAarest está itegrada en R, si sigues los pasos de mi sintaxis te aparecerá sola ;)
@ivandariopaezchavez7506 Před 3 lety
porque al momento de sacar el numero de cluster me aparece esto:
Error in do_one(nmeth) :
NA/NaN/Inf en llamada a una función externa (arg 1)
Además: Warning messages:
1: In stats::dist(x) : NAs introducidos por coerción
2: In storage.mode(x)
@PabloVallejoMedina Před 3 lety
pareciera que tienens NA en tu data frame, no?
@luisangelbarrera-guzman7463 Před 4 lety
Hola buen video, solo me gustaría saber de favor como se la hace en caso de que mi primera columna tenga las etiquetas , en tu ejemplo tienes nombres de ciudades, en el mio tengo nombres de especies. Saludos.
@PabloVallejoMedina Před 4 lety
Hola creo que con esta sintaxis estás listo;)
dfitems
@luisangelbarrera-guzman7463 Před 4 lety
@@PabloVallejoMedina Hola, vale vale, voy a intentarlo. Muchas gracias. Saludos desde México.

Další v pořadí

Automatické přehrávání

[k medoids] Clúster PAM robusto en R y Rstudio [Chupito de R]