Pre-Procesamiento de Datos en Python: Variables Dummy (One-Hot Encoding)
Vložit
- čas přidán 16. 03. 2020
- Si te sirvió el vídeo y deseas apoyarme directamente, te dejo mi cuenta Paypal 😊:
www.paypal.com/paypalme/rocio...
Mis cursos en línea:
======================
- Aplica SQL al Mundo del Data Science
- Creación de Reportes Visuales con RMarkdown
rociochavezml.com/cursos-en-l...
Descarga los archivos que voy analizando en: github.com/rociochavezmx/Roci...
Blog "Aprende Ciencia de Datos con Rocío Chávez": rociochavezml.com/
Espero que mis videos te estén siendo de utilidad. Si gustas cooperar por medio de PayPal para poder seguir creando contenido, puedes hacerlo en la página de mi Blog
Como te comentaba en el video “Pre-Procesamiento de Datos en R: Variables Dummy”, existen muchos métodos de machine learning para los cuales es necesario convertir las variables categóricas en 1’s y 0’s.
La manera más sencilla de hacerlo es crear variables dummy (también llamadas ficticias), mediante un proceso conocido como one-hot encoding, el cual crea variables binarias, representando en cada fila la existencia de la característica con un “1” o su ausencia con un “0”.
En este video te mostraré cómo llevar a cabo este tipo de conversión de variables en python, además de tres maneras diferentes que existen para quitar columnas de un dataframe utilizando la función drop de pandas.
Los archivos que voy utilizando los puedes encontrar en:
github.com/rociochavezmx/Roci...
Algunos archivos no los encontrarás en el link, ya que se van creando al correr los códigos que vienen en los videos y estos se grabarán en tu computadora.
Si quieres aprender más acerca de este tipo de técnicas, suscríbete a mi canal, en donde estaré subiendo videos de Machine Learning, Estadística y de Matemáticas en general aplicadas a los negocios.
Si conoces a alguna persona a la que le pudiera ser de utilidad esta información, por favor ayúdame a compartirla. Te lo agradeceré muchísimo 😉
#machinelearning #datascience #statistics - Věda a technologie
Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos
Muchas gracias por compartir este contenido! La explicación está muy detallada en otros tutoriales dan por hecho que ya sabemos algunas funciones pero usted si explico bien. Gracias!
Gracias, muy clara explicación con paciencia y sin apuro.
Me agrada que utilices Notebooks para este tipo de videos. Lo deja todo muy claro y es más fácil de entender. Gracias!
Muchas gracias por este video, me parece un tema Exelente, muy poquitas personas están subiendo tan buen contenido como el que tú subes en CZcams, lo voy a compartir en todas mis redes Sociales.
Gracias y saludos
Es un placer Adalberto! Gracias por compartir ;)
Primera vez que veo un video de tu canal y me resulto muy util. Muchas gracias!
Muy buen vídeo, excelente explicación.
Excelente tutorial, gracias por compartir tus conocimientos.
Que buen video, explicado paso a paso. Suscrito para ver otros videos. Muchas gracias por tu ayuda,
Gracias por el vídeo. Es muy buena la información, todo muy bien explicado.
Genial el video, muy bien explicado todo! muchas gracias.
Excelente video, muchas gracias 😀
Muy agradecido excelente explicación! ahora entiendo mejor este contenido, Muchas Gracias!
muchas gracias por tus ejemplos son excelentes para ir aprendiendo
Es un placer ;)
Excelente explicación!!!
saludos! :)
excelente muchas gracias por este video... me suscribo.
Muchas gracias me sirvió demasiado
Buen video, muchas gracias.
Muchas gracias Daniel! ;)
Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas:
- Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de CZcams promueva mi contenido
- Dejándome un comentario
- Suscribiéndote a mi canal
- Compartiendo mi canal en tus redes sociales
- Presionando el ícono "Gracias" y haciendo una donación
Me puedes responder a esto porfa??? Estoy haciendo un modelo de clasificación, he pasado a dummys, luego veo q tengo 3 var numericas muy correlacionadas entre si y con la var objetivo. Es un problema en un modelo de clasificación la multicolinealidad?? Crei q si y al final he aplicado vif con una funcion recursiva q me dejo solo 1 de esas 3 variables, y luego aun eran muchas en total y aplique RFECV, se puede hacer esta combinación?? Vif y luego RFECV? Esta mal aplicar vif en un modelo de clasificación o debí aplicar solo RFECV aunke me deje 2 o las 3 de esas variables que tienen correlacion alta entre si y con la variable?
Hola! La multicolinealidad puede o no ser un problema, dependiendo del método de clasificación que vayas a aplicar. Necesitas investigar los supuestos a cumplir. Por ejemplo, en la regresión lineal sí es un problema, pero en los árboles de decisión no lo es. Si el modelo que vas a aplicar no se ve afectado por la multicolinealidad, sería suficiente con aplicar RFECV, ya que te dejará solamente las variables predictoras que más aporten al modelo. En caso de que sí se vea afectado por la multicolinealidad, considero que está bien que primeramente hayas llevado a cabo el VIF para quedarte solo con una variable de las que estaban altamente correlacionadas y después RFECV para eliminar algunas de las variables restantes
Para llevar a cabo el pre-procesamiento de tus datos y poder obtener
información confiable en tus análisis, visita mi lista de reproducción
llamada Pre-procesamiento de Datos en Python
czcams.com/play/PLUofJx5RUeFqAIVdzfnJayenwZFEGtCmg.html
BUen día Rocio, por alguna razon parece que onehotencoder no esta disponible en las nuevas versiones de Python ¿tienes alguna recomendacion?
@@jesusm1583 Hola Jesus! Quieres decir que la función pd.get_dummies dejó de funcionar en las nuevas versiones de Python? Seguiste los pasos de este video?
Excelente explicación, una consulta, si deseo realizar un análisis discriminante, pero utilizando variables categóricas, he leido que es posible, pero con variables dummy, pero como se los incluye en el modelo?
Hola Victor! Una vez que creaste las variables dummy, borras las variables originales y te quedas solo con las columnas que se crearon con los dummies
@@RocioChavezCienciadeDatos , excelente voy a probarlo, y que la mayoría de mis 20 variables son categóricas, crecerán en función de cada nivel y de cada variable, es extraño ya que se convertirá en un dataframe con muchas columnas
Una duda muy tonta: si en una variable categorica como 'sexo' , tengo solo valores 1(hombre) y 0 ( mujer) , tambien debo pasar esa columna a dummy?? O por ser binaria de dos valores, la dejamos asi sin pasarla????
Hola! Si vas a aplicar algún algoritmo en el que se calcula la similitud entre individuos, sí necesitas pasarla a numérica, ya que la similitud se calcula mediante fórmulas matemáticas. Si no deseas tener las dos columnas, puedes crear solamente una, por ejemplo "Hombre" y ahí ya sabrías que si tiene un 0, se trata de una mujer
Hola ese metodo se utiliza para predecir datos o cual es el metodo que se utiliza para predecir datos
Hola! Este método es anterior a la aplicación de los métodos exploratorios y de los predictivos. En mi canal hay un video llamado Métodos Exploratorios vs Métodos Predictivos | Algunas Técnicas de ML #shorts czcams.com/video/ecjgznDuvR4/video.html en donde puedes obtener más información acerca de estos
Hola, una consulta. Cuando aplico dummie, por ejemplo: dm_new=pd.get_dummies(new_df, columns=['Variable_category']) y luego lo imprimo, el Dataframe ya se encuentra con las columas dummie y no veo necesario concatenar. Saludos
Hola Iván! Me puedes decir qué versión de pandas estás utilizando, por favor? Muy probablemente la versión que tu tienes ya lleva a cabo la concatenación :)
@@RocioChavezCienciadeDatos Python 3.10.2
Me gustaría saber para que se hace este proceso y a que variables se le asigna 0 y a cuales 1, de que depende esto?
Hola Javier! Puedes ver el video "Variables Categóricas: Cuando Crear Variables Dummy y Cuando No?" que se encuentra en czcams.com/video/2a-ZJ15Bc6k/video.html
@@RocioChavezCienciadeDatos Muchas gracias por tu pronta respuesta, me gusta como explicas, soy programador backend con Python y ahora quiero incursionar en el mundo de los datos.
Disculpen como hago para que pandas me pueda leer un archivo .csv ya que he intentado de todo y me marca error no se si la ruta esta mal ya que copio toda la ruta. ya actualize python y reinstale anaconda. gracias de antemano!!!
Hola Pepe! Me puedes enviar el archivo que creaste en Python a rociochavezmx@yahoo.com, para ver si encuentro el error?
Puede que tu separador de lista no sea "," , esto depende de cada región en la que esté configurado tu pc. En chile por ejemplo el separador de lista por defecto es ";", entonces python no lee el csv que se crea. Esto se cambia en configuración de región/configuración adicional/separador de lista
@@felipeplaza402 disculpa se lo cambia en excel?
Si estás interesado en adquirir alguno de mis cursos en línea, vista mi página web rociochavezml.com/cursos-en-linea/ ;)