Pre-Procesamiento de Datos en Python: Variables Dummy (One-Hot Encoding)

Sdílet
Vložit
  • čas přidán 16. 03. 2020
  • Si te sirvió el vídeo y deseas apoyarme directamente, te dejo mi cuenta Paypal 😊:
    www.paypal.com/paypalme/rocio...
    Mis cursos en línea:
    ======================
    - Aplica SQL al Mundo del Data Science
    - Creación de Reportes Visuales con RMarkdown
    rociochavezml.com/cursos-en-l...
    Descarga los archivos que voy analizando en: github.com/rociochavezmx/Roci...
    Blog "Aprende Ciencia de Datos con Rocío Chávez": rociochavezml.com/
    Espero que mis videos te estén siendo de utilidad. Si gustas cooperar por medio de PayPal para poder seguir creando contenido, puedes hacerlo en la página de mi Blog
    Como te comentaba en el video “Pre-Procesamiento de Datos en R: Variables Dummy”, existen muchos métodos de machine learning para los cuales es necesario convertir las variables categóricas en 1’s y 0’s.
    La manera más sencilla de hacerlo es crear variables dummy (también llamadas ficticias), mediante un proceso conocido como one-hot encoding, el cual crea variables binarias, representando en cada fila la existencia de la característica con un “1” o su ausencia con un “0”.
    En este video te mostraré cómo llevar a cabo este tipo de conversión de variables en python, además de tres maneras diferentes que existen para quitar columnas de un dataframe utilizando la función drop de pandas.
    Los archivos que voy utilizando los puedes encontrar en:
    github.com/rociochavezmx/Roci...
    Algunos archivos no los encontrarás en el link, ya que se van creando al correr los códigos que vienen en los videos y estos se grabarán en tu computadora.
    Si quieres aprender más acerca de este tipo de técnicas, suscríbete a mi canal, en donde estaré subiendo videos de Machine Learning, Estadística y de Matemáticas en general aplicadas a los negocios.
    Si conoces a alguna persona a la que le pudiera ser de utilidad esta información, por favor ayúdame a compartirla. Te lo agradeceré muchísimo 😉
    #machinelearning #datascience #statistics
  • Věda a technologie

Komentáře • 45

  • @RocioChavezCienciadeDatos

    Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos

  • @LordRuthven83
    @LordRuthven83 Před 2 lety +1

    Muchas gracias por compartir este contenido! La explicación está muy detallada en otros tutoriales dan por hecho que ya sabemos algunas funciones pero usted si explico bien. Gracias!

  • @rodrigoayarza9397
    @rodrigoayarza9397 Před 3 lety +1

    Gracias, muy clara explicación con paciencia y sin apuro.

  • @cg8770
    @cg8770 Před 4 lety +1

    Me agrada que utilices Notebooks para este tipo de videos. Lo deja todo muy claro y es más fácil de entender. Gracias!

  • @tensoescalar1
    @tensoescalar1 Před 4 lety +5

    Muchas gracias por este video, me parece un tema Exelente, muy poquitas personas están subiendo tan buen contenido como el que tú subes en CZcams, lo voy a compartir en todas mis redes Sociales.
    Gracias y saludos

  • @carlosdac55
    @carlosdac55 Před 2 lety

    Primera vez que veo un video de tu canal y me resulto muy util. Muchas gracias!

  • @djjpp98
    @djjpp98 Před 4 lety +1

    Muy buen vídeo, excelente explicación.

  • @andersonarrieta446
    @andersonarrieta446 Před 2 lety

    Excelente tutorial, gracias por compartir tus conocimientos.

  • @ahernanca
    @ahernanca Před 3 lety

    Que buen video, explicado paso a paso. Suscrito para ver otros videos. Muchas gracias por tu ayuda,

  • @carlosmacias1172
    @carlosmacias1172 Před 2 lety

    Gracias por el vídeo. Es muy buena la información, todo muy bien explicado.

  • @FamousMrSmith
    @FamousMrSmith Před rokem

    Genial el video, muy bien explicado todo! muchas gracias.

  • @melisaconsuelo3550
    @melisaconsuelo3550 Před 9 měsíci

    Excelente video, muchas gracias 😀

  • @JERMIXxD
    @JERMIXxD Před 2 lety

    Muy agradecido excelente explicación! ahora entiendo mejor este contenido, Muchas Gracias!

  • @nearcadi
    @nearcadi Před 4 lety +1

    muchas gracias por tus ejemplos son excelentes para ir aprendiendo

  • @Reyesba28
    @Reyesba28 Před rokem

    Excelente explicación!!!
    saludos! :)

  • @InvertirEficazmente
    @InvertirEficazmente Před 2 lety

    excelente muchas gracias por este video... me suscribo.

  • @GTAloq
    @GTAloq Před 2 lety

    Muchas gracias me sirvió demasiado

  • @printdaniel
    @printdaniel Před 3 lety

    Buen video, muchas gracias.

  • @RocioChavezCienciadeDatos

    Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas:
    - Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de CZcams promueva mi contenido
    - Dejándome un comentario
    - Suscribiéndote a mi canal
    - Compartiendo mi canal en tus redes sociales
    - Presionando el ícono "Gracias" y haciendo una donación

  • @nickeponer2626
    @nickeponer2626 Před 10 měsíci

    Me puedes responder a esto porfa??? Estoy haciendo un modelo de clasificación, he pasado a dummys, luego veo q tengo 3 var numericas muy correlacionadas entre si y con la var objetivo. Es un problema en un modelo de clasificación la multicolinealidad?? Crei q si y al final he aplicado vif con una funcion recursiva q me dejo solo 1 de esas 3 variables, y luego aun eran muchas en total y aplique RFECV, se puede hacer esta combinación?? Vif y luego RFECV? Esta mal aplicar vif en un modelo de clasificación o debí aplicar solo RFECV aunke me deje 2 o las 3 de esas variables que tienen correlacion alta entre si y con la variable?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 10 měsíci

      Hola! La multicolinealidad puede o no ser un problema, dependiendo del método de clasificación que vayas a aplicar. Necesitas investigar los supuestos a cumplir. Por ejemplo, en la regresión lineal sí es un problema, pero en los árboles de decisión no lo es. Si el modelo que vas a aplicar no se ve afectado por la multicolinealidad, sería suficiente con aplicar RFECV, ya que te dejará solamente las variables predictoras que más aporten al modelo. En caso de que sí se vea afectado por la multicolinealidad, considero que está bien que primeramente hayas llevado a cabo el VIF para quedarte solo con una variable de las que estaban altamente correlacionadas y después RFECV para eliminar algunas de las variables restantes

  • @RocioChavezCienciadeDatos

    Para llevar a cabo el pre-procesamiento de tus datos y poder obtener
    información confiable en tus análisis, visita mi lista de reproducción
    llamada Pre-procesamiento de Datos en Python
    czcams.com/play/PLUofJx5RUeFqAIVdzfnJayenwZFEGtCmg.html

    • @jesusm1583
      @jesusm1583 Před 3 lety

      BUen día Rocio, por alguna razon parece que onehotencoder no esta disponible en las nuevas versiones de Python ¿tienes alguna recomendacion?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety

      @@jesusm1583 Hola Jesus! Quieres decir que la función pd.get_dummies dejó de funcionar en las nuevas versiones de Python? Seguiste los pasos de este video?

  • @vmartinez1984
    @vmartinez1984 Před 3 lety

    Excelente explicación, una consulta, si deseo realizar un análisis discriminante, pero utilizando variables categóricas, he leido que es posible, pero con variables dummy, pero como se los incluye en el modelo?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety +1

      Hola Victor! Una vez que creaste las variables dummy, borras las variables originales y te quedas solo con las columnas que se crearon con los dummies

    • @vmartinez1984
      @vmartinez1984 Před 3 lety

      @@RocioChavezCienciadeDatos , excelente voy a probarlo, y que la mayoría de mis 20 variables son categóricas, crecerán en función de cada nivel y de cada variable, es extraño ya que se convertirá en un dataframe con muchas columnas

  • @nickeponer
    @nickeponer Před 11 měsíci

    Una duda muy tonta: si en una variable categorica como 'sexo' , tengo solo valores 1(hombre) y 0 ( mujer) , tambien debo pasar esa columna a dummy?? O por ser binaria de dos valores, la dejamos asi sin pasarla????

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 11 měsíci

      Hola! Si vas a aplicar algún algoritmo en el que se calcula la similitud entre individuos, sí necesitas pasarla a numérica, ya que la similitud se calcula mediante fórmulas matemáticas. Si no deseas tener las dos columnas, puedes crear solamente una, por ejemplo "Hombre" y ahí ya sabrías que si tiene un 0, se trata de una mujer

  • @fullnesmindcristiano8638

    Hola ese metodo se utiliza para predecir datos o cual es el metodo que se utiliza para predecir datos

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před rokem

      Hola! Este método es anterior a la aplicación de los métodos exploratorios y de los predictivos. En mi canal hay un video llamado Métodos Exploratorios vs Métodos Predictivos | Algunas Técnicas de ML #shorts czcams.com/video/ecjgznDuvR4/video.html en donde puedes obtener más información acerca de estos

  • @ivancarhuapoma1184
    @ivancarhuapoma1184 Před 2 lety

    Hola, una consulta. Cuando aplico dummie, por ejemplo: dm_new=pd.get_dummies(new_df, columns=['Variable_category']) y luego lo imprimo, el Dataframe ya se encuentra con las columas dummie y no veo necesario concatenar. Saludos

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 2 lety +1

      Hola Iván! Me puedes decir qué versión de pandas estás utilizando, por favor? Muy probablemente la versión que tu tienes ya lleva a cabo la concatenación :)

    • @ivancarhuapoma1184
      @ivancarhuapoma1184 Před 2 lety

      @@RocioChavezCienciadeDatos Python 3.10.2

  • @javiermadriz7834
    @javiermadriz7834 Před rokem

    Me gustaría saber para que se hace este proceso y a que variables se le asigna 0 y a cuales 1, de que depende esto?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před rokem +1

      Hola Javier! Puedes ver el video "Variables Categóricas: Cuando Crear Variables Dummy y Cuando No?" que se encuentra en czcams.com/video/2a-ZJ15Bc6k/video.html

    • @javiermadriz7834
      @javiermadriz7834 Před rokem

      @@RocioChavezCienciadeDatos Muchas gracias por tu pronta respuesta, me gusta como explicas, soy programador backend con Python y ahora quiero incursionar en el mundo de los datos.

  • @pepemontalvo3932
    @pepemontalvo3932 Před 3 lety

    Disculpen como hago para que pandas me pueda leer un archivo .csv ya que he intentado de todo y me marca error no se si la ruta esta mal ya que copio toda la ruta. ya actualize python y reinstale anaconda. gracias de antemano!!!

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Před 3 lety

      Hola Pepe! Me puedes enviar el archivo que creaste en Python a rociochavezmx@yahoo.com, para ver si encuentro el error?

    • @felipeplaza402
      @felipeplaza402 Před 3 lety

      Puede que tu separador de lista no sea "," , esto depende de cada región en la que esté configurado tu pc. En chile por ejemplo el separador de lista por defecto es ";", entonces python no lee el csv que se crea. Esto se cambia en configuración de región/configuración adicional/separador de lista

    • @jes4346
      @jes4346 Před rokem

      @@felipeplaza402 disculpa se lo cambia en excel?

  • @RocioChavezCienciadeDatos

    Si estás interesado en adquirir alguno de mis cursos en línea, vista mi página web rociochavezml.com/cursos-en-linea/ ;)