Imputación (o Manejo de Datos Faltantes) con Python

Sdílet
Vložit
  • čas přidán 24. 07. 2024
  • Para citar este recurso educativo utiliza la siguiente referencia:
    Gutiérrez-García, J.O. [Código Máquina]. (2021, 21 de Agosto). Imputación (o Manejo de Datos Faltantes) con Python [Video]. CZcams. [Incluye aquí la URL del video].
    ********************************************
    Para guiar tu aprendizaje, en este vínculo ( • Curso de Inteligencia ... ) se encuentra una guía secuencial para aprender:
    1. Programación Básica con Python;
    2. Manejo de Datos;
    3. Visualización de Datos;
    4. Análisis de Datos; y
    5. Aprendizaje de Máquina y Ciencia de Datos.
    ********************************************
    En este video se explica cómo quitar y/o reemplazar valores faltantes en DataFrames de Pandas utilizando el promedio, mediana y/o moda.
    Índice del Video:
    0:00 Problemática de los valores faltantes
    1:10 Archivo con valores faltantes
    3:40 Valores nulos NaN
    7:05 Cómo quitar registros con valores faltantes
    11:58 Cómo reemplazar valores faltantes con valores por defecto
    16:32 Cómo reemplazar valores faltantes con el promedio, mediana y/o moda
    Apoya a Código Máquina dando un Like, con un Super Gracias o visitando nuestra tienda en:
    / shop
    El código del video está disponible en GitHub github.com/CodigoMaquina/code
    #pandas #DataScience #visualización #python

Komentáře • 34

  • @CodigoMaquina
    @CodigoMaquina  Před 2 lety +1

    Apoya a Código Máquina dando un Like, con un Super Gracias o visitando nuestra tienda en:
    facebook.com/C0d1g0Maqu1na/shop

  • @manuelsandoval3866
    @manuelsandoval3866 Před měsícem

    El mejor canal para aprender python

  • @dennilsonmunozrojas9003
    @dennilsonmunozrojas9003 Před 2 lety +5

    Uff , que pedazo de vídeo tío!! Súper genial , muchas gracias!!

    • @CodigoMaquina
      @CodigoMaquina  Před 2 lety

      Muchas gracias por tus comentarios Dennilson :)

  • @danielmendieta2666
    @danielmendieta2666 Před rokem +1

    Brillante como siempre!

    • @CodigoMaquina
      @CodigoMaquina  Před rokem +1

      Daniel muchas gracias por tus comentarios. Es un verdadero placer reconocer tus comentarios en varios videos :)

  • @jaimeavila7247
    @jaimeavila7247 Před 2 lety +1

    Muchas gracias, me fue de mucha utilidad el video, Saludos

    • @CodigoMaquina
      @CodigoMaquina  Před 2 lety

      Gracias por tus comentarios :) Si tienes interés en este tema en particular, te recomiendo echarle un ojo al siguiente video donde se presentan técnicas más avanzadas: czcams.com/video/dToVCgCPW1o/video.html

  • @scho1z
    @scho1z Před rokem +1

    Excelente material!! muchas gracias

    • @CodigoMaquina
      @CodigoMaquina  Před rokem +1

      Gracias por tus comentarios y por interactuar en el canal :)

  • @divina.glitch
    @divina.glitch Před 2 lety +1

    Super util!! Gracias brother!!

  • @oliverrojasconde9144
    @oliverrojasconde9144 Před 2 lety +1

    Excelente video!

  • @TechSci_
    @TechSci_ Před 2 lety +2

    Buen video!

  • @joseleonardosanchezvasquez1514

    Gracias buen video

  • @JuanAndresLlanero
    @JuanAndresLlanero Před rokem +1

    Se puede por ejemplo, hacer la media de las edades e ingresos y esos serán los valores por defecto. Muchas gracias por los vídeos he aprendido mucho.

    • @CodigoMaquina
      @CodigoMaquina  Před rokem

      Libertad Python muchas gracias por tus comentarios. Con respecto a tu pregunta, en el caso general, sí es un procedimiento común utilizar las medias para completar valores faltantes. Gracias por seguir el contenido del canal :)

  • @diegosepulveda9077
    @diegosepulveda9077 Před rokem +2

    muy buen video, podrías hacer uno explicando también la imputación kNN con sklearn? saludos

    • @CodigoMaquina
      @CodigoMaquina  Před rokem

      Hola @diegosepulveda9077 gracias por interactuar con el contenido del canal. Por cierto, ya tenemos un video sobre imputación utilizando KNN -> czcams.com/video/dToVCgCPW1o/video.html

  • @JoseIgnacioSCNacho
    @JoseIgnacioSCNacho Před rokem +1

    Clarísimo👋

  • @diegojavierlievanoparra624

    Hola! excelente vídeo. Pero es posible dejar solamente las celdas vacías sin ningun tipo de valor? Gracias!

    • @CodigoMaquina
      @CodigoMaquina  Před 2 lety +1

      Gracias por tu comentario y por la pregunta. Sí es posible dejar las celdas vacías. De hecho, existen técnicas que pueden hacer regresión/clasificación con valores faltantes. No obstante, la mayoría de las técnicas no puede lidiar con datos faltantes. De ahí que sea común hacer una imputación. Por cierto, la siguiente semana sale un video sobre este mismo tema que tal vez sea de tu interés. Gracias por seguir el contenido del canal :)

  • @cristiancontreras352
    @cristiancontreras352 Před rokem +1

    Me gusto mucho este video pero tengo una pregunta si quiero contar los valores de una columna y excluir los nulos sin eliminar o cambiar su valor como hago por fa

    • @CodigoMaquina
      @CodigoMaquina  Před rokem

      Muchas gracias por tus comentarios. Aquí va la respuesta a tu pregunta: print(datos[datos["columna"].isnull()==False]["columna"].size)

  • @JulitoRamm1
    @JulitoRamm1 Před 7 měsíci

    y cómo haría para que los numeros del dataframe me los arroje sin decimales? entiendo que hay varias opciones pero estoy atascado, ya que cuando quiero volcar la df a un formulario en vez de introducir 150, carga 1500 interpretando que es 150.0

    • @CodigoMaquina
      @CodigoMaquina  Před 6 měsíci

      @JulitoRamm1 gracias por la pregunta. Ciertamente hay múltiples maneras de ajustar los decimales en pandas. Una es usando la función round e indicando el número de decimales a redondear; la otra es usando la función piso (floor); y por último, usando la función techo (ceil). La forma correcta, dependerá enteramente de tus requerimientos funcionales. Aquí va código de ejemplo:
      import pandas as pd
      import numpy as np
      datos = pd.DataFrame()
      datos["columna"] = pd.Series([1.11, 2.22, 3.33])
      datos["columna"].round(decimals=2)
      datos["columna"].apply(np.ceil)
      datos["columna"].apply(np.floor)

  • @chernsimons
    @chernsimons Před rokem +1

    Hola, si tuviera muchos datos, quisiera imputar datos en una columna y se distribuyeran con los datos conocidos de alguna manera que pueda obtener una regresión, sería valido imputar usando esa regresión? o por otro lado imputar prediciendo esos valores con una machine learning? Valdrá la pena?

    • @CodigoMaquina
      @CodigoMaquina  Před rokem +1

      Hola Gonzalo muchas gracias por tu pregunta. Imputación es un tema bastante amplio y profundo y lleno de particularidades. De hecho, es un tema de investigación. En pocas palabras, sí existen métodos donde se utiliza la correlación y la regresión para imputar datos. Échale un ojo a las siguientes referencias: Little, R. J. (1992). Regression with missing X's: a review. Journal of the American statistical association, 87(420), 1227-1237 y Taylor, S. L., Ruhaak, L. R., Kelly, K., Weiss, R. H., & Kim, K. (2017). Effects of imputation on correlation: implications for analysis of mass spectrometry data from multiple biological matrices. Briefings in bioinformatics, 18(2), 312-320.

  • @alpema80
    @alpema80 Před rokem +1

    Muchas gracias, estoy aprendiendo pandas y este tema me llama demasiado la tención,. hay algún curso o libro donde se pueda enfocar más en este tema? Gracias.

    • @CodigoMaquina
      @CodigoMaquina  Před rokem +1

      Hola Alex. Gracias por tus comentarios. Te comento que en el canal tenemos una guía secuencial para aprender:
      1. Programación Básica con Python;
      2. Manejo de Datos (con Pandas y otras librerías);
      3. Visualización de Datos;
      4. Análisis de Datos; y
      5. Aprendizaje de Máquina y Ciencia de Datos.
      Échale un ojo al siguiente video: czcams.com/video/lomJnbN5Wnk/video.html