Guide Complet de Traitement des Données Manquantes en Python - Machine Learning

Sdílet
Vložit
  • čas přidán 24. 07. 2024

Komentáře • 39

  • @LeCoinStat
    @LeCoinStat  Před rokem +3

    Lien vers le notebook: github.com/LeCoinStat/100JoursDeML/blob/main/03_Preprocessing/Missing_Data_Treatment.ipynb

  • @floriand.siakenyabou7446

    Magnifique comme d'habitude! Ceux qui suivent ne vont pas regretter. Merci Natacha!🙏

  • @Balm11
    @Balm11 Před 4 měsíci

    Simple éfficace bien expliqué et toujours avec une bonne énergie ! Merci Natacha

  • @crespinlucquenum7372
    @crespinlucquenum7372 Před 11 měsíci

    Merci madame pour ces éclaircissements 🙏

  • @amadoufassa5866
    @amadoufassa5866 Před 8 měsíci

    C'est tout simplement excellent !!!

  • @marcienbalouboula2945
    @marcienbalouboula2945 Před 4 měsíci

    Le cours est juste parfait. Tu as un abonné en plus!!!!!!!

    • @LeCoinStat
      @LeCoinStat  Před 3 měsíci

      Oh merci beaucoup ça fait plaisir ❤️

  • @quentinvansteenwinkel5250

    Merci beaucoup pour tes explications, je suis en parcours en data, tu réussis à simplifier et à faire du pas à pas ce qui permet une meilleure compréhension 🙏

  • @beullele2783
    @beullele2783 Před 4 měsíci

    Merci Natacha 👍. C’est une question que je me pose en tant que grand débutant…. C’est plus clair maintenant 🙏

    • @LeCoinStat
      @LeCoinStat  Před 3 měsíci

      Ravie d'avoir pu vous aider 😊

  • @tandian7
    @tandian7 Před rokem

    Thank very myuch my teacher.

  • @Muslimgharib625
    @Muslimgharib625 Před 7 měsíci

    Merci beaucoup

  • @marcienbalouboula2945
    @marcienbalouboula2945 Před 3 měsíci

    Encore une fois, merci pour ce guide complet!!!!!!
    Je suis en train de faire l'imputation. les données que je traite sont des dates. j'ai du mal à savoir qu'elle est la méthode d'imputation adaptée pour le type datetime et comment les transformer en valeurs numériques. J'ai essayé un model de régression et le KNN, mais je ne suis pas trop sur. Merci!

  • @saadiabouloudene6844
    @saadiabouloudene6844 Před 5 měsíci

    💪 Avec tes explications claires, je relève le défi des 100 jours de ML🙂

  • @kevinkenang8992
    @kevinkenang8992 Před měsícem

    Merci pour ce partage. Recemment j'ai eu une difficulté en ce qui concerne l'imputation de données manquantes sur des séries temporelles univariées; as tu une astuce ?

  • @ludokiokolo5618
    @ludokiokolo5618 Před 6 měsíci

    Bonsoir Natacha, merci pour tes explications, c'est excellent. Comment faut-il procéder pour le remplacement des NaN quand il y'a en même temps les variables qualitatives et quantitatives dans le même dataframe?

  • @prosperepaulgloirengokouba353
    @prosperepaulgloirengokouba353 Před 10 měsíci

    Comment savoir dans la pratique en python si une variable donnée est MCAR, MAR ou MNAR ?
    Comment s'y prendre aussi dans la théorie ?

  • @AshukaMadeIt
    @AshukaMadeIt Před rokem

    237 ISSEA representin' keep it up!❤❤❤

  • @mariamsy2987
    @mariamsy2987 Před rokem

    Merci Madame Natacha très clair comme d'habitude j'ai une question
    Quand on a les données financières par exemple les données des marchés boursiers tu sais dans leur base de données il répéte les derniers cours durant les jours non ouvrables
    par exemple il répéte les cours de vendredi les jour samedi et dimanche.
    En tant que économetre comment régler ces données répétitives ?

    • @LeCoinStat
      @LeCoinStat  Před rokem

      Tout va dépendre de l'objectif de l'étude. Quel est l'objectif de ton projet?

  • @merlinengnietcha495
    @merlinengnietcha495 Před rokem

    Hi Natasha, le jeu de données Horse est manquant ;)

    • @LeCoinStat
      @LeCoinStat  Před rokem

      Thanks c'est disponible ici: github.com/LeCoinStat/100JoursDeML/blob/main/03_Preprocessing/horse.csv

  • @user-ds7vk4kt3o
    @user-ds7vk4kt3o Před rokem

    Bonjour,
    Concernant l'IterativeImputer et selon votre cours, on utilise les "autres variables" pour prédire la variable manquante.
    Ma première question est : quelles sont ces fameuses "autres variables" utilisées pour le calcul ? Les autres variables possédant des valeurs manquantes et passées en paramètres comme dans votre exemple : df_imputed = pd.DataFrame(imputer.fit_transform(df[['total_protein', 'rectal_temp', 'pulse']]), columns=['total_protein_imputed', 'rectal_temp_imputed', 'pulse_imputed']) ?
    Ou bien toutes les autres variables du dataframe exceptées celles passées en paramètres ?
    Deuxième question : je travaille sur un projet où j'ai une bonne centaine de variables contenant des données manquantes (au seuil < 30%) et éligibles à l'IterativeImputer, dois je travailler sur l'imputation de mes variables dans leur ensemble cad que je les mes toutes dans un tableau pd.DataFrame(imputer.fit_transform(df[toutes_mes_colonnes_a_imputer]), columns=toutes_mes_colonnes_imputees) ?
    ou bien je peux imputer par lot pd.DataFrame(imputer.fit_transform(df[mes_10_premieres_colonnes_a_imputer]), columns=mes_10_premieres_colonnes_imputees) ... jusqu'à
    pd.DataFrame(imputer.fit_transform(df[mes_10_dernieres_colonnes_a_imputer]), columns=mes_10_dernieres_colonnes_imputees) ?
    Merci par avance de vos réponses.

    • @LeCoinStat
      @LeCoinStat  Před rokem

      Hello il faut réaliser l'imputation avec les variables qui expliquent le phénomène. Après en matière d'imputation il ne faut pas toujours raisonner de façon systématique. La première question est pourquoi plus de 100 variables ont des valeurs manquantes? En fonction de cela la stratégie peut être différente.

  • @warysmadia9074
    @warysmadia9074 Před rokem

    Comment on fixe le nombre de k voisin stp ? Dans votre exemple vous avez choisi 3.

    • @LeCoinStat
      @LeCoinStat  Před rokem

      Excellente question ! Le choix du nombre de voisins 'k' pour l'algorithme des k se fait souvent par validation croisée. En gros on va tester plusieurs valeurs de k et choisir la valeur qui donne les meilleures performances suivant le critère qu'on aura choisi.

    • @warysmadia9074
      @warysmadia9074 Před rokem

      @@LeCoinStat merci Natacha

  • @blaisekibonzi5019
    @blaisekibonzi5019 Před rokem

    Bonjour Natacha c'est très clair comme d'hab. S'il te plait pourrais-tu remettre ici une invitation pour rejoindre le groupe Discord ? J'ai essayé l'ancien lien et il m'a mis que l'invitation a expiré.
    J'ai décidément pas de chance avec discord. J'ai déjà crée 2 comptes qu'il a désactivé trouvant les comptes "douteux". Je ne sais plus quoi faire, je rate des choses. Aurais-tu une autre solution à me proposer afin que je puisse rejoindre ce groupe ? Merci d'avance.

    • @LeCoinStat
      @LeCoinStat  Před rokem +1

      Hello Blaise, voici le lien vers le Discord: discord.com/invite/RpyvkR7SfQ. Test celui normalement il marche. Tu as également le lien en description des vidéos