Video není dostupné.
Omlouváme se.

TRANSFORMATION OU ENCODAGE DE VARIABLES QUALITATIVES EN VARIABLES NUMERIQUES

Sdílet
Vložit
  • čas přidán 18. 08. 2024
  • TRANSFORMATION OU ENCODAGE DE VARIABLES QUALITATIVES EN VARIABLES NUMERIQUES [ NETTOYAGE DE DONNEES, PREPARATION DE DONNEES, DATA PRE-PROCESSING ] , DECOUVRIR LES 3 PRINCIPALES METHODES(OneHotEncoder, OrdinalEncoder et Get_dummies) POUR ENCODER(C'EST A DIRE LA TRANSFORMATION) DES VARIABLES QUALITATIVES EN VARIABLES QUANTITATIVES. IL S'AGIT D'UNE ETAPE INDISPENSABLE POUR MANIPULER DES EQUATIONS MATHEMATIQUES.
    #datapreparation #openclass4all #datacleaning
    L'encodage est relativement simple, mais ça necessite une attention particuliere, car les performances des modèles de machine learning dependent très fortement de la qualité des données qui lui sont fournies en entrée, c’est pourquoi, il faut bien préparer les données pour obtenir un modèle avec des performances élevées.
    Pour cela, il y a plusieurs étapes préalables à respecter parmi lesquelles, l’imputation des valeurs manquantes, la détection des valeurs extrêmes pour éviter qu’elles écrasent trop les autres observations, la normalisation, la sélection des variables, etc, bref il y a beaucoup d’opérations à réaliser avant l’ultime étape d’analyses et de prédiction, dans cette partie, on s’interresse justement à l’une de ces étapes, l’encodage des variables qualitatives.
    Alors, à votre avis, que signifie “ENCODER LES VARIABLES ?”
    Eh bien, pour entraîner un modele il faut des données numériques(c’est à dire des colonnes ayant pour valeurs des entiers ou réels), car, nous ne pouvons malheureusement pas faire de calcul avec du texte, il faut donc TRANSFORMER ces variables qualitatives en variables pseudo-quantitatives afin de pouvoir les écrire dans une équation mathématique et cette TRANSFORMATION est appelée “ENCODAGE”.
    A la fin de cette séquence, vous saurez quel transformer faut-il utiliser pour quelle type de variables et désormais en faire le bon usage et je vous montre aussi comme bonus comment écrire vos propres fonctions, afin de regrouper un ensemble d’étapes que vous réaliserez plus facilement.
    Une variable qualitative est soit ordinale, soit nominale. Prenons deux exemples très illustratifs:
    Imaginez qu’une colonne de votre dataset porte sur une COULEUR, ayant pour modalité Noir, Blanc, Bleu, Rouge, Jaune, on peut constater qu’il est impossible d’établir un quelconque ordre entre les différentes modalités, c’est à dire les valeurs prises par cette variable que sont (Noir, Blanc, Bleu, Rouge, Jaune), cette variable COULEUR est donc qualitative NOMINALE.
    Par contre, il existe très clairement un certain ordre entre les différentes modalités de la variable MENTION prenant comme valeurs (Excellent, Bien, Très bien, Bien, Assez-bien, Passable), Excellent c’est toujours mieux que Très-bien et que tres-bien est préféré par rapport à bien ainsi de suite et on finit par passable, la variable MENTION est donc qualitative ORDINALE.
    Procédure à suivre pour appliquer la fonction get_dummies qui nous viens de PANDAS :
    1. Lister toutes les variables à encoder
    2. Les encoder puis supprimer les demi-variables
    3. Concaténer les colonnes encodées du nouveau dataset au dataset initial et supprimer les variables originelles
    4. Ecrire notre propre fonction d’encodage pour regrouper toutes les opérations précédentes pour
    faire une pierre deux coups. De cette façon vous organisez votre code, gagner du temps et faire moins d’erreurs possible.
    REJOINDRE LA COMMUNAUTÉ: / @openclass4all
    MON PROFIL LINKEDIN: / ousman-hamit-hassani
    PLAYLISTS(FORMATIONS) A REGARDER ET COMMENTER ABSOLUMENT:
    1. ANALYSEEXPLORATION DE DONNEES
    • Visualisation de donnees
    2. DATA PRE-PROCESSING:
    • TRAITER LES VALEURS AB...
    3. MODELE DE MACHINE LEARNING:
    • REGRESSION LINEAIRE - ...
    4. VIDEOS TUTORIELLES (PRISE EN MAIN DE JUPYTER NOTE BOOK):
    • Maitriser les raccourc...
    ✅ GitHub 👉 github.com/ous...

Komentáře • 69

  • @openclass4all
    @openclass4all  Před 2 lety +2

    *REJOINDRE LA COMMUNAUTÉ OPENCLASS4ALL:* 👉 czcams.com/channels/E-613S-bsuLukwHDhnRxIA.html

  • @openclass4all
    @openclass4all  Před 3 lety +6

    Bonjour les amis, je suis de retour avec une nouvelle video pour repondre à vous questions
    Merci, .....

  • @openclass4all
    @openclass4all  Před 3 lety +7

    CORRECTION : Dans la premiere partie du notebook, là ou vous avez vu variables muettes, c'est plutôt DEMI-VARIABLE et non variables muettes.
    Merci .....

  • @minehas21
    @minehas21 Před 3 lety +5

    Masha'Allah et qu'Allah vous aide dans tout ce que vous entreprenez.

  • @vosinh2180
    @vosinh2180 Před 2 lety +4

    Bonjour @Ousman, merci encore pour cette vidéo sur l'encodage qui m'a aidé à comprendre le concept d'encodage.

  • @ousmanelom6274
    @ousmanelom6274 Před 3 lety +4

    Machallah ousmane vs nous faites découvrir cette science par la qualité des vidéos

  • @l.sergearistidepare425
    @l.sergearistidepare425 Před 3 lety +4

    Cool expert. Merci beaucoup.

  • @jean-bernardsaint-eve3340

    Excellent vidéo sur l'encodage, la meilleurs que j'ai vu jusqu'à présent. Et vous expliquez les différentes possibilités, ça permet de mieux comprendre.

    • @openclass4all
      @openclass4all  Před 3 lety +4

      Merci pour l'appréciation.

    • @openclass4all
      @openclass4all  Před 3 lety +4

      Vous pouvez aussi voir si ça vous intéresse toute la playlist disponible à cette URL 👉 czcams.com/users/openclass4all

  • @vosinh2180
    @vosinh2180 Před 3 lety +5

    Merci pour cette superbe vidéo

  • @sodikiolawalesalami3887
    @sodikiolawalesalami3887 Před 3 lety +4

    Je trouve vraiment excellent vos cours.

    • @openclass4all
      @openclass4all  Před 3 lety +5

      Merci beaucoup pour votre commentaire, le meilleure est à venir

  • @eyazouaghi7938
    @eyazouaghi7938 Před 3 lety +4

    Merci pour cet excellent continu

    • @openclass4all
      @openclass4all  Před 3 lety +4

      Merci beaucoup et celle-ci est encore plus interessante, je crois ---> czcams.com/video/nJ0olHCZgZI/video.html

  • @manouantiadominique2576
    @manouantiadominique2576 Před 3 lety +5

    Merci pour la vidéo. Comment faire la gestion des données manquantes pour les variables qualitatives?

    • @openclass4all
      @openclass4all  Před 3 lety +4

      Bonjour @ manouan tia dominique !
      Trés bonne question :
      La strategie d'imputation de valeurs manquantes pour les variables qualitatives se base sur les fréquences d'apparutions de valeurs "most frequent". ON NE DOIT PAS UTILISER LA MOYENNE OU LA MEDIANE POUR LES VARIABLES QUALITATIVES. SEULEMENT LEUR FREQUENCES D'APPARUTIONS.
      Cependant il existe d'autres techniques plus sophistiquées telles que MCA(Multiple Correspondence Analysis), KNN((k-nearest neighbors) etc.
      Je ferai des vidéos très prochainement pour certains des ces algorithmes.

    • @openclass4all
      @openclass4all  Před 2 lety +2

      Bonjour Dominique !
      Cette vidéo répond exactement votre question 👉 czcams.com/video/KOniG5WWAZ8/video.html

  • @vosinh2180
    @vosinh2180 Před 2 lety +5

    J'ai une nouvelle question concernant la variable cible, comment l'encoder correctement ?

    • @openclass4all
      @openclass4all  Před 2 lety +4

      Tu peux trouver plusieurs exemples corriges dans la documentation de sklearn en description de la video.

  • @vosinh2180
    @vosinh2180 Před 4 měsíci +2

  • @vosinh2180
    @vosinh2180 Před 2 lety +5

    J'ai regardé plusieurs vidéos sur CZcams pour encoder la variable target, mais c'est toujours confu.

    • @openclass4all
      @openclass4all  Před 2 lety +4

      Pour encoder ta variable target, il faut toujours utiliser le transformer LabelEncoder, n'utilise pas d'autres transformers pour la varibale cible sauf si tu ecris ta propre d'encodage.

  • @pirate6102
    @pirate6102 Před rokem +1

    Merci beaucoup pour cette vidéo !

    • @openclass4all
      @openclass4all  Před rokem

      Merci à vous

    • @openclass4all
      @openclass4all  Před rokem +1

      Si vous etes intéressés, j'ai 2 formations gratuites, une en pretraitement et une autre en analyse exploratoire de données 👉🏼 ici czcams.com/users/openclass4allplaylists

  • @souleymanecamara5751
    @souleymanecamara5751 Před 3 lety +4

    Bonjour merci beaucoup pour vos explications ça m' a vraiment aidé. J'ai une question j'ai des valeurs manquantes qualitatives ordinales est ce que je peux les encoder et utiliser une méthode d'imputation pour les remplacer.C'est quoi la meilleure technique pour remplacer les valeurs manquantes qualitatives ? Ou je peux utiliser la methode simple imputer avec la strategie most frequent ?

    • @openclass4all
      @openclass4all  Před 3 lety +6

      Bonjour @soulemane, ravi que ça vous a aidé 👍
      Maintenant pour répondre à votre question:
      La seule strategie d'imputation de valeurs manquantes pour les variables qualitatives se base éffectivement sur les fréquences d'apparutions de valeurs, exactement comme vous avez dit "most frequent". EN AUCUN CAS ON NE PEUT UTILISER LA MOYENNE OU LA MEDIANE POUR LES VARIABLES QUALITATIVES. SEULEMENT LEUR FREQUENCES D'APPARUTIONS.
      Cependant il existe d'autres techniques plus poussées telles que MCA(Multiple Correspondence Analysis), KNN((k-nearest neighbors) etc.
      Je ferai des vidéos trés prochainement pour certains des ces algos.
      Merci pour l'interret que vous portez à sujet qui est très important en data science.

    • @souleymanecamara5751
      @souleymanecamara5751 Před 3 lety +3

      @@openclass4all Bonjour merci beaucoup de votre réponse je vais guetter alors vos videos merci pour tout

    • @openclass4all
      @openclass4all  Před 2 lety +2

      Bonjour Souleymane, j'ai repondu à votre question dans cette video 👉 czcams.com/video/KOniG5WWAZ8/video.html

  • @delhomfranck2303
    @delhomfranck2303 Před rokem +1

    merci chef pour la vidéo ! On est ensemble :D

    • @openclass4all
      @openclass4all  Před rokem

      Merci à vous de l'avoir suivie

    • @openclass4all
      @openclass4all  Před rokem

      Je pense que cette pourrait vous intéresser 👉 www.youtube.com/@openclass4all/playlists

  • @jlcarte
    @jlcarte Před rokem +1

    Bra!

  • @aminemohamedannidam9621
    @aminemohamedannidam9621 Před 2 lety +1

    salam
    bon explication

    • @openclass4all
      @openclass4all  Před 2 lety +1

      Merci beaucoup votre commentaire, c'est très encouragent.

    • @openclass4all
      @openclass4all  Před 2 lety +1

      J'ai une serie de video qui peut vous interesser a cette URL 👉 czcams.com/users/openclass4allplaylists

  • @yezziyezza2291
    @yezziyezza2291 Před 3 lety +4

    Bonjour, je sakue votre travail jute une erreur de frappe du clavier du mot "mention" avec "t' et non "S' sinon tout est clair et bonne continuation

  • @ndouniamaonionguivanbrenta8618

    Vous avez utilisé quel logiciel? Et comment faire pour transformer les variables quantitatives en qualitative?

    • @openclass4all
      @openclass4all  Před rokem

      Bonjour merci pour votre commentaire

    • @openclass4all
      @openclass4all  Před rokem

      J'utilise jupyternotebook comme outil de travail depuis le début de cette formation

    • @openclass4all
      @openclass4all  Před rokem

      Si vous avez du mal à l'installer, je vous invite à regarder cette vidéo entièrement dédiée aux outils de travail 👉 czcams.com/video/xE97torN8zM/video.html

    • @openclass4all
      @openclass4all  Před rokem

      VARIABLES QUANTITATIVES ===> PAS BESOIN DE LES TRANSFORMER EN QUALITATIVES C'EST LE CONTRAIRE QUI NOUS INTERESSE.

  • @bocarba8065
    @bocarba8065 Před rokem +1

    Jusqu'à maintenant je n'arrive pas à comprendre comment choisir les colonnes à
    Encoder entre les différentes colonnes ??

    • @openclass4all
      @openclass4all  Před rokem

      C'est tres simple, ce sont des colonnes dont les valeurs sont de TEXTES, IL FAUT OBLIGATOIREMENT LES TRANSFORMER EN NUMERIQUES, sinon les algorithmes de ML ne comprennent pas de textes

    • @openclass4all
      @openclass4all  Před rokem

      Dis moi si cette fois si c'est bien clair

    • @bocarba8065
      @bocarba8065 Před rokem

      Okay j'ai compris cela. Donc si je comprends bien si vous avez plusieurs colonnes texte vous devez tous les transformer en numérique ???

    • @bocarba8065
      @bocarba8065 Před rokem

      Oubien vous sélectionnez des colonnes et puis vous les encodez

    • @openclass4all
      @openclass4all  Před rokem

      @@bocarba8065 Exactement

  • @karimmache4018
    @karimmache4018 Před 3 lety

    Merci pour cet excellent video, et surtout beaucoup de courage. Mais je pense pour utiliser get_dummies, tu n'as pas besoin de separer le dataset pour concatener apres. Tu peux directement entrer la list des colonnes que tu veux transformer.

    • @openclass4all
      @openclass4all  Před 2 lety +2

      Merci pour ton avis, mais cela depend de ce tu veux faire, moi je veux faire comme j'ai decris dans la video, si voulez voulez faire autrement, libre a vous de faire ce que vous voulez.

  • @pllemost8410
    @pllemost8410 Před 3 lety +5

    Bonjour,
    Je viens de voir votre excellente vidéo sur le traitement des variables numériques et catégoriques; en reproduisant votre code, je bute sur " from sklearn.compose" et f"rom sklearn. impute. " J'ai bien installé scikit-learn mais j'ai constamment des erreurs pour ces modules
    Merci de m'aider à finir correctement l'installation.

    • @openclass4all
      @openclass4all  Před 3 lety +5

      Bonjour Lemost !
      Tu peut réinstaller completement avec la commande suivante en ligne de commande: pip install -U scikit-learn
      ou bien sous jupyter notebook avec point d'exclamation comme suit: !pip install -U scikit-learn
      ça devrait marcher sinon tu peut me laisser en commentaire l'erreur que tu obtient.

    • @openclass4all
      @openclass4all  Před 3 lety +5

      Si vous utilisez conda, excutez la commande suivante:
      conda install -c conda-forge scikit-learn

    • @pllemost8410
      @pllemost8410 Před 3 lety +4

      Merci pour votre diligence...
      C'est Ok sur notebook jupyter sous anaconda.
      Avant j'étais sur notebook colab où j'ai eu tous ces petits soucis.
      J'ai découvert une autre difficulté sur ma machine: résolue.
      Aligner les modules après sklearn.preprocessing crée des erreurs mais les déclarer séparément ligne par ligne, l'une après l'autre: c'est ok. sklearn.prepri...OneHotEncoder
      sklearn.prepro...OrdinalEncoder
      ...
      Merci.

    • @openclass4all
      @openclass4all  Před 3 lety +5

      @Pl Lemost Content que ça marche bien
      NB: La manière d'importer les packages n'a en principe pas d'incidence sur les dépendences.
      Executer les commandes suivantes en console, vous pouvez les importer normalement comme vous voulez :
      conda update --all OU BIEN conda update conda
      conda update anaconda