Preparation de donnees

Sdílet
Vložit
  • čas přidán 19. 08. 2024
  • Preparation de donnees, pré-traitement de donnees, nettoyage de donnees, je vous montre comment transformer les variables qualitatives nominales et variables qualitatives ordinales en variables numeriques, c'est a dire transformer les variables qualitatives en numeriques, l'encodage de variables est relativement simple, mais ça necessite une attention particuliere, car les performances des modèles de machine learning dependent très fortement de la qualité des données qui lui sont fournies en entrée, c’est pourquoi, il faut bien préparer les données pour obtenir un modèle avec des performances élevées.
    Pour cela, il y a plusieurs étapes préalables à respecter parmi lesquelles, l’imputation des valeurs manquantes, la détection des valeurs extrêmes pour éviter qu’elles écrasent trop les autres observations, la normalisation, la sélection des variables, etc, bref il y a beaucoup d’opérations à réaliser avant l’ultime étape d’analyses et de prédiction, dans cette partie, on s’interresse justement à l’une de ces étapes, l’encodage des variables qualitatives.
    #datapreparation #openclass4all #datacleaning
    Alors, à votre avis, que signifie “ENCODER LES VARIABLES ?”
    Eh bien, pour entraîner un modele il faut des données numériques(c’est à dire des colonnes ayant pour valeurs des entiers ou réels), car, nous ne pouvons malheureusement pas faire de calcul avec du texte, il faut donc TRANSFORMER ces variables qualitatives en variables pseudo-quantitatives afin de pouvoir les écrire dans une équation mathématique et cette TRANSFORMATION est appelée “ENCODAGE”.
    A la fin de cette séquence, vous saurez quel transformer faut-il utiliser pour quelle type de variables et désormais en faire le bon usage et je vous montre aussi comme bonus comment écrire vos propres fonctions, afin de regrouper un ensemble d’étapes que vous réaliserez plus facilement.
    Une variable qualitative est soit ordinale, soit nominale. Prenons deux exemples très illustratifs:
    Imaginez qu’une colonne de votre dataset porte sur une COULEUR, ayant pour modalité Noir, Blanc, Bleu, Rouge, Jaune, on peut constater qu’il est impossible d’établir un quelconque ordre entre les différentes modalités, c’est à dire les valeurs prises par cette variable que sont (Noir, Blanc, Bleu, Rouge, Jaune), cette variable COULEUR est donc qualitative NOMINALE.
    Par contre, il existe très clairement un certain ordre entre les différentes modalités de la variable MENTION prenant comme valeurs (Excellent, Bien, Très bien, Bien, Assez-bien, Passable), Excellent c’est toujours mieux que Très-bien et que tres-bien est préféré par rapport à bien ainsi de suite et on finit par passable, la variable MENTION est donc qualitative ORDINALE.
    REJOINDRE LA COMMUNAUTÉ: / @openclass4all
    MON PROFIL LINKEDIN: / ousman-hamit-hassani
    PLAYLISTS(FORMATIONS) A REGARDER ET COMMENTER ABSOLUMENT:
    1. ANALYSEEXPLORATION DE DONNEES • Visualisation de donnees
    2. DATA PRE-PROCESSING: • TRAITER LES VALEURS AB...
    3. MODELE DE MACHINE LEARNING: • REGRESSION LINEAIRE - ...
    4. VIDEOS TUTORIELLE(PRISE EN MAIN DE JUPYTER NOTE BOOK): • Maitriser les raccourc...
    Github github.com/ous...

Komentáře • 6