PYTHON SKLEARN PRE-PROCESSING + PIPELINE (22/30)

Sdílet
Vložit
  • čas přidán 24. 07. 2024
  • Dans ce tutoriel Python sur sklearn (scikit-learn) je vous montre comment faire du pre-processing pour améliorer vos performances en Machine Learning et Data Science. Nous voyons comment traiter nos données avec LabelEncoder, OneHotEncoder, MinMaxScaler, StandardScaler, et bien d'autres transformers du module sklearn.preprocessing. En fin de vidéo je vous montre comment assembler plusieurs transformers ensemble avec le module Pipeline. Voici la timeline de la vidéo :
    0:00 Intro
    00:43 Data preprocessing
    02:56 Transformer Sklearn
    05:37 Encodage Ordinal
    10:13 Encodage One-Hot
    11:19 Sparse Matrix
    15:44 Normalisation MinMax
    19:27 Standardisation
    22:41 RobustScaler
    24:20 PolynomialFeatures
    27:00 Discretisation
    29:00 Pipelines
    Petit résumé :
    Le preprocessing est important pour améliorer la qualité de nos données avant leur passage dans la machine. Pour ca sklearn ont développé un objet appelé transformer. Son rôle est de transformer nos données de façon cohérente, en appliquant sur les données du testset la même fonction de transformation qui a servie a traiter les données du trainset.
    Pour ca, les transformers disposent d'une méthode fit(X_train) et d'une méthode transform(X_test), un peu comme les estimateurs disposent d'une méthode fit(X_train, y_train) et d'une méthode predict(X_test)
    Parmi les opération de preprocessing les plus populaires, on retrouve :
    L'Encodage : LabelEncoder, OrdinalEncoder, LabelBinarizer, et OneHotEncoder
    La Normalisation : MinMaxScaler, StandardScaler, RobustScaler
    la Création de polynômes : PolynomialFeatures
    la Discretisation : Binarizer, KBinDiscretizer
    les transformations non-linéaires : PowerTransform, QuantileTransform
    La classe Pipeline de sklearn permet d'assembler plusieurs transformers avec un estimateur, formant ainsi un estimateur composite. GridSearchCV vous permet ensuite de trouver les meilleurs paramètres de votre pipeline.
    ► MON SITE INTERNET EN COMPLÉMENT DE CETTE VIDÉO:
    machinelearnia.com/
    ► REJOINS NOTRE COMMUNAUTÉ DISCORD
    / discord
    ► D'autres BONUS sur Tipeee:
    fr.tipeee.com/machine-learnia
    ► Recevez gratuitement mon Livre:
    APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
    CLIQUEZ ICI:
    machinelearnia.com/apprendre-...
    ► Télécharger gratuitement mes codes sur github:
    github.com/MachineLearnia
    ► Abonnez-vous : / @machinelearnia
    ► Pour En Savoir plus : Visitez Machine Learnia : machinelearnia.com/
    ► Qui suis-je ?
    Je m’appelle Guillaume Saint-Cirgue et je suis Data Scientist au Royaume Uni. Après avoir suivi un parcours classique maths sup maths spé et avoir intégré une bonne école d’ingénieur, je me suis tourné vers l’intelligence artificielle de ma propre initiative et j’ai commencé à apprendre tout seul le machine learning et le deep learning en suivant des formations payantes, en lisant des articles scientifiques, en suivant les cours du MIT et de Stanford et en passant des week end entier à développer mes propres codes.
    Aujourd’hui, je veux vous offrir ce que j’ai appris gratuitement car le monde a urgemment besoin de se former en Intelligence Artificielle.
    Que vous souhaitiez changer de vie, de carrière, ou bien développer vos compétences à résoudre des problèmes, ma chaîne vous y aidera.
    C’est votre tour de passer à l’action !
    ► Une question ? Contactez-moi: contact@machinelearnia.com

Komentáře • 402

  • @vivouprince
    @vivouprince Před 4 lety +14

    En un seul mot : Parfait ! Merci mille fois, Guillaume, pour ton énergie à nous communiquer ta passion.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +2

      Merci c'est un plaisir de vous avoir comme public.

  • @johnnydelloue5174
    @johnnydelloue5174 Před rokem +3

    il nous faudrait plus de professeur comme vous , très bonne pédagogie pour enseigner les sciences (math, physique, informatique), nos enfants ne sont pas aider, heureusement qu'il existe des personnes passionnées comme vous pour faire ce type de cours en vidéo. Pour ma part, je suis ingénieur en Mécanique et maintenance (gestion de projet) et j'y trouve en grand intérêt à suivre vos vidéos.

  • @Alierx
    @Alierx Před 3 lety

    Milles merci !! C'est remarquable tout ce que tu offres dans tes vidéos! Encore MERCI !

  • @risiboule5573
    @risiboule5573 Před 4 lety +15

    Je passe juste pour dire que la newsletter est top !
    Première fois que j'en lis une à 100% et avec plaisir ;)
    Je regarderai la vidéo ce soir :o

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +3

      Merci c'est bien agréable de savoir que vous appréciez la newsletter ! Je m'applique beaucoup dans la création des résumés car j'aime ça et c'est cool d’être en contact avec des gens aussi motivés comme vous !

  • @madaragrothendieckottchiwa8648

    Bon retour parmi nous ! Au passage bon heureuse année toi comme d'ab belle vidéo !!

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci beaucoup. J’espère que la vidéo vous plait vraiment, j'y ai passé du temps parce que le sujet est fondamental, mais j’espère également que le rythme n'est du coup pas trop lent.

  • @samiotmani9092
    @samiotmani9092 Před 7 měsíci

    c'est en regardant et en écumant les autres vidéos et les autres chaines qu'on peut se rendre compte de ta facilité de vulgarisation , bien joué , et encore merci

  • @julienjacquemont6048
    @julienjacquemont6048 Před 4 lety +6

    Salut Guillaume,
    Quelle joie de voir la chaîne reprendre de plus belle pour l'année 2020. Cette vidéo a du être le résultat d'un travail monstrueux d'écriture et de montage et ce travail (dans mon cas) paye: Sklearn comporte tellement de fonction, de module,.... que j’étais littéralement perdu dans son utilisation. Ces 37 minutes sur sklearn ont mis de l'ordre dans ma vision du module et du preprocessing en général (souvent peu abordé sur d'autres chaines de ML). Je t'en remercie.
    Je trouve particulièrement satisfaisant les moments où, quelques choses qui nous apparaît comme complexe, devient d'un coup parfaitement intelligible.En cela je dois dire que, Machine Learnia est une chaîne particulièrement satisfaisante ;)!
    Merci pour la qualité de ton travail :D

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Salut Julien !
      Merci beaucoup pour ton super message ! Oui j'ai mis du temps a sortir la vidéo 22/30 (ce qui explique en partie la pause de décembre) car c'est selon moi la vidéo la plus importante de la série ! J'avais donc écrit un texte / code qui couvrait un maximum de choses, tout en essayant de rester a l'essentiel (un peu paradoxal du coup.. ce qui m'a pénalisé en temps). Au final j'avais du contenu qui durait plus d'une heure de vidéos, et je ne voulais pas upload cela sur CZcams, parce que je pense que c'est moins efficace pour vous.
      J'ai donc mis pas mal de temps a ré-ajuster mes mots, réduire la quantité, et sélectionner le plus important.
      Au final, j'aurais préféré faire 3 vidéos différentes (Encodage, Normalisation, Pipelines) mais ca ne rentrait pas dans les 30 vidéos de la série.
      Je suis tres heureux de savoir que la vidéo et le reste de mon contenu te permette de progresser et de mieux comprendre Sklearn. C'est mon but premier sur CZcams, il faut le rappeler : apporter de la valeur aux personnes intéressées par la Data Science / Machine Learning / Deep Learning
      Merci cher ami et a bientôt pour les prochaines vidéos ! :)

  • @jingqingcheng2266
    @jingqingcheng2266 Před 4 lety +1

    Excellente vidéo, je suis stupéfaite par vos explications minutieuses et en même temps concises !! Après avoir parcouru dizaines de vidéos en anglais, qui m'ont rendu plus confuse qu'à l'inverse, avec cette vidéo, tout devient claire ! Merci pour ce beau travail !!

  • @mamadouseydi4999
    @mamadouseydi4999 Před 4 lety +3

    Enfin de retour, comme d'hab belle vidéo, merci a vous.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci, content de savoir que la vidéo vous a plu !

  • @alessandroperta
    @alessandroperta Před 2 lety +4

    J'en suis à ma 28ème vidéo de ta chaîne en 2 jours. J'ai beau avoir passé le certificat IBM Data Science sur Coursera, il y a un paquet de trucs qui restaient flous. J'aimerais détruire le bouton like tellement tes explications sont claires et concises - c'est devenu un jeu d'enfant. Je m'attaque pour le moment à un algo génétique, j'espère que dans le futur tu pourras couvrir cette discipline passionnante. En attendant, 1000x MERCI pour ton boulot incroyable 🙏 Toutes les formations devraient renvoyer vers ton contenu - il est imbattable niveau pédagogie 😊 Je te souhaite tout le meilleur !

    • @MachineLearnia
      @MachineLearnia  Před 2 lety +3

      Salut ! Désolé pour ma réponse tardive, ton commentaire est passé entre les mailles du filet ! Ca me fait tres plaisir de lire ton message, et oui je vais m'attaquer aux alogs génétiques surement en 2023.

    • @deojuvante1649
      @deojuvante1649 Před rokem +1

      @@MachineLearnia Bonjour, attention, il y a une erreur sur la standardisation. Il fallait standardiser Y également !

  • @saralagab4036
    @saralagab4036 Před rokem

    merci beaucoup je reviens souvant à tes videos ce sont une mine d'or en information

  • @aymenlazem2062
    @aymenlazem2062 Před 4 lety

    Merci beaucoup cher Guillaume!! super beau comme vidéo un Grand bravo pour ton travail !!

  • @jawadboujida271
    @jawadboujida271 Před 3 lety

    Je fais pas souvent de commentaire, mais ici, je pouvais pas passer sans dire merci. Super clair et concis, vraiment au top cette vidéo !!!

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +1

      Merci beaucoup je le prends avec une grand honneur alors :D

  • @master-tech1815
    @master-tech1815 Před 4 lety

    Je vous admire bro vous me permettez de bien comprendre ces notions
    Merci bcp et bonne continuation et j'ai hâte de suivre votre vidéo sur les réseaux neuronaux et sur l'algorithme de bacprop

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Merci beaucoup :) Oui j'ai hâte de faire ces vidéos aussi, j'adore ce sujet et je ferai de mon mieux pour que tout le monde comprenne

  • @ulrichkarlodjo1457
    @ulrichkarlodjo1457 Před 4 lety +1

    AH mon professeur favoris est de retour Welcome.! Alors la super vidéo très très très instructifs du contenue clair. Je sens que l'étendue de mon ignorance(erreur) se minimise au fur et à mesure que l'on évolue avec les notions(optimisation) à une vitesse d'apprentissage considérable. J'ai très apprécié la fin de la vidéo punch très énorme

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci mon cher ami, je suis content de savoir que les vidéos t'aident à progresser, c'est le but ! Pas mal la référence ahah ;) Et oui j'insiste le preprocessing c'est la clef, comme d'autres data scientists, j'ai réussi à gagner beaucoup de puissance dans certains projets, en trouvant les bonnes variables à donner au modele de ML, quel degré de PCA (on en parle dans la prochaine vidéo) utiliser, etc.

  • @apollinairedabire2852
    @apollinairedabire2852 Před 4 lety

    Merci pour pour la vidéo, elle vient répondre à une question essentielle de mon domaine d'activité.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      C'est un plaisir ! A bientôt et bon courage dans vos projets ! :)

  • @lamismessaadi3893
    @lamismessaadi3893 Před 2 lety

    mercii enormement pour cette video, vous m'a beaucoup aidé sur mon projet de fin d'etude.

  • @rvstats_ES
    @rvstats_ES Před 4 lety

    Merci! c'était très clair. Super video.
    Grâce à vous mes modèles de données seront plus efficaces

  • @jimdelsol1941
    @jimdelsol1941 Před 4 lety +1

    C'est excellent ce que tu fais. Merci ! Continue ! :)

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci beaucoup, je le fais car c'est ma passion et vous êtes un public génial !

  • @khalilrabia-iw6sw
    @khalilrabia-iw6sw Před rokem

    C"est la meilleure video que j'ai pu voir sur youtube !!!

  • @aymenessouyah6145
    @aymenessouyah6145 Před 4 lety +2

    c'est vraiment un très bon récap.Merci

  • @penielmmen2088
    @penielmmen2088 Před 2 lety

    Waouh c'est super bien fait je comprends facilement. J'ai fait plusieurs formations certifiantes mais en tombant sur tes vidéos j'ai mieux compris ce que je codais. Je ne fais plus du copier coller, maintenant je sais ce que je fais. Merci beaucoup

  • @90fazoti
    @90fazoti Před 4 lety

    Excellente vidéo on apprend toujours de nouvelles choses avec Machine learnia merci encore

  • @rofaidamerdji4213
    @rofaidamerdji4213 Před 4 lety +8

    Merci merci .. Tu m'as donné l'envie d'étuder

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Ah ! Quel plaisir quand on me dit ca ! Je vais faire prof ! ahah

  • @hatemchafik4357
    @hatemchafik4357 Před 4 lety +1

    j'attends impatiemment tes videos , Merci bcp !

  • @aloualassane867
    @aloualassane867 Před 4 lety

    Cette video est ma preferee de toute la serie...chapeau

  • @mamadoudembele4254
    @mamadoudembele4254 Před 3 lety

    Tu expliques vraiment bien. Merci beaucoup

  • @tensianne
    @tensianne Před 3 lety

    Merci pour toutes ces vidéos!

  • @alexandreverdonck941
    @alexandreverdonck941 Před 4 lety

    Super vidéo ! :D Merci pour ton travail

  • @denisg_photographies
    @denisg_photographies Před 2 lety

    Excellent!

  • @wildLeaner
    @wildLeaner Před 4 lety +1

    Merci Monsieur Guillaume,
    Pour la première fois je peux avoir un porsantage de 100% xD.
    Mon code:
    model = make_pipeline(PolynomialFeatures(),
    StandardScaler(),
    SGDClassifier(random_state=0))
    #model
    params = {
    'polynomialfeatures__degree': np.arange(1, 7),
    'polynomialfeatures__include_bias': [True, False],
    'standardscaler__copy': [True, False],
    'sgdclassifier__penalty': ['L1', 'L2']
    }
    grid = GridSearchCV(model, param_grid=params, cv=4)
    grid.fit(X_train, y_train)
    best_model = grid.best_estimator_
    y_pred = best_model.predict(X_test)
    confusion_matrix(y_test, y_pred)

  • @louaykhammar7268
    @louaykhammar7268 Před 2 lety

    Merci pour cette excellente formation

  • @endingalaporte
    @endingalaporte Před 4 lety

    Merci pour ce contenu de qualité !

  • @amyd.2840
    @amyd.2840 Před 4 lety +3

    Merci pour cette super vidéo, c'est vraiment utile ! J'ai aussi hâte de voir le prochain bonus sur Tipeee ! :)

  • @aloualassane867
    @aloualassane867 Před 4 lety +5

    ah le petit punch qu'il me fallait just pour booster mon debut de semaine ;)

  • @TheRemiRODRIGUES
    @TheRemiRODRIGUES Před 4 lety

    Super !
    Il faudra que je la regarde plusieurs fois, car la vidéo est dense !
    Je suis sur que tes vidéos sont diffusées en université, et écoles d'ingénieurs, car elles sont de très bonnes qualité et très riche en information !
    Merci !

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Merci a toi ;)
      Oui, cela arrive, et c'est un grand honneur !
      Heureux de partager mon travail avec les gens

  • @-x-dx7295
    @-x-dx7295 Před 4 lety +2

    Merci pour ce tuto pratico-pratique. Y a plus qu'à.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Yes, je vais bientôt vous confier des projets sur la chaîne et on les corrigera ensemble !

  • @wafamaatoug9175
    @wafamaatoug9175 Před 4 lety

    je suis très intéressante de votre vidéos car ils me aide beaucoup a avancée dans ce domaine

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci beaucoup je suis heureux d'apprendre ca ! merci pour votre fidélité !

  • @abidisoumaya4493
    @abidisoumaya4493 Před 4 lety

    Merci énormément pour cette vidéo très enrichissante!

  • @sylvainballerini239
    @sylvainballerini239 Před 4 lety

    Ah merci le petit exemple sur la fin avec et sans normalisation donne une bonne idée de l'importance ! ... (et la réponse à la question que j'allais posé ^^')

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Je suis content d'avoir pu anticiper ta question :D

  • @fardirahani8664
    @fardirahani8664 Před 4 lety

    sincerement, monsieur Guillaume Saint-Cirgue, je te donne un truc , tu sera meilleur prof en web , you're the best teacher.

  • @bairammohamedkheireddine2695

    Vraiment Merci Pour la Vidéo

  • @abderazzakmouiha2138
    @abderazzakmouiha2138 Před 2 lety

    Un grand merci Guillaume

  • @ollie6845
    @ollie6845 Před 2 lety

    c'est vraiment tres puissant!

  • @patrickkouamala8992
    @patrickkouamala8992 Před 4 lety

    merci beaucoup!!! grace à vous je dis bien grâce à vous que je fais du machine Learning et python pour data science. Avant je ne savais rien faire avec python mais là je me sens balaise hahah

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Je suis tres heureux de lire ca ! :)

    • @patrickkouamala8992
      @patrickkouamala8992 Před 4 lety

      @@MachineLearnia moi je suis très heureux d'être abonné à vous! Alors on se retrouve sur discord!!!

  • @roddymbamba545
    @roddymbamba545 Před 4 lety +4

    C'est super

  • @caumauethjacques-emile3124

    Le preprocessing c'est la clé de votre réussite.
    Merci pour la vidéo, j'en pleure de joie

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci, c'est bon de savoir que je peux vous aider ! :)

  • @ediangonebadji7964
    @ediangonebadji7964 Před 4 lety

    Encore Merci!!!!!!!

  • @madanisaid1247
    @madanisaid1247 Před 2 lety

    excellent...

  • @pulsorion
    @pulsorion Před 4 lety +2

    La qualité ✔ 👏🔥

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      C'est le plus important la qualité ! Merci a toi ;)

  • @Kodjo_kam
    @Kodjo_kam Před 4 lety +1

    Simplement super

  • @gnimdoukao7191
    @gnimdoukao7191 Před 4 lety +2

    Merci Guillaume

  • @mohammed_yazidcherifi9816

    Excellente vidéo, merci infiniment, don con peut dire que l'étape numéro 1 dans la vie d'un Data scientist est après avoir collecter les donné appliquer les transformations adéquates aux donnée avant de les passer à la machine.
    Merci infiniment.
    Cordialement.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci. L'étape 1 est l'exploration de données et leur compréhension, cela mène au pre-processing. A partir de la vidéo 25/30 nous allons faire des projets complets et vous pourrez bien comprendre la méthodologie de travail

    • @mohammed_yazidcherifi9816
      @mohammed_yazidcherifi9816 Před 4 lety

      @@MachineLearnia Je suis déjà impatient de les voir :) ;).

    • @mohammed_yazidcherifi9816
      @mohammed_yazidcherifi9816 Před 4 lety

      Excusez moi, j'ai pas compris quelque chose dans le code où vous avez fait iris = load_iris() puis X = iris.data,
      est ce que load_iris est une fonction de sklearn ? et que si vous faites t = iris.target que va contenir X et y ? genre comment il saura où sont les targets et les features, ?
      Merci bien.
      Cordialement.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      En effet load_iris est une fonction qui permet de charger un objet "Bunch", c'est-a-dire un objet qui regroupe différents éléments (un peu comme un disctionnaire) je vous invite a lire la documentation sklearn pour bien comprendre ca, ou bien je ferai une vidéo a ce sujet

  • @yousseffellous8153
    @yousseffellous8153 Před 4 lety +3

    Merci Merci pour ce cadeaux ;)

  • @oumarndiaye32
    @oumarndiaye32 Před 4 lety

    merci pour les postes intéressants, je vous suis .....

  • @bigo025
    @bigo025 Před 2 lety

    Bonjour,
    vous faites des videos CZcams certainement par passion et autres...
    Mais vous n'avez pas idée de l'aide que vous apportez à des personnes qui retrouvent bloquées dans leurs études, projets, recherches et autres.
    Un simple MERCI ce n'est certainement pas assez au regard du travail fourni, mais j'espère qu'en précisant qu'il vient du fond du coeur, vous saurez lui attribuer une meilleure portée.
    MERCI!

    • @MachineLearnia
      @MachineLearnia  Před 2 lety +1

      Merci pour votre gratitude :) J'ai un compte tipeee si vous voulez me soutenir :)

    • @bigo025
      @bigo025 Před 2 lety

      @@MachineLearnia j'avais pas remarqué.
      J'apporte au plus vite ma Modeste contribution.

    • @MachineLearnia
      @MachineLearnia  Před 2 lety

      @@bigo025 merci beaucoup !

  • @sanji2254
    @sanji2254 Před rokem

    Salut Guillaume,
    Tout d'abord un grand merci pour ces cours que tu nous mets à disposition gratuitement, ils n'ont absolument rien à envier a ceux présents dans des formations parfois hors de prix ! Donc c'est littéralement un cadeau d'une très grande valeur que tu fais à toute ta communauté
    De plus on sent que tu est passioné et c'est communicatif !
    En ce qui concerne la vidéo j'ai une remarque à faire, je reproduit toujours le code que tu produis pas-à-pas pour mieux comprendre et mémoriser les approches/méthodes et tips que tu présentes.
    Hors ici en entrainant le pipeline avec GridSearch j'ai obtenu un score de ... 1.0
    ça me paraît beaucoup non ? Est-ce normal ou cela montre que j'ai glissé une erreur dans le code ?
    D'ailleurs quand je teste sans aucun preprocessing, j'obtiens un score de 0.64 qui la encore n'est pas le même résultat que dans la vidéo.
    A vrai dire c'est plus le score de 1 qui m'inquiète ;)
    Merci beaucoup de m'avoir lu, et encore merci pour tout ce que tu fais c'est vraiment impressionnant

  • @Jihaoui
    @Jihaoui Před rokem

    merci prof

  • @3MAS-FR-MA
    @3MAS-FR-MA Před 4 lety

    génial ;)

  • @4abdoulaye
    @4abdoulaye Před 3 lety

    Goooooood

  • @imkoussa
    @imkoussa Před 4 lety

    merci beaucoup

  • @4abdoulaye
    @4abdoulaye Před 3 lety

    Realy good

  • @chainonsmanquants1630
    @chainonsmanquants1630 Před 3 lety

    Merci

  • @axelmathieu7627
    @axelmathieu7627 Před 4 lety +1

    Encore une super vidéo, bravo pour la pédagogie.
    Des vidéos prévues sur PyTorch, TensorFlow ou Keras ?

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +4

      Merci beaucoup ! Je prévois de faire des tutoriels sur les 3 ! (des séries même !) On en parle un peu plus tard dans l'année, car pour le moment il faut finir cette série la !

  • @therenceladys631
    @therenceladys631 Před 4 lety

    je suis impatient quand tu vas commencer la série sur le deep leraning

  • @naoureskraiem6981
    @naoureskraiem6981 Před 3 lety

    bravo et merci infiniment , prière de faire une formation en deep learning et des vidéo pour la reconnaissance des émotions facials

  • @naimaboubaker9256
    @naimaboubaker9256 Před 2 lety

    Excellente chaîne merci énormément
    Est ce qu'il y a des algorithmes ML pour la conformité des données et le format incohérente (inconsistant)
    Cordialement

  • @raphaelollier8048
    @raphaelollier8048 Před rokem +1

    Bonjour, existe t-il une méthode qui permettrait de lister l'ensemble des valeurs possibles à un hyper paramètres donné ? Merci d'avance et super série de vidéos!

  • @ndesilulrich3523
    @ndesilulrich3523 Před 2 lety

    Bonjour M. Saint-Cirgue,
    je vous remercie pour vos vidéos qui représentent une mine d'or pour l'apprentissage efficace du machine learning et une prise en main rapide de Python.
    J'ai une question :
    est-ce que la valeur moyenne d'une variable normalisée (MinMax, RobustScaler) est plus robuste (représentative des observations qu'elle résume) que la valeur moyenne de cette variable non normalisée?

  • @user-hi7ow4xb4m
    @user-hi7ow4xb4m Před rokem

    Bonjour, merci pour ces explications,
    J'ai une question, par rapport au dataset iris étant les variables ont été mesuré avec même unité donc même echelle, donc initialement c'est un exemple d'un dataset ou la normalization n'est pas nécecssaire, Or comme nous pouvons la normalization a améliorée considérablement l'accuracy, + est-ce la normalization augumente toujours l'exactitude du modèle ?
    + à part la différence des echelles entre les features, et la distirbution des individus qu'est ce qui permet de dire les données ont besoin d'être normalisés,
    Merci

  • @aubam3498
    @aubam3498 Před 4 lety

    Bonjour à toi,
    Merci pour tes supers vidéos, je me sens beaucoup plus à l'aise dans ce domaine depuis que j'ai commencé à les suivre.
    J'ai une question qui n'a pas grand chose à voir avec les vidéos mais qui me semble importante.
    Quelle est selon toi la différence entre un Data Engineer et un Data Analyst ? Et quelles sont les vidéos qui devraient beaucoup servir pour chacun de ces deux métiers ?
    Merci d'avance et vivement la prochaine vidéo 😊

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Bonjour et merci je suis content de savoir que mes vidéos t'ont permis de progresser ! :)
      Pour répondre a ta question, les vidéos de cette séries sont surtout utiles pour un Data Scientist / Data Analyst.
      Un Data Engineer devra plus apprendre a maitriser des outils comme Spark, Hadoop, et SQL. Son role est de s'occuper du ETL (Extract, Transform, Load) des données.
      Je ferai également des vidéos a ce sujet a l'avenir.
      Merci pour ton soutien et j’espère lire d'autres commentaires de ta part un de ces 4 ;)
      A+

  • @laurambia8831
    @laurambia8831 Před 4 lety +1

    Bonjour @MachineLearnia , merci pour cette belle vidéo.
    J'ai une question à cet effet, si mon dataset contient des variables qualitatives et quantitatives et que j'y applique le transformer onehitencoder, la transformation va t-elle affecter les variables qualitatives? Si oui, comment contourner le problème lorsqu'on veut juste transformer les variables qualitatives.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +3

      Merci beaucoup. Tres bonne question ! J'y réponds justement dans la prochaine vidéo qui sort dans quelques jours ! Il faut soit traiter chaque colonne indépendamment avec pandas et sklearn, soit construire une pipeline avec la Classe ColumnTransformer (le sujet de la prochaine vidéo)

  • @aminataba8426
    @aminataba8426 Před 8 měsíci +1

    je ne saurait comment vous remercier vraiment chapeaux vos vidéo mon vraiment aidé en tant que débutante.
    Cependant j'aurais besoin de votre aide pour se connecter a des bases de données MySQL ET PostgreSQL avec python

  • @neliamehani6026
    @neliamehani6026 Před rokem

    Pour la partie de la normalisation transforme scaler, imaginez qu'on veuille rajouter une nouvelle variable comme vous l'avez fait avec 80, mais qui soit supérieure au max (en l'occurrence dans cet exemple supérieure à 120) ça ne va pas fausser l'information sur les variables ?

  • @Hicham-pz2em
    @Hicham-pz2em Před 2 lety

    Bonjour et merci pour cette super vedeo ! j'ai un question à la mintute 18:15 pourquoi la transform de x_test elle a donné 0.4 et ne pas 0

  • @LaurentD90
    @LaurentD90 Před 3 lety

    J'avais regardé les pipeline dans un bouquin, c'était pas super clair. Dans cette vidé, c'est limpide ! Merci 1000x

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Je suis content d'avoir pu vous aider dans cette vidéo !

  • @fardirahani8664
    @fardirahani8664 Před 4 lety +1

    SGDClassifier est importé à partir du module linear_module(from sklearn.linear_model import SGDClassifier), merci

  • @desireedoh3701
    @desireedoh3701 Před rokem

    Bjr Guillaume, j'aimerais savoir comment ca se passe si une valeur du data set test est plus grande que le plus grand élement du data set train. Parce que selon la formule dans le cas que je viens de citer, on obtiendra une valeur plus grande que 1.

  • @laurentdorel8354
    @laurentdorel8354 Před 3 lety

    Bonjour Guillaume, j'ai repris la pipeline en testant d'autres transformers (MinMaxScaler et RobustScaler) et j'obtiens de moins bon résultats qu'avec StandardScaler !
    Avec StandardScaler
    Le meilleur score est de 0.975
    La meilleure combinaison est {'polynomialfeatures__degree': 4, 'sgdclassifier__penalty': 'l1'}
    Le test_score est de 0.933
    Avec MinMaxScaler :
    Le meilleur score est de 0.967
    La meilleure combinaison est {'polynomialfeatures__degree': 3, 'sgdclassifier__penalty': 'l1'}
    Le test_score est de 0.867
    Avec RobustScaler :
    Le meilleur score est de 0.975
    La meilleure combinaison est {'polynomialfeatures__degree': 4, 'sgdclassifier__penalty': 'l1'}
    Le test_score est de 0.9

  • @pem4496
    @pem4496 Před 4 lety

    Bonjour,
    Tout d'abord merci pour cette séries de vidéos.
    Une question : Est ce que cela revient au même si tout le preprocessing est fait avant le split des données ?
    Merci

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Merci beaucoup :)
      Il faut en général faire le preprocessing apres avoir fait un train/test split.

  • @GassCode17
    @GassCode17 Před 4 lety

    Bonjour Guillaume, encore une fois merci beaucoup pour tes videos,je suis un certificat professionnel en python machine learning et data science avec ibm sur edx que j'ai presque fini mais c'est surtout grace à tes videos que j'arrive à cerner les choses.Pour aller encore plus loin j'aimerai avoir des exercices à traiter!ou si tas des conseils en particulier à donner aussi.Merci

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci, ça me fait toujours très plaisir quand on me dit que mes vidéos gratuites sont aussi bien que certains cours payants ! :)
      Pour t’entraîner avec des exercices, tu peux te rendre sur le site Kaggle.com, ou sinon attendre un peu car je vais faire des séries de projet et d'exercices dans pas longtemps sur la chaine !

    • @GassCode17
      @GassCode17 Před 4 lety

      @@MachineLearnia sans aucun problème, je vais my rendre attendant que tes exercices soient dispo,encore une fois châpeau,.merci

  • @Lulu-sj4sp
    @Lulu-sj4sp Před 3 lety

    Bonjour, tout d'abord un grand merci pour vos vidéos !
    J'aurai une petite question. Sur mon notebook les détails du 'pipeline' ne s'affichent pas. J'ai seulement
    Pipeline(steps=[('polynomialfeatures', PolynomialFeatures()),
    ('standardscaler', StandardScaler()),
    ('sgdclassifier', SGDClassifier(random_state=0))])
    Pourtant j'ai bien pris votre code sut Github et cela semble quand même très pratique d'avoir les détails pour faire son dictionnaire...
    Merci d'avance, et surtout encore merci pour ces vidéos !

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Bonjour, avez vous essayé print(grid) ? C'est peut-etre parce que vous n'utiliser pas Jupyter Notebook, mais un autre IDE, auquel cas un print() fera l'affaire !

  • @summary_bestseller7037

    Bonjour à l'execution du code final j'ai une erreur stipulant que polynomialfeatures___degree,et 'sgdclassifier__penalty ' ne sont pas des parametres de sgdclassifier

  • @alfreddemusset6296
    @alfreddemusset6296 Před 2 lety

    Les deux dernières vidéos au niveau contenu c'est du lourd.
    Toujours avec cette aisance et cette réthorique didactique de présentation.
    Je m'accroche je m'accroche à chaque fois je dois faire des fiches pour synthétiser le contenu.
    Une petite question SVP lorsque vous écrivez
    model = make_pipeline(PolynomialFeatures(),
    StandardScaler(),
    SGDClassifier(random_state=0))
    model
    J'obtient ceci et pas ce qui se produit sur votre écran qui me serait nécessaire pour réaliser le dictionnaire de paramètre :(
    Pipeline(steps=[('polynomialfeatures', PolynomialFeatures()),
    ('standardscaler', StandardScaler()),
    ('sgdclassifier', SGDClassifier(random_state=0))])

    • @MachineLearnia
      @MachineLearnia  Před 2 lety

      Bonjour et merci pour votre compliment :)
      Je ne comprends pas votre question, ce que vous obtenez est correct ! (parfois d'une version de librairie a l'autre font juste que les choses sont présentées différemment)

  • @aureliendeside4778
    @aureliendeside4778 Před 4 lety +2

    Super intéressant comme d’habitude !! Petite question : Est-ce que cette série va parler des réseaux de neurones et de TensorFlow ? **je suis débutant donc je ne sais pas si Sklearn inclut déjà des réseaux de neurones**. Merci !

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +7

      Merci. Sklearn permet de développer des réseaux de neurones (dans le module sklearn.neural_network) mais je ne conseille pas de l'utiliser. Pour développer des réseaux de neurones, on va en effet utiliser Keras, TF, ou Pytorch. Je ne le ferai pas dans cette série mais dans une série spécialement dédiée a cela.

    • @ediangonebadji7964
      @ediangonebadji7964 Před 4 lety

      @@MachineLearnia Voilà une très bonne nouvelle; je peux allez au lit rassurer avec un rêve...

  • @nabilatallah1471
    @nabilatallah1471 Před rokem

    Est-ce que R fonctionne de la même manière que python? avec la notion de transformer et estimator? c a d est ce qu il va transformer le test de la meme manière que le train?

  • @nicolasoubda6917
    @nicolasoubda6917 Před 3 lety

    Bonjour Guillaume,
    merci pour les merveilleuses explications, très claires, nettes.
    J'ai une question, elle est la suivante:
    Pour la phase d'encodage nous pouvons utiliser la méthode de transformation des données catégorielles en numérique à travers
    df['column'].astype('category').cat.codes? Si oui quel est l'avantage par rapport à la méthode données dans sklearn.preprocessing? Quelle méthode préconiserez-vous?
    Merci.

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Bonjour et merci beaucoup :)
      Les 2 méthodes se valent. Celles de sklearn ont l'avantage de pouvoir être intégrées aux pipelines, je les conseille pour faire du machine learning. Quand on fait juste une analyse de données (sans développer de modeles) alors pandas suffit.

  • @cyrineabid308
    @cyrineabid308 Před 2 lety

    Bonjour,
    J'ai voulu savoir s'il y avait des mises à bour concernant GridSearchCV? Car en executant les etapes de code et avec n'importe quel modèle de ML, je ne reçoit aucun hyperparametre à part le random_state déjà mentionné?
    Merci d'avance et je vous remercie pou tous les efforts déployés.. à l'attente de vos prochaines playlist..

    • @MachineLearnia
      @MachineLearnia  Před 2 lety

      Bonjour, non il n'y a pas eu de MAJ depuis ma vidéo (pour gridsearchCV en tout cas). Je vous avoue que votre probleme est étrange, vérifiez bien votre code et si vous avez toujours des soucis, venez faire un tour sur notre discord.

  • @rochinel_bn408
    @rochinel_bn408 Před 4 lety

    Bonjour je vous remercie beaucoup pour les cours . Je voulais savoir comment entrainé un model quand on a une matrice compressée dans les features . Merci😊

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Bonjour, que voulez-vous dire par matrice compressée dans les features ? les valeurs de chaque colonnes sont des matrices ?

  • @programmesandgames5807

    Salut Guillaume,
    Merci tout d'abord pour ce super travail, pour l'effort et l'explication.
    j'ai deux questions :
    1- est-que vous pouvez faire un video pour expliquer le principe de SGDclassifier comme vous avez fait pour le gradient de descent ??
    2 - Est que vous pouvez faire une autre série des videos pour le Deeplearning ou bien NLP ??
    et Merci encore une fois !!!

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Salut.
      Alors pour aller droit au but : J'ai prévu de faire tout ca ! :D
      (et je suis en train de faire la série de vidéos sur le deep learning aujourd'hui meme)

  • @alexiscarlier2773
    @alexiscarlier2773 Před 4 lety

    Bonjour Guillaume, super vidéo encore une fois. Existe-t-il une fonction dans scikit learn pour fit des fonction de type exponentielle (par exemple: a * np.exp(-b * x) + c)?
    Autre chose, la normalisation est-elle aussi nécessaire en régression?

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Bonjour Alexis. Si vous connaissez déjà la formule qu'est sensé respecter votre modèle, alors je vous conseille d'utiliser Scipy (j'ai fait une vidéo a ce sujet). Vous fournissez la fonction a votre modèle et il vous trouve les coefficients qui minimisent les erreurs.

  • @gregoiredelahaye920
    @gregoiredelahaye920 Před 3 lety

    Salut, superbe vidéo, toujours un plaisir de t'écouter Guillaume. J'ai une petite question sur le transformer et le pipeline. Tu as montré qu'on réalisait le fit_transform sur les données d'entrainement, et qu'on pouvait ensuite transformer les données de test.
    Si des données de validation interviennent, est-ce qu'il faut les séparer des données d'entrainement avant d'utiliser le fit_transform?

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +3

      Bonjour, désolé pour ma réponse tardive (j'ai deménagé).
      Si c'est une cross_validation, tu n'as rien a faire, tout est pris en charge par Sklearn.
      Si ce sont des données de Validation, alors oui il faut les séparer en 3 set : Train, Val, Test, et faire le fit_transform uniquement sur le Train. Ensuite le Transform() sur le Val, puis Le test aussi aura un Transform.

  • @bernylong4995
    @bernylong4995 Před 4 lety

    Bravo pour cette video. J'ai une question : Quand nous avons dans le Dataset des features avec un mix de données quali et quanti, on doit encoder chaque colonne ?... on ne peut pas utiliser le OneHotEnoce, c'est bien ça ?
    D'avance merci pour le retour

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Tout a fait correct, je te conseille de regarder la vidéo "Pipelines avancées" dans laquelle je montre comment faire cela.

  • @raoufbenallegue7290
    @raoufbenallegue7290 Před 3 lety

    Salut Guillaume !! dans la normalisation avec la classe MinMaxScaler, quand j'essaie la transformation sur mon X_test, avec scaler.transform(X_test) du coup, et ben ça me sort:
    - array( [ [0.] ] )
    Alors qu'avec ton exemple, normalement ça donne 0.4, any help? x)

  • @mouhamadoumoustaphaba4502

    Bonjour Guillaume à la place de standarscaler() j'ai utilisé x-x.mean(axis=0)/x.std(axis=0) pour le dataset iris mais j'ai pas les mémes résultats .je ne sais pas pourquoi?

    • @MachineLearnia
      @MachineLearnia  Před 2 lety

      hm cela n'est pas normal, on devrait en parler sur discord !

  • @sebastiencrepel5032
    @sebastiencrepel5032 Před 3 lety

    Bonjour. Merci pour cette nième super vidéo
    En fait je ne comprends pas KBinsDiscretizer à 28:00. Il me semble que cela devrait renvoyer des nombres de 0 à 5. Non ?

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      KBins signifie K colonnes binaires. Donc on obient 5 colonnes remplis de 0 et de 1. C'est une facon de présenter les données, souvent plus simple a manipuler pour les algorithmes d'apprentissage par la suite.
      PS : Désolé pour la réponse tardive !

  • @GassCode17
    @GassCode17 Před 4 lety

    merci encore une fois Guillaume! juste que j'utilise one hot encoder correctement, mais j'arrive pas à faire la normalisation après avoir appliquer le one hot encoder?

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      peux-tu copier coller ton code ici stp ?

    • @GassCode17
      @GassCode17 Před 4 lety

      @@MachineLearnia merci de m'avoir repondu comme dab,mais c'est passé finalement!

  • @benjaminmassoteau7042
    @benjaminmassoteau7042 Před 5 měsíci

    J'ai une question sur la standardisation. On m'a vendu ça comme un moyen d'avoir toutes les données se rapprochant les unes des autres et ainsi devoir utiliser moins d'epoch dans mon algo de deep learning, étant donné que les poids n'auraient pas à compenser les distances entre chaque valeur des variables. Seulement, je ne suis pas certains de comprendre pourquoi standardiser en fonction de X_train uniquement et utiliser cette moyenne et cet écart type sur le X_test plutôt que de standardiser l'ensemble des données,puis diviser en train et test, ou tout standardiser,diviser et restandardiser, ou encore standardiser X_train et X_test mais en fonction de leur moyenne et écart type respectifs (jusque là, seul la seconde méthode m'a donné de plus mauvaise résultat). Y a t il une raison théorique ?

  • @chainonsmanquants1630
    @chainonsmanquants1630 Před 3 lety

    Salut, tu nous dira un jour sur quels types de projets tu bosses ? Je suis curieux de savoir si tu codes des terminators

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Ahah oui j'ai prévu de le faire, et non ça n'est pas des terminators :D

  • @hb650722
    @hb650722 Před 3 lety

    Bonjour Guillaume, je viens de m'abonner à votre chaine que je trouve super! j'ai déjà une question: dans la video 22, vous présentez fit comme une méthode de transformation, parle-t-on du même fit qu'on a vu dans les Modèles LinearRegression, SVM...? ou s'agit -il d'un autre fit?

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Oui c'est exactement le meme fit ! Il a pour but d'estimer les parametres de transformation (mais pas de prédiction) d'un modele de transformation (mais pas de prédiction). Mais c'est le meme principe ! :)
      Désolé pour la réponse tardive, votre commentaire était tombé dans la boite "review" de l'algorithme CZcams, je ne sais pas pourquoi.