PYTHON SKLEARN - MODEL SELECTION : Train_test_split, Cross Validation, GridSearchCV (21/30)

Sdílet
Vložit
  • čas přidán 9. 07. 2024
  • Ce tutoriel python français vous présente SKLEARN, le meilleur package pour faire du machine learning avec Python.
    Avec Sklearn, on peut découper notre Dataset en Train_set et Test_set grâce a la fonction Train_test_split. Cette fonction est très importante et il faut l'utiliser pour chaque projet de machine learning, avant même de développer un modèle avec sklearn. Vous pouvez définir les proportions pour découper votre Dataset avec l'argument test_size = ...
    Une fois que vous avez utilisé train_test_split, vous pouvez entrainer votre modele et le valider en utilisant la technique de cross-validation. Le mieux est d'utiliser la class GridSearchCV, mais les fonctions cross_val_score, Validation_curve et Learning_curves sont tres utiles également.
    ► TIMECODE DE LA VIDÉO:
    0:00 Intro
    00:39 Train_test_split
    04:22 Validation Set
    07:05 Cross Validation
    09:44 Validation Curve
    12:46 GridSearchCV
    16:04 Learning Curves
    19:26 Exercice du Titanic
    ► D'autres BONUS sur Tipeee:
    fr.tipeee.com/machine-learnia
    ► MON SITE INTERNET EN COMPLÉMENT DE CETTE VIDÉO:
    machinelearnia.com/
    ► REJOINS NOTRE COMMUNAUTÉ DISCORD
    / discord
    ► Recevez gratuitement mon Livre:
    APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
    CLIQUEZ ICI:
    machinelearnia.com/apprendre-...
    ► Télécharger gratuitement mes codes sur github:
    github.com/MachineLearnia
    ► Abonnez-vous : / @machinelearnia
    ► Pour En Savoir plus : Visitez Machine Learnia : machinelearnia.com/
    ► Qui suis-je ?
    Je m’appelle Guillaume Saint-Cirgue et je suis Data Scientist au Royaume Uni. Après avoir suivi un parcours classique maths sup maths spé et avoir intégré une bonne école d’ingénieur, je me suis tourné vers l’intelligence artificielle de ma propre initiative et j’ai commencé à apprendre tout seul le machine learning et le deep learning en suivant des formations payantes, en lisant des articles scientifiques, en suivant les cours du MIT et de Stanford et en passant des week end entier à développer mes propres codes.
    Aujourd’hui, je veux vous offrir ce que j’ai appris gratuitement car le monde a urgemment besoin de se former en Intelligence Artificielle.
    Que vous souhaitiez changer de vie, de carrière, ou bien développer vos compétences à résoudre des problèmes, ma chaîne vous y aidera.
    C’est votre tour de passer à l’action !
    ► Une question ? Contactez-moi: contact@machinelearnia.com

Komentáře • 477

  • @philippeetasse1840
    @philippeetasse1840 Před rokem +18

    Bonjour Guillaume, je fais une petite pause durant ces cours que je dévore depuis 10 jours. Je ne connaissais ni l'I.A. ni Python. J'arrive encore à m'émerveiller à + de 60 ans ! Je t'envoie un immense merci pour tout ce que tu fais. Et puis il y a un nouveau truc hyper facilitateur quand je bute encore sur la syntaxe : C'est ChatGPT. Il répond à toutes mes questions. Je l'harcèle tellement que je n'ose même plus lui poser de questions , de peur de le déranger 🤪

    • @andreisilaev9264
      @andreisilaev9264 Před 9 měsíci +1

      mieux bosser la documentation que l'outil qui ne fait pas correctement le array slicing en python....ca va vous enseigner beaucoup plus

  • @Alexis-gv8ew
    @Alexis-gv8ew Před 4 lety +115

    Bonjour Guillaume, tout d'abord un grand merci pour cette vidéo très instructive ! ça fait plaisir d'avoir des explications aussi claires sur le machine learning ;)
    J'ai fait l'exercice du titanic, j'obtiens comme hyperparamètres metric: manhattan, n_neighbors: 17 et weights: distance. Comme meilleur score, j'obtiens 0.783, score que l'on peut améliorer avec plus de données selon les courbes d'apprentissage.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +17

      Tres intéressant ! J'encourage tout le monde a lire le commentaire d'Alexis et a mettre un pouce bleu dessus ! Si d'autres personnes ont des réponses, mettez les ci-dessous, c'est important ! Moi aussi je vais faire l'exercice et poster mes réponses ici :)
      Merci Alexis a bientôt ! :D

    • @c.d3304
      @c.d3304 Před 4 lety

      @@MachineLearnia Cette vidéo est une bonne initiative, cependant, il ne permet de s'entrainer sur d'autres dataset,s ses algorithmes sont calqués sur son problème, les fleurs d'iris, c'est quelque chose que l'on trouve à la première recherche sur le net. Comment faire pour appliquer un modèle lorsque ce n'est pas un dataset intégré à la librairie?

    • @valeryaugais4791
      @valeryaugais4791 Před 4 lety

      @@MachineLearnia Bonjour Guillaume, je trouve aussi exactement le même résultat qu'Alexis après avoir lancé l'optimisation suivante (pas très originale au niveau métriques pour GridSearchCV et cv pour learning_curve). Le tracé de train_score et val_score indique aussi qu'il faudrait plus de données mais j'ai un gros doute là car la courbe "train" décroit dès le premier train_size de 91 !!!!!! Est-ce possible ? Est-ce que tu as couvert le corrigé dans une vidéo (j'en ai regardé plusieurs dont 22).
      param_grid = {'n_neighbors': np.arange(1, 20), 'metric': ['euclidean', 'manhattan', 'minkowski'], 'weights': ['uniform', 'distance']}
      grid = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
      N, train_score, val_score = learning_curve(model, X_train, y_train, train_sizes=np.linspace(0.2, 1.0, 5), cv=5)

    • @aichanemo1307
      @aichanemo1307 Před 4 lety

      @@MachineLearnia j'ai trouve trainnig = 0.76 , test 0.77, n_neighbors= 5 , metric = manhatan pou l'exemple titanic

    • @fredzanghi4090
      @fredzanghi4090 Před 2 lety +1

      Bonjour à tous, oui superbe vidéo comme toujours !
      J'ai trouvé un best_score de 0.777 avec best_params = {'metric': 'manhattan', 'n_neighbors': 11} et un model.score(X_test, y_test) = 0.713
      De belles courbes croissantes globalement en train et validation qui demandent d'autres données pour progresser.
      Pas vu non plus de corrections de Guillaume mais ça me semble une bonne 1ere approche vu les autres résultats en commentaires
      Bien à tous !

  • @pulsorion
    @pulsorion Před 4 lety +56

    La pédagogie à son paroxysme. 👏

  • @jonasguignet6051
    @jonasguignet6051 Před 2 lety

    Génial, je suis tes vidéos depuis la première de la série spéciale machine learning et c'est épatant. J'éprouve tellement de satisfaction à suivre tes vidéos, merci. C'est limpide et vraiment entraînant !

  • @C05Mik
    @C05Mik Před 4 lety +21

    La quantité de choses que j'apprends à chaque vidéo qui font pourtant seulement 20 minutes... Bluffant, bravo !

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +6

      Merci beaucoup, c'est mon but d'avoir le plus d'infos précises en 20 minutes

    • @noel9335
      @noel9335 Před 4 lety +8

      En attendant il ne faut pas 20 minutes pour assimiler les concepts nouveaux.
      Il n'est pas rare que chaque vidéo me prenne de 1 à 2 heures : entrainement, tests, etc.
      En tout cas merci.

  • @Amadou418
    @Amadou418 Před 3 lety +2

    Vos vidéos me font gagner beaucoup de temps. J'apprends très vite avec vous. Merci Guillaume.

  • @romainbadet1814
    @romainbadet1814 Před 2 lety

    Chaque vidéo est meilleure que la précédente! Un grand merci!

  • @aaronad2456
    @aaronad2456 Před 4 lety +1

    Propre et précis !! Parfait ! Merci beaucoup 😊

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci beaucoup pour ce commentaire, j'ai pris soin de faire de la qualité, comme toujours !

  • @ulrichkarlodjo1457
    @ulrichkarlodjo1457 Před 4 lety +1

    Monsieur le professeur BIG CONGRAT! J'en suis de plus de plus épaté par à chaque vidéo! Merci PROF! Hihihi

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +2

      Merci ! Ce n'est que le début ! (l'avenir sera vraiment cool !) :D

  • @laidinassim9058
    @laidinassim9058 Před 4 lety +2

    Bravo merci beaucoup pour vos vidéos c'est un régale pour nous RESPECT

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci beaucoup. Je suis content de savoir ca. Ca me garde motivé :D MERCI !

  • @christopheaballea8452
    @christopheaballea8452 Před 4 měsíci

    Bravo pour votre pédagogie. On sent que vous êtes passionné et que vous aimez transmettre. Merci !👏👏👏

  • @amyd.2840
    @amyd.2840 Před 4 lety +4

    Comme toujours super vidéo, merci !

  • @juniortonga9318
    @juniortonga9318 Před rokem

    Purée tout mon cours en quelque minute 😍 merciiiiii

  • @ahmedammar9058
    @ahmedammar9058 Před 4 lety +1

    Super génial! Excellent tuteur!! merci :)

  • @anonymousvevo8697
    @anonymousvevo8697 Před rokem

    tu es 10 fois meilleur de mon prof ! Merci bcp

  • @mohamedoutghratine6432
    @mohamedoutghratine6432 Před 4 lety +1

    Merci pour tes vidéos. Encore une fois, c'est très clair et vraiment bien détaillé ;)

  • @abdelkaderhamadi7422
    @abdelkaderhamadi7422 Před 3 lety

    Merci beaucoup pour ces tuto magnifiquement montés. Vous avez de la pédagogie que nombreux profs n'en ont pas

  • @AlexisAshura
    @AlexisAshura Před 3 lety

    Merci beaucoup Guillaume, vous êtes je pense le meilleur prof que j'ai pu croisé de toute mon existence, excellente présentation, très claires on a même pas besoin de revenir en arrière tout rentre très facilement... encore merci, bises

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      C'est génial ! Merci beaucoup ca me fait tres plaisir de lire ca ! :)

  • @kid3082
    @kid3082 Před 4 lety +4

    Toujours aussi instructif. Un grand merci a toi pour le partage de ton savoir.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Merci beaucoup pour ton commentaire :) Dans le cas ou tu fais l'exercice, dis nous dans les commentaires les performances que tu obtiens, ca serait intéressant ;)

    • @c.d3304
      @c.d3304 Před 4 lety

      Mais comment tu mets ta variable y, j'ai essayé de faire ça, et la machine me dit que y n'est pas définie

  • @mamadouseydi4999
    @mamadouseydi4999 Před 4 lety +2

    Vous êtes le meilleur.
    Ca devient vraiment facile avec vous

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Mon ultime but est de vous aider pour que vous deveniez meilleur que moi !

  • @xaviercrozes631
    @xaviercrozes631 Před 4 lety +1

    Extrêmement pédagogique ! Merci beaucoup

  • @alexwina7491
    @alexwina7491 Před 4 lety +1

    Juste Merci avec un grand M Guillaume :)

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      C'est un plaisir ! Et ça me fait encore plus plaisir quand je reçois des remerciements ! :)

  • @zainasadoun-nr8qh
    @zainasadoun-nr8qh Před 8 měsíci

    Merci Beaucoup , vous êtes mille fois mieux que notre prof de la fac 👏👏👏

  • @moussabamba6216
    @moussabamba6216 Před 4 lety +1

    ah wep vraiment je suis toujours heureux d'apprendre avec tes tuto je regarde plusieurs fois ces vidéos en pratiquant vraiment c'est fascinant j'ai l'impression que tu demystifies la data science

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Merci beaucoup ton commentaire me fait très plaisir ! C'est un honneur de savoir que mes vidéos peuvent autant aider certaines personnes ! :)

  • @mrx42
    @mrx42 Před 4 lety +3

    Merci infiniment pour ces excellentes leçons gratuites qui me sauvent littéralement la vie.
    J'ai soit disant des cours de cette matière à l'Université...
    Grâce à vous, je comprends tout et je m'entraîne efficacement =)
    Merci infiniment.
    Votre travail est d'utilité publique !

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci beaucoup pour votre message je suis super heureux de savoir que les vidéos vous aident autant ! :)

  • @DucDeBoko
    @DucDeBoko Před 4 lety +5

    Suis devenu avancé en machine learning grâce à toi. Longue vie à toi.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Ça me fait très plaisir de savoir ça. C'est mon but. Donc c'est une petite victoire chaque fois qu'on me dit ça ! Merci

  • @mhamedbokhari9354
    @mhamedbokhari9354 Před 3 lety

    vraiment sensationnel ! merci de tout cœur .

  • @HamisBadarou
    @HamisBadarou Před 4 lety +20

    Longue vie à toi Guillaume, j'ai appris en 20min ce que j'essaie de comprendre depuis 3 mois. Au top la vidéo, je suis fan :)

  • @radiopaquito4462
    @radiopaquito4462 Před 4 lety +1

    Merci beaucoup pour cette vidéo, très claire et très précise :) Cela change des vidéos trop difficiles à suivre :) Merci :)

  • @MrFruxion
    @MrFruxion Před 3 lety

    Bonjour, Guillaume. L'explication sur les données de validation m'a fait sourire. Elle me fait penser aux projets informatiques en entreprise. De mon expérience c'est exactement la même chose ! Si les développeurs travaillent avec en vue les données des tests d'intégration (= test set) alors le code n'est pas vraiment bon puisque qu'ils développent alors des comportements trop en accord avec ces mêmes données et des bugs sont à prévoir en production. C'est là qu'intervient les tests en validation (souvent faits par le client). Ces tests (validation set) vont alors éprouvés réellement le code afin de savoir si il n'y a pas de bug. Je trouve l'analogie vraiment intéressante.

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      J'adore votre analogie et je la valide a 100% ! Merci d'avoir partagé un peu de votre expérience professionnelle ! :)

  • @yousseffellous8153
    @yousseffellous8153 Před 4 lety +1

    Merci , super vidéo !

  • @4ppolyon
    @4ppolyon Před 9 měsíci +2

    Mec merci beaucoup je suis étudiant en M1 info et c'est mon cours (en mieux) que tu viens de faire 😍

  • @mountassirkh2759
    @mountassirkh2759 Před 2 lety

    Parfait ! Grand Merci !

  • @TheRemiRODRIGUES
    @TheRemiRODRIGUES Před 4 lety +3

    Super !
    Merci !
    Tu démontres très bien en quoi Scikit Learn est un outil très puissant !
    Je n'imaginais pas qu'on pouvais optimiser à ce point la recherche d’hyper-paramètre.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Merci Smartful ;) content de voir que tu es toujours la a commenter les vidéos ! :D
      Oui et je vais encore montrer beaucoup de choses sur Sklearn ! :)

  • @w.marquess4643
    @w.marquess4643 Před 2 lety

    merci beaucoup, très claire, je partage tout de suite

  • @cyrillekesiku8570
    @cyrillekesiku8570 Před 4 lety +1

    ce meilleur Félicitation pour cette belle contribution

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Merci beaucoup ! :) Si vous faites l'exercice, dites nous vos performances dans les commentaires !

  • @eliengandu2748
    @eliengandu2748 Před 4 lety +3

    Finalement j'ai trouvé mon mentor que j'ai toujours rêver! Tu me fascine, explication claire , simple et concis!!! You are the best One!!!Mon maître j'attends le cour de C++ et java Niveau expert!

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +8

      Merci beaucoup ! :)
      Je ne sais pas si je vais faire du Java et du C++ en niveau expert (on ne peut pas être bon partout !) mais la chaîne va tout de même proposer du contenu tourné Arduino, C, microprocesseur dans le futur ! :)

    • @noel9335
      @noel9335 Před 4 lety

      Expert en Java JEE et full stack (pour reprendre l'expression très à la mode), j'attends Arduino avec impatience.
      Ce n'est pas que les tutoriels soient absents sur le net mais j'attends du concis et du professionnel, ayant une expérience de la programmation bas niveau.
      A bientôt.

  • @louaykhammar7268
    @louaykhammar7268 Před 2 lety

    Super !
    Merci !

  • @zinebadaika6544
    @zinebadaika6544 Před 3 lety

    Merci infiniment ,votre explication est très très très excellent,Allah bless you

  • @djomantchaadamasorho4912
    @djomantchaadamasorho4912 Před 4 lety +2

    Bonjour Guillaume, un grand merci pour cette vidéo très instructive ! ça fait plaisir d'avoir des explications aussi claires sur le machine learning ;)
    J'ai fait l'exercice du titanic, j'obtiens comme hyperparamètres metric: manhattan, n_neighbors: 7. Comme meilleur score, j'obtiens 0.79, score que l'on peut améliorer avec plus de données selon les courbes d'apprentissage.

  • @mohamedchennani5606
    @mohamedchennani5606 Před 3 lety

    Encore Merci et Bravo

  • @ediangonebadji7964
    @ediangonebadji7964 Před 4 lety +1

    merci encore

  • @mmarva3597
    @mmarva3597 Před 3 lety

    Franchement vous êtes un dieu !! super vidéo merci beaucoup

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Carrément !? Merci beaucoup :)

    • @mmarva3597
      @mmarva3597 Před 3 lety

      @@MachineLearnia Normal hier ne je comprenais rien mais aujourd'hui je me rends compte que c'est très simple et ce grâce à toi. C'est une question de maitrise et surtout de pédagogie :)

  • @rolandkambire5814
    @rolandkambire5814 Před 8 měsíci

    merci,
    t'es super

  • @madaragrothendieckottchiwa8648

    Mon modèle de prédiction neuronale pense déjà trop souvent avoir bien prédis la qualité de ta vidéo à venir mais se heurte si souvent à tes bon modèles de vidéos optimiser, Tout ce qui ce conçois bien S'énonce très clairement force à toi Guillaume bon boulot

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Ahah Merci beaucoup ! :) Je suis satisfait si la vidéo est claire et précise et qu'elle peut vous aider

  • @tafsirndiour
    @tafsirndiour Před rokem

    On est en fin 2022, je tombe sous ces vidéos géniales, franchement merci beaucoup.
    Ma réponse du coup pour les hyperparamètres: {'metric': 'manhattan', 'n_neighbors': 12, 'weights': 'distance'}

  • @boutifar5913
    @boutifar5913 Před rokem

    Tout d'abord bravo à toi pour la qualité exceptionnelle de ces vidéos. J'ai bien compris que le but de la vidéo était la cross-validation mais juste une petite précision pour tout le monde: il n'y a pas de phase d'entrainement pour l'algorithme knn (désolé si c'est dit dans la video et que j'ai loupé ça)

  • @herveballa4692
    @herveballa4692 Před 3 lety

    La manière de passer de la cross validation au Grid search CV est juste magnifique!!!!!!!!!!!!!!!!!!!

  • @zrmsraggot
    @zrmsraggot Před 4 lety

    Génial !

  • @philippebillet4359
    @philippebillet4359 Před 4 lety +2

    Super vidéo comme d'habitude.
    Pour ce qui est de l'exercice :
    Meilleur paramétrage : {'metric': 'manhattan', 'n_neighbors': 17, 'weights': 'distance'}
    Meilleur score : 0.7828
    L'apprentissage pourrait être amélioré, mais l'expérience n'est pas reproductible.

    • @philippebillet4359
      @philippebillet4359 Před 4 lety

      en fait on peut faire un peu mieux avec :
      Meilleur paramétrage : {'metric': 'canberra', 'n_neighbors': 8, 'weights': 'uniform'}
      Meilleur score : 0.8161120840630472...

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      C'est très intéressant ! Un autre abonné (Alexis) a trouvé les mêmes résultats {'metric': 'manhattan', 'n_neighbors': 17, 'weights': 'distance'} avec le même score.
      C'est intéressant de comparer cela avec une distance Canberra. Je trouve ça curieux que Canberra (qui est semblable à Manhattan mais avec des coefficients) ait un bon score avec des weights "uniform"
      Concernant les courbes d'apprentissage, on pourrai croire que plus de données aideraient a améliorer l'algorithme, mais en se rappelant que les données ont une grande variances (des passagers de même classes, même age, même genre ont parfois survécus, parfois non) alors on peut se rend compte que récolter plus de données ne sera pas forcément utile (meme si les courbes le laissent a penser !) (bravo pour avoir complété l'exercice !)

  • @barma1986
    @barma1986 Před 4 lety

    Bonjour Guillaume , un grand merci pour l'effort que tu es entrain de fournir afin de rendre le ML accessible. ça fait des années que je voudrais m'interesser au ML, mais la motivation manquait, grace à tes vidéo je commence à prendre gout et j'ai trouvé qu'on peut tres bien s'amuser avec le ML. J'ai essayé l'exercice et j'ai obtenu un score de 0,8333 avec les parametres suivants:{'metric': 'canberra', 'n_neighbors': 7, 'weights': 'uniform'}

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Ton message me fait super plaisir ! :) Bravo pour ta motivation a faire du Machine Learning et c'est génial si tu t'amuses bien en progressant, ca va t'offrir un bel avenir !
      Bravo pour tes résultats sur l'exercice.

  • @mwanzamayukipax2707
    @mwanzamayukipax2707 Před 4 lety +1

    vous etes tres formidable

  • @quentinpotie1814
    @quentinpotie1814 Před 3 lety

    Très dense cette vidéo ! J'ai appris beaucoup de choses merci !
    Résultats : metric = manhattan, neighbors ~10-25, weights = distance; need more data; score sur le test set ~ 75-85%

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Merci a toi et bravo pour avoir réalisé l'exercice !

    • @darkiche3689
      @darkiche3689 Před 3 lety

      C'est drôle, pour ma part la metric c'est euclidean ! Ça peut s'expliquer par quoi d'après vous ?

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +1

      @@darkiche3689 le hasard selon lequel les données ont été découpées dans les cross_validations

  • @julienjacquemont6048
    @julienjacquemont6048 Před 4 lety +2

    C'est vraiment impressionnant : J'essaye d'apprendre le ML, en parallèle de tes vidéos, sur des bouquins.... et tu clarifies tellement de chose que je pensais avoir compris dans les livres! Merci à toi. Cette capacité à rendre explicites et intuitives des notions complexes est vraiment rare sur CZcams je trouve, et ta chaîne la possède c'est une vrai force! :D
    Du coup ça me donne une idée pour une prochaine série de vidéo pour ta chaîne:
    Les mathématiques derrières le ML.
    Je pense que ça rendrait service à beaucoup d'abonnés! (dont moi ;) )

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +6

      Merci beaucoup Julien. J'ai prévu de faire une série spécial Maths qui explique l'origine de chaque algorithme de Data Science et de machine Learning. C'est prévu pour 2020 ! :)
      Merci de me suivre ca fait plaisir de lire tes commentaires a travers les vidéos ! Bon courage et je suis a fond derrière toi !

    • @julienjacquemont6048
      @julienjacquemont6048 Před 4 lety +1

      @@MachineLearnia Ah mais tu me fais un super teasing là! Vivement 2020 :)

    • @noel9335
      @noel9335 Před 4 lety

      @@MachineLearnia Quand ? Quand ? Dis-nous vite...

    • @brahimiyounes319
      @brahimiyounes319 Před 4 měsíci

      @@MachineLearnia cette série serait magnifique!! vous avez pu la publier?

  • @jord-aeleon1887
    @jord-aeleon1887 Před 4 lety +1

    Excellent cours encore une fois. C'est fou par contre, plus j'avance dans les vidéos et plus j'y passe du temps pour bien tout assimiler.
    Pour ma part j'ai trouvé les hyperparamètres suivants : 'metric': 'manhattan', 'n_neighbors': 24, 'weights': 'distance' avec un score test de 80% environ. Par contre, il faudrait un train set qui fasse au moins 1000 éléments environ pour obtenir des performances intéressantes :)
    merci encore de partager tes connaissances à travers ces excellentes vidéos :)

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Bravo pour avoir bien su résoudre l'exercice, et ta conclusion est pertinente ! Je suis heureux si les vidéos t'aident a progresser ! :)

  • @EricPelletier-dq9gk
    @EricPelletier-dq9gk Před rokem

    Depuis titanic je ne vous quitte plus .Vous + python + CHATgpt +Power BI voilà un mélange détonnant!

  • @tiohacademy
    @tiohacademy Před 10 měsíci

    Super vidéo, merci Guillaume
    Best_params = {'metric': 'manhattan', 'n_neighbors': 9, 'weights': 'distance'}
    model.score =0.804

  • @hibe77
    @hibe77 Před 4 lety +1

    Bonjour Guillaume, tout d'abord 1 grand merci pour vos tutos. La notion d'over-fitting que vous avez détaillée grace aux courbes representatives du train_score et du val_score en utilisant validation_curve() est trés utile. Je souhaite en faire de meme avec GridSearchCV().
    L'attribut ( .cv_results_) permet d'avoir un dict() qui renvoit des infos sur notre grid.
    Mon script:
    list_mean_train_score = []
    for i in grid.cv_results_['mean_train_score']:
    list_mean_train_score.append(j)
    list_mean_test_score = []
    for j in grid.cv_results_['mean_test_score']:
    list_mean_test_score.append(j)
    Tracer les courbes representatives de: list_mean_train_score, list_mean_test_score.
    Ma question est de savoir s'il n'existe pas un moyen plus simple?

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Il faut en effet utiliser .cv_results_ pour faire le graphique que vous souhaitez et votre script est parfaitement adapté pour cela, ce que je conseille, c'est de mettre ce script dans une fonction que vous aurez créée, cela simplifie votre code et vous vous constituez progressivement une bibliothèque de fonctions utiles.

  • @chainonsmanquants1630
    @chainonsmanquants1630 Před 3 lety

    Merci

  • @ouedraogoaboubakari6538

    Grand Merci à vous très cher Guillaume.
    j'ai eu comme hyperparametre :
    metric : euclidean, n_neighbors : 11 et un score sur le test_set de 96%
    matrix de confusion :
    ([[10 , 0 , 0],
    [0 , 11 , 1],
    [0 , 0 , 8]
    ])

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +1

      Bravo d'avoir fait l'exercice, ce sont de bons résultats. :)

  • @spritevlsm
    @spritevlsm Před 4 lety +1

    Sans commentaire !!!!!!!!
    👍👍👍👍👍👍👍👍

  • @yattecyrille9918
    @yattecyrille9918 Před 3 lety

    Bonsoir Guillaume,
    Avec vos vidéos, le machine learning devient une chose évidente. Je suis heureux de vous suivre et bravo à vous!
    En relation avec l'exercice, j'ai obtenu 0.74 pour le n_neighbors et manathan pour le metric. Cependant ces hyperparamètres changent à chaque fois que je change la taille de mon jeu d'entraînement, de test et également le cv de GridSearchCV.

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Merci beaucoup !
      Il est normal que les hyper-params changent si les données changent. Par exemple si vous remélangez vos données et utilisez d'autres données pour le train, alors le nombre de voisin optimal pour la machine va surement etre différent.

  • @globaltitofoundation
    @globaltitofoundation Před rokem

    Non Guillaume t'est le meilleur🥰

  • @jonathannoutcha9749
    @jonathannoutcha9749 Před 4 lety +1

    je te remercie

  • @laurentdorel8354
    @laurentdorel8354 Před 3 lety

    Bonjour Guillaume, merci pour tout ton travail très pédagogique. Pour l'exercice, j'ai obtenu :
    La meilleure combinaison est {'metric': 'manhattan', 'n_neighbors': 7, 'weights': 'uniform'}
    Le test_score est de 0.82
    Il semblerait qu'augmenter le nombre de données pourrait améliorer notre modèle cependant, l'écart-type des données étant assez important, cela n'est pas assuré !

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Je suis 100% d'accord avec toi, surtout concernant la variance ! En effet il y a une grande part de hasard dans les gens qui ont survécus au naufrage du titanic.

  • @nizarnizar6965
    @nizarnizar6965 Před 2 lety

    Cher Guilaume, merci pour tes excellentes présentations. Pour évaluer un seul modèle, je pense il faut se baser sur cross-validation pour trouver le vrai score (moyenne) et non un seul score basé sur une seule split. Est ce que c'est juste ?

  • @mouhamedcamara8063
    @mouhamedcamara8063 Před 3 lety

    Grand merci à vous,
    Pour l'exercice, j'obtiens:
    1) Meilleur paramétrage : {'metric': 'manhattan', 'n_neighbors': 17, 'weights': 'distance'}
    2) Best Score Train: 0.8949211908931699
    3) Best Score Test: 0.7832167832167832
    4) Et selon le Learning-curve, il nous faudra encore plus de données pour améliorer notre modele
    Et comme vous, la fonction de prédiction me dit que j'y serai resté :)

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +1

      Je suis d'accord avec vos résultats, bien joué ! :)

  • @theobloquet39
    @theobloquet39 Před 2 lety

    Bonjour Guillaume!
    Tout d'abord un grand merci pour tes vidéos qui sont justes exceptionnelles, très instructives, on les comprend parfaitement, la difficulté est justement dosée, nickel pour un étudiant qui veut se lancer dans le ML comme moi !
    Pour l'exercice du Titanic, j'ai visiblement obtenu des résultats similaires à d'autres personnes, mais voici les miens : (0.7495347063310451, {'metric': 'manhattan', 'n_neighbors': 15})
    Malheureusement plus que 9 épisodes de cette formation à savourer !

    • @MachineLearnia
      @MachineLearnia  Před 2 lety

      Merci pour ton message, ca me fait tres plaisir ! :)

  • @jeannetteemerencemekuate1379

    Merci pour tes vidéos. J'ai une formation en analyse de données tu me fais réviser les cours en apprenant python

  • @yannkerzreho2850
    @yannkerzreho2850 Před rokem

    Bonjour, merci beaucoup pour ces vidéos de grande qualité ! Je n'avais pas de problème jusqu'à celle-ci, quand j'utilise model.score ou tout autre méthode de validation Jupyter ou Spyder me renvoie :
    FutureWarning: Unlike other reduction functions (e.g. `skew`, `kurtosis`), the default behavior of `mode` typically preserves the axis it acts along. In SciPy 1.11.0, this behavior will change: the default value of `keepdims` will become False, the `axis` over which the statistic is taken will be eliminated, and the value None will no longer be accepted. Set `keepdims` to True or False to avoid this warning.
    mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
    Je ne comprend pas pourquoi, je n'utilise pas directement SciPy, et je n'ai pas trouvé comment enlever ce message (qui n'est pas trop problématique car le code arrive quand même s'exécuter). Pourriez-vous m'aider ?
    Merci beaucoup !

    • @yannkerzreho2850
      @yannkerzreho2850 Před rokem

      [Solution]
      import warnings
      warnings.filterwarnings('ignore', category = FutureWarning)

  • @karlbina9665
    @karlbina9665 Před 3 lety

    La qualité est au rendez-vous et c'est très instructive comme formation.

  • @mondistributeur326
    @mondistributeur326 Před rokem +2

    Salut, pourquoi a chaque fois qu'on relance le code, le nombre de voisin de best params change? pourtant les donnée ne changent pas avec le titanic

  • @khadimdiakhate8382
    @khadimdiakhate8382 Před 3 lety

    Merci Guillaume
    Pour le TP j'ai trouvé :
    best_estimator => { metric='manhattan', n_neighbors=14, weights='distance' }
    score => 0.783
    Après avoir tracer la courbe d'apprentissage, on voit qu'on peut améliorer le modéle avec plus de données

  • @nicothuillier6185
    @nicothuillier6185 Před 4 lety +1

    Bonjour,
    Je suis un peu en retard, mais je viens de faire le TP et j'ai donc trouvé:
    best_score = 0.7870 avec les hyper_param {'metric': 'manhattan', 'n_neighbors': 15}
    model.score(X_test, y_test) = 0.7571
    Merci Guillaume pour toutes tes vidéos !

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Merci Nicolas ! Bien joué pour le TP ! Je te conseille de lire les autres commentaires, il y a des réponses intéressantes

  • @johannsenn37
    @johannsenn37 Před 4 lety +1

    Bonjour Guillaume,
    L'exercice sur le dataset du titanic me donne un Score test de 83,9% avec les hyperparametres suivants :
    metrics : manhattan, n_neighbors : 14, weights : distance.
    Pour arriver a ce resultat, j'ai augmenter le nombre de decoupe à 10 ainsi que le nombre de voisins à 100 pour "regarder" un peu plus loin. Je ne sais pas si la démarche est la bonne , mais les resultats sont meilleurs.
    Selon la learning curve il nous faudrait plus de données mais celle-ci semble s'aplatir à partir de 400 donc pas sûr selon moi que plus de données donneraient de meilleurs resultats.
    Au passage, merci pour ces videos tres pedagogiques qui me permettent d'apprendre et comprendre plus rapidement, c'est vraiment top! :) Et merci pour la mise en place du Discord c'est cool :)

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Les résultats sont intéressants et ton analyse est bonne. Il est tout a fait OK d'avoir un cv=10. Concernant le nombre de voisin, je pense que 100 est pile la limite maximum (je pense qu'au dessus ca serait trop) Pas mal du tout !

  • @cyrilbaudrillart8155
    @cyrilbaudrillart8155 Před 4 lety

    Juste magnifique! Bravo pour la qualité des vidéos et la clarté des explications. Merci infiniment Guillaume. Cerise sur le gâteau: les codes disponibles dans github :-)

  • @aniasaadi4730
    @aniasaadi4730 Před rokem

    Bonjour Guillaume,
    merci pour cette vidéo que je trouve très instructive;
    j'utiliser la fonction GridSearchCv dans mon programme avec le model mplclassifier de sklearn et j'ai fait rentrer 3 paramètres avec leur grille en suivant les directives de la vidéo, mais cela fait 5h qu'il s'entraine sans fin ( j'ai du l'arrêter a un certain moment et diminuer dans les hyper paramètres en entré paarcequ'au départ quand j'avais testé sur 2 paramètre il m'avait donné une réponse au bout de 10 minutes, mais la malgré le fait d'avoir que 3 a présent, l'entraînement s'éternise quand même ) qu'y a-'-il lieu de faire stp ?

  • @aomo5293
    @aomo5293 Před rokem

    Le choix de nombre du random_state va forcément jouer sur le resultat du score, n'est ce pas ?
    Donc d'après vous, quel est le meilleur nombre (42 ?)
    merci

  • @hananehocine5564
    @hananehocine5564 Před 3 lety

    svp! dans validation curve la boucle que vous avez fait pour trouver le K , est-il le meilleur k cross validation???

  • @deadsoulfx5156
    @deadsoulfx5156 Před 8 měsíci

    Bonjour et merci bcp pour ces explications très claires. Toutefois j'aurais une question. Peut on appliquer ces différentes méthodes à d'autres type de modèles, comme par exemple en régression logistique ou linéaire multiple ?
    Merci par avance pour votre réponse ;)

  • @The__T
    @The__T Před 2 lety

    Bonjour
    D'abord je vous remercie beaucoup des leçons que vous exposez sur les machines learning ils sont excellents.
    Voilà, je travail sur le forecasting concernant le rayonnement solaire. Ma question est ce que les données de la data base doivent être stationnaire en tant que série temporel afin de les faire entraîner sur un modèle machine learning?

    • @MachineLearnia
      @MachineLearnia  Před 2 lety

      Pas forcément, vous pouvez utiliser un modele ARIMA si les données ne sont pas stationnaires.

  • @LaurentD90
    @LaurentD90 Před 3 lety

    C'est limpide. Merci

  • @emmanuelbonnet8539
    @emmanuelbonnet8539 Před 3 lety

    Salut Guillaume, merci beaucoup pour cette super vidéo, comme toujours dans la simplicité et avec sympathie. Je me posais la question de savoir comment tu as fait la simulation numérique vidéo décrivant le phénomène d'Overfitting (un peu avant la 12eme minute de ton tutoriel) ? Par avance merci

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +2

      On peut faire ce genre d'animation avec la fonction FuncAnimation de Matplotlib (ce qui donne les simulations que je poste parfois sur Twitter, et bientot égalemnet sur Instagram) Je vais bientot faire une video pour expliquer comment réaliser ces animations :)

  • @basilerichard3196
    @basilerichard3196 Před 4 lety +1

    Bonjour Guillaume,
    Merci pour ces vidéos, elles sont très instructives.
    A 4:58, le score pour le train_set n'est pas de 100%. Comment cela se fait-il ? Si j'entraine un modèle sur un set alors le score de ce set ne devrait-il pas être de 100% ?
    Enfin, avez-vous des conseils pour comprendre et voir ce qu'il y a derrière les modèles (par exemple KNeighborClassifier) et les fonctions (par exemple fit) ?
    Mille merci.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Le train_score ne peux pas toujours atteindre 100% cela dépend de la complexité du projet et du dataset. Par exemple si l'on prend le dataset du Titanic, parmi les victimes on a retrouvé des gens qui avaient tous exactement le même age, le même sexe, le même profil, donc on ne peut pas prédire avec 100% d'exactitude qui va survivre ou qui va périr. Il en va de même pour un modèle.
      Pour savoir ce qui se cache derriere les Algorithmes, le mieux est de les apprendre (je vais faire une série de videos a ce sujet, mais également une série d'articles sur mon blog)
      On peut aussi consulter le code source de sklearn, mais il peut-etre difficile a décrypter si l'on est débutant.

  • @mohammed_yazidcherifi9816

    Bonjour Guillaume, un grand merci pour cette vidéo très instructive, pédagogique et explicative! c’est un grand plaisir d'avoir des explications et des vidéos aussi claires, bien faites et de haute qualité, Grand merci :).
    Voilà je voulais aussi vous poser 2 questions simples qui m'ont intrigué.
    Question 1 : Est ce que si on pouvais choisir un autre valeurdans le cv, ici on a toujours fait cv=5, mais est ce que le changement du cv pourrait avoir des conséquences sur les performances de notre modèle, par exemple peu être avec cv=10 on aurait eu une meilleure performance, ou ç'a n'a rien à avoir.
    Question 2 : si par exemple on avait un dataset que on en plus plus augmenter car ç'a ne sert à rien via la courbe car la performance ne va plus argumenter, et que on a tous tester les paramètres, les hyperparamètres, d'autres modèles etc... mais on ne peut pas dépasser une performance par exemple de 70% qui je pense pas assez bien, est ce que ce cas peut arriver, et si oui est ce que on peut dire que ce problème, on ne peut pas le résoudre en Machine Learnng ?.
    Désolé pour mes questions, je sais que je te publie des commentaires assez long et j'en m’excuse pour cela.
    Merci encore une fois.
    Cordialement.

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Bonjour et merci, ce sont des bonnes questions ! :)
      Question 1 : Oui le cv joue un rôle dans la performance finale du modèle. Il y a des regles pour choisir un bon cv (mais je ne vais pas les détailler ici) et sans meme connaitre ses regles il faut savoir que le CV peut lui meme etre considérer comme un hyper-parametre (on peut tester différents cv avec une boucle for dans laquelle on fait des gridsearchCV par exemple)
      Question 2: (question tres intéressante). En principe, un modele est soit en situation d'underfitting (le modele n'est pas assez complexe) soit en overfitting (le modele est trop complexe et varie trop pour bien généraliser). Donc, si vous avez 70% de bonnes réponses, c'est forcément que le modele n'est pas assez "bon" (autres réglages nécessaires, modèle plus complexes comme un réseau de neurones) ou alors que le modele est en overfitting (il faut plus de données, ou bien ajouter une régularisation au model pour limiter sa variance)
      Une exception a ces situation est si vous essayer de construire un model statistique pour prédire une chose statistiquement imprédictible (par exemple les résultats du LOTO). Dans ce cas, ni le machine learning, ni un modèle traditionnel ne peut atteindre un bon score.

    • @mohammed_yazidcherifi9816
      @mohammed_yazidcherifi9816 Před 4 lety

      @@MachineLearnia Merci beaucoup pour vos réponses rapide et explicatives, merci infiniment.

  • @imedkhabbouchi2161
    @imedkhabbouchi2161 Před 2 lety

    Bonjour un grand merci pour les videos elles sont très instructives.
    J'ai une petite question, la plupart des videos parlent de modèles de classification comment peut on faire dans le cas d'un modèle de regression, par exemple pour faire le forecasting de "time series" comme données méteo etc?

    • @MachineLearnia
      @MachineLearnia  Před 2 lety

      il y a beaucoup de modeles de regression sur sklearn : LinearRegression, DecisionTreeRegressor, SVR, etc.
      Mais si vous cherchez a faire des times series, il vous faudrait utiliser un modele ARMA ou ARIMA de la librairies Statsmodels.

  • @adyfall8319
    @adyfall8319 Před 3 lety

    Bonjour, Guillaume! pour la cas du dataset fleur d'iris on trois classe: setosa, versicolor et virginica. Je voulais savoir dans la classification quand donner a n_neighbors la valeur 5, que signifie ce 5 exactement?

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Cela signifie que l'algorithme va faire sa prédiction en regardant les 5 fleurs qui sont les plus proches (les plus ressemblantes) dans le dataset.

  • @anasseidrissi6731
    @anasseidrissi6731 Před 3 lety

    Chapeau ! Merci infiniment . est-ce qu'on peut esperer des series similaires sur le deep learning. Merci

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +1

      Bonjour Et merci :)
      Oui le premier épisode sur le deep learning va bientot sortir

  • @jhonlee788
    @jhonlee788 Před 3 lety

    Hey bonjour ! super vidéo comme d'habitude ^^
    j'ai une petite question , on peut utiliser le GridSearchCV au lieu de CrossValidation ? ou les deux sont nécessaire ? ^^ merci d'avance !

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +1

      La Cross Validation est de base introduite dans GridsearchCV. Les 2 ne sont pas nécessaire du coup :)

    • @jhonlee788
      @jhonlee788 Před 3 lety

      @@MachineLearnia Merci c'est bien plus clair ^^

  • @Ju2Crane
    @Ju2Crane Před 4 lety +1

    Bonjour Guillaume, merci pour ces vidéos d'apprentissages très instructives!
    J'obtiens comme meilleur score au train set 0.81 et 0.79 au test set, n_neighbors=11, metric='manhattan' et weights='uniform'
    Une remarque cependant, j'ai regardé les résultats avec des test_size différents (dans train_test_split) et j'obtient des résultats assez identiques mais avec des estimateurs différents au niveau du n_neighbors.
    Par exemple:
    test_size = 15% score_train = 0.85, score_test = 0.82, n_neighbors=3
    test_size = 25% score_train = 0.81, score_test = 0.81, n_neighbors=9
    Existe-il un moyen de savoir la meilleure façon de découper ses data entre train et test set? Et ainsi de savoir le n_neighbors optimal?

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +2

      Merci ! ta question est intéressante.
      Il est impossible d'obtenir le n_neighbors optimal (ou tout autre hyper-parametres) en machine learning. Plus il y a de valeurs dans le test_set, plus tu va converger vers les bons réglages (car tu auras confiance que ces réglages te donne de bons résultats sur 1000, puis 100,000, puis 1,000,000 de données dans ton test_set)
      Voila pourquoi je dis qu'on ne peux pas avoir de réglage optimal pour un algorithme. En effet cela dépend de la taille des train_set/test_set, et cela dépend des découpes que l'on utilise. On peut etre assez sur d'avoir le "bon" réglage quand on test notre algo sur un tres gros paquet de données.

  • @mahamadouzakou9513
    @mahamadouzakou9513 Před 4 lety +1

    bonjour
    Cours trés interessant à la fois theorique et pratique
    juste une question comment faites vous pour faire apparaitre la liste des parametres qui s'applique à "grid" (13:51 de la video) sur jupyter notebook?
    Merci d'avance

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Bonjour et merci beaucoup.
      Pour afficher les paramètres, il suffit d’exécuter la ligne model.fit(X, y) dans jupyter. Comme cette ligne nous retourne un modèle, celui-ci est affiché dans la console.
      Si tu utilises un autre IDE que Jupyter Notebook, alors tu peux faire un print(model.fit(X, y))
      A bientôt :)

  • @wajdiayari3139
    @wajdiayari3139 Před 3 lety

    Thank you, you are the best ,
    Homework :
    the best score= 0.7776164549304295
    the best paramters= {'metric': 'manhattan', 'n_neighbors': 8}
    score on test set= 0.7832167832167832

  • @abdoubrk4814
    @abdoubrk4814 Před 2 lety

    Salut, j'ai une question ,concernant la methode de cross validation , j'ai compris qu'on doit choisir l'algorithme dont les hypers parametres donnent la plus grande moyenne des differents scores , mais en considerant ce meme algorithme(l'algorithme choisit) , si on a d'autres parametres(par exemple les coefficients theta dans une regression ) dans chaque iteration on aura des parametres differents vu que le modele s'entraine sur differentes sub-divisions du dataset , comment on choisira donc les parametres de notre model dans ce cas???

    • @MachineLearnia
      @MachineLearnia  Před 2 lety

      Oui, les parametres du modeles seront a chaque fois différent, mais le but ici n'est pas de trouver les meilleurs parametres, mais les meilleurs hyperparametres. Donc les parametres varient peut-etre sur les différents Folds de la Cross Validation, mais les hyper-parametres sont toujours les memes. Donc pas de probleme pour au final connaitre les meilleurs hyper-params, et ensuite ré-entrainer un modele sur tout le trainset avec ces hyper-params

  • @alquranoulkarimparsofiani801

    tu es bon

  • @jasonkilembe3604
    @jasonkilembe3604 Před 4 lety +1

    Merci beaucoup pour cette formation claire et précise, mais pour la suite des leçons??

    • @MachineLearnia
      @MachineLearnia  Před 4 lety

      Les vidéos suivantes arrivent très bientôt ! Je fais de mon mieux pour sortir au minimum une vidéo par semaine :)

  • @elemaine91
    @elemaine91 Před 2 lety

    Bonjour, super vidéo, c'est du très bon travail
    J'ai une question concernant toutes ces méthodes utilisés pour évaluer notre model.
    Est ce que c'est applicable sur tout les algorithmes de ML ou juste sur KNeighborsClassifier ?
    Et aussi je voie que a chaque fois tu utilise cv=5, est ce que toutes ces évaluations sont valable que dans le cas de la cross validation? ou bien je peux les utiliser sans utiliser la cross validation.
    Merci beaucoup

    • @MachineLearnia
      @MachineLearnia  Před 2 lety +1

      Bonjour, désolé pour la réponse tardive, pour le choix du modele, j'ai sorti une vidéo a ce sujet. Et pour cv=5, on choisit en général 5, 7 ou 10. Je l'expliquerai dans les détails statistiques un jour !

  • @madikahi8834
    @madikahi8834 Před 4 lety +1

    j'ai vue cette vidéo plus de 4 fois, chaque fois je découvre autant de chose merci pour le courage que vous m’apporter avec tes super vidéo monsieur le génie.
    autre chose j'ai vue les différentes métriques utilisées dans l'analyse de régression mais comment savoir quel métrique j' utiliser pour des différent model ?

    • @MachineLearnia
      @MachineLearnia  Před 4 lety +1

      Merci beaucoup ça me fait super plaisir de savoir que des gens trouvent les vidéos vraiment utiles et qu'ils arrivent a progresser grâce a ces vidéos ! Pour les métriques : Il y a des mesures pour les régressions et les classifications. La vidéos sur les métriques de régression vous informe de ce qu'il faut faire pour choisir la bonne métrique (et je préconise d'utiliser plusieurs métriques pour évaluer un modèle). Pour les classifications, Accuracy est le choix par défaut, et pour les classifications binaires vous pouvez évaluer la précision et le recall (qui sont des rapports entre vrais positifs, vrai négatifs, faux positifs et faux négatifs) Je ferai une vidéo a ce sujet dans peu de temps, en attendant je vous conseille de consulter Wikipedia.

    • @madikahi8834
      @madikahi8834 Před 4 lety +1

      @@MachineLearnia Merci de m'avoir répondre et je te retrouverai dans ta prochain vidéo monsieur le génie,merci

  • @bricesiou1572
    @bricesiou1572 Před 2 měsíci

    cool

  • @totosuper5717
    @totosuper5717 Před 3 lety

    Bonjour, j'aurais une question par rapport à la validation curve. Dans cet exemple, vous expliquez le cas où on peut détecter de l'overfitting mais est-ce que l'overfitting présent à ce moment dans le training set sera plus ou moins le même quand on fera des prédictions avec le test set ? Si ce n'est pas le cas, il faudra donc toujours checker si on a de l'overfitting dans le training set par rapport à la validation set et aussi dans validation set par rapport au test set (comme fait à 5.01) ?

    • @MachineLearnia
      @MachineLearnia  Před 3 lety +1

      Bonjour, quand vous dites "l'overfitting du trainset sera plus ou moins le même quand on fera des prédictions avec le test set" Cette phrase n'as pas vraiment de sens. L'overfitting, c'est quand le modele que vous avez développé est trop bien ajusté sur les données de train, et que cela a un mauvais impact sur la performance future de votre modele.
      Vous ne pouvez pas avoir d'overfitting sur des données de test, car vous n'entrainez pas le modele sur les données de test. Si le modele done de bonnes performances sur les données de test, alors c'est gagné ! Il faut juste s'assurer que les données de test reflettent vraiment la réalité. Par exemple si vous développer un algorithme pour reconnaitre des chats, alors il ne faut pas avoir dans les données de tests que des photos de chat noirs.

  • @faresalouf
    @faresalouf Před 3 lety

    Super vidéo !! Super chaine ! Merci beaucoup. Petite question: pourquoi le grid.best_score_ calculé (0.9833) est différent du model.score (0.96). Le meilleur modèle n'est pas celui qui a le best score ?

    • @MachineLearnia
      @MachineLearnia  Před 3 lety

      Salut et merci ! :)
      grid.best_score_ te donne le score de ton modele sur la Cross-validation, tandis que model.score te donne le score sur les données de test (ou quelques soit les données que tu utilises). Il ne s'agit pas d'une Cross-validation dans ce dernier cas.