La régression logistique en Machine Learning : déjouez ses faiblesses

Sdílet
Vložit
  • čas přidán 24. 07. 2024
  • 📝 AMELIOREZ VOS COMPETENCES EN DATA SCIENCE : damienchambon.podia.com/email...
    La régression logistique en Machine Learning : déjouez ses faiblesses
    Pour faire de la classification, on utilise beaucoup la régression logistique en Machine Learning. Il existe 2 sortes de régression : la régression logistique binaire et la régression logistique multinomiale. La régression logistique est un modèle de Machine Learning qui possède de nombreux avantages mais également plusieurs faiblesses. Dans cette vidéo en français, je vous propose des astuces pour contourner les faiblesses de la régression logistique en Machine Learning.
    Les avantages de la régression logistique en Machine Learning sont nombreux. C’est un algorithme simple à comprendre, et il est très rapide à entraîner. Il a un faible coût computationnel. Ce modèle de Machine Learning permet d’avoir de bons résultats de classification. Il est peu prone à l’overfitting quand il y a peu de variables dans les données. De plus, on peut facilement interpréter le modèle de régression logistique une fois qu’il est entraîné : les coefficients des features permettent de connaître l’impact de ces variables dans les prédictions. Je vous conseille d’utiliser la régression logistique pour votre problème de Machine Learning avant de tester d’autres modèles : vous pourrez facilement comparer les performances de cet algorithme simple avec un modèle plus complexe.
    La régression logistique possède également de nombreuses faiblesses qu’il est important de connaître si on souhaite faire du Machine Learning. La première est qu’il est important d’avoir un grand nombre de données pour que l’algorithme apprenne suffisamment. Vous pouvez utiliser des techniques de data augmentation pour créer de fausses données. Ces techniques sont couramment utilisées en Machine Learning.
    La régression logistique, que ce soit dans la régression logistique binaire ou la régression logistique multinomiale, est également impactée par les outliers, ces valeurs aberrantes qui sont trop différentes des autres. Vous devez utiliser l’exploration des données pour les mettre en évidence. Vous pourrez soit les supprimer, soit les standardiser afin de réduire leur impact tout en les gardant.
    Cet algorithme peut faire de l’overfitting si le nombre de colonnes dans le dataset est trop élevé. Ce phénomène est courant en Machine Learning. Pour l’éviter, vous pouvez utiliser des techniques de régularisation pour rendre le modèle plus généralisable.
    La régression logistique est impactée par la multicollinéarité, qui survient lorsque plusieurs colonnes sont corrélées. Lorsque c’est le cas, le modèle de Machine Learning aura du mal à attribuer de bons coefficients aux features corrélées. Vous pouvez utiliser des matrices de corrélation pour les mettre en évidence. Pour supprimer ses corrélations, des techniques de dimension réductions peuvent être utiles pour garder seulement les colonnes utiles.
    Enfin, en Machine Learning, la régression logistique est inadaptée quand les données ne sont pas linéairement séparables. Comme c’est souvent le cas, vous devez faire en sorte de contourner ce problème en ajoutant le plus de colonnes possibles. Le nombre de features peut être augmenté avec du feature engineering.
    Machine Learning : Comment choisir le bon algorithme : • Machine Learning : Com...
    Le piège de l'overfitting en Machine Learning : • Le piège de l'overfitt...
    👋🏼 Qui suis-je ?
    Je m'appelle Damien et je suis Data Scientist. Au cours de mes expériences professionnelles, j'ai découvert comment la Data Science et le Machine Learning peuvent résoudre des problématiques business et sociétales.
    J'ai formé des dizaines d'étudiants à la Data Science et au Machine Learning en français pour leur permettre de découvrir ces domaines fascinants et les appliquer dans leur vie professionnelle.
    💻 Mon site : damienchambon.podia.com
    Crédits musique : Astroblk - Geneva
  • Věda a technologie

Komentáře • 8

  • @jean-baptisteherold5525
    @jean-baptisteherold5525 Před 2 lety +3

    Bravo pour la vidéo! Très clair et pédagogique.
    j'apporte juste une précision pour les auditeurs futurs, la colinéarité et la corrélation ont un lien mais il ne s'agit pas de la même chose.
    La colinéarité est une forme de corrélation entre deux ou plusieurs variables qui permet de voir si ces variables mesurent la même chose.
    Des variables colinéaires sont forcement corrélées, par contre deux variables corrélées ne sont pas forcément colinéaires.
    Aussi, il est important dans le cas de vérification de la colinéarité de ne pas supprimer les variables corrélées sur base du test de corrélation, mais de calculer leur colinéarité.

    • @latelierdata
      @latelierdata  Před 2 lety

      Oui effectivement tu as raison ! Merci pour la précision. C’est vrai qu’en Data Science, on a souvent tendance à associer les 2 alors que ce sont des notions distinctes. Ça pourrait être l’occasion pour moi de préciser cela dans une prochaine vidéo ;)

  • @bridec361
    @bridec361 Před 2 lety +2

    Excellente vidéo. Très bon résumé.

  • @ElBasraoui
    @ElBasraoui Před 8 měsíci

    Excellente vidéo. Très bon résumé. Mais la multicolinéarité n'a aucune relation avec la corrélation (sauf que la première implique la deuxième)

    • @latelierdata
      @latelierdata  Před 7 měsíci

      Très juste ! Merci pour ta précision :)

  • @latelierdata
    @latelierdata  Před 3 lety

    📝 AMELIOREZ VOS COMPETENCES EN DATA SCIENCE : damienchambon.podia.com/emails-prives

    • @bridec361
      @bridec361 Před 2 lety

      Je sors de la wild code school : en data ils veulent tous du 3 ans d'expériences sur divers languages. C'est vraiment chaud. T'en penses quoi stp ?