Régression et classification linéaire | Intelligence Artificielle 9

Science4All

zhlédnutí 75 904

Přidat do
- Můj playlist
- Přehrát později
Sdílet

Sdílet

Vložit

Velikost videa:

Zobrazit ovladače přehrávání

Automatické přehrávání

Přehrát

čas přidán 4. 02. 2018
Cette vidéo présente les premiers algorithmes très performants de machine learning, notamment en grandes dimensions, à savoir les régressions et classifieurs linéaires.
Facebook : / science4allorg
Twitter : / science__4__all
Tipeee : www.tipeee.com/science4all
Moi en podcast avec Mr Phi :
Version CZcams : / @axiome7403
Version Audio : feeds.feedburner.com/Axiome
Sous-titres sur les autres vidéos : czcams.com/users/timedtext_cs_p...
Chocolat, corrélation et moustache de chat | La statistique expliquée à mon chat
• Chocolat, corrélation ...
Le deep learning | Science Étonnante
• Le deep learning
Le théorème du carreleur | Zeste de Science
• Le théorème du carrele...
Les algorithmes du vivant | TEDxSaclay
• Les algorithmes du viv...
Machine Learning | Wandida Playlist
• Universality of Neural...
Algèbre Linéaire | Playlist Wandida
• Qu'est ce qu'un vecteu...
Essence of Linear Algebra | 3Blue1Brown Playlist
• Essence of linear alge...
Analyse | Playlist Wandida
• Théorème des bornes at...
Essence of Calculus | 3Blue1Brown Playlist
• The essence of calculus
Věda a technologie

Komentáře • 160

@etiennemallet7750 Před 6 lety ⁺²⁶
Cedric Villani veut réconcilier les français avec les mathématiques. J'espère que tu fais partie de sa solution !
@skyppiland Před 6 lety ⁺³
Toujours un plaisir de voir ces topics d'une grande compléxité traité avec de beaux schemas et le bon discours qui les rendent plus abordables. J'aurai pour ma part noté la sensibilité des algorithmes de regression linéaires aux outliers et les approches de type RANSAC ou basé médiane qui apportent plus de robustesse. Mais pour cela, comme tu le dis, il faudrait bien plus d'un seul épisode :-D
@TheSymboles Před 6 lety ⁺¹
Tellement de complicité avec M. Phi que vous sortez une vidéo le même jour!
@lucmorin-allory9844 Před 6 lety ⁺⁹
Deux remarques d’un vieil expérimentaliste qui a travaillé avant les ordinateurs et même les calculatrices ( ou tout au moins leur arrivée dans les laboratoires).
1) D’un point de vue calcul, en ces temps préhistoriques ( il y a 40 ans) on pouvait très facilement et très rapidement, avec une simple règle à calcul ( cf Wikipédia pour les plus jeunes) puis avec les premières calculatrices avec quelques mémoires, obtenir a, b et r pour la méthode des moindres carrés en calculant tout simplement les sommes des x, y, x2, y2 et xy. C'était totalement impossible pour la méthode de Laplace. Cette facilité des calculs a grandement contribué à son succès.
2 ) D’un point de vue expérimental ces méthodes ont beaucoup d’aspects discutables. On cherche la droite qui va minimiser la somme des erreurs ou des carrés des erreurs sur Y. On fait l’hypothèse que ces erreurs sur Y sont de type aléatoire et suivent une loi normale. Alors juste quelques questions que l’on se posait souvent :
- comment faire si il y a aussi une erreur sur X ?
- comment faire si l’erreur est proportionnelle à Y ?( on aimerait alors que la droite soit plus proche des points à faible valeur pour Y que des points à forte valeur)
- comment éliminer l’influence d’un outlier ? ( point aberrant en français ou plus explicitement point pour lequel l’erreur est de type différent des autres points). Comme souligné dans un autre commentaire , un tel point à une influence énorme dans cette méthode des moindres carrés et peut totalement fausser le résultat.
Toutes ces questions ont reçu des réponses ; les logiciels sont devenus de plus en plus sophistiqués et donc de plus en plus difficiles à utiliser. On cherche effectivement à automatiser complètement la chaîne. Faire des calculs sur des milliers ou des millions de points est devenu très simple ; choisir la bonne méthode et les bons réglages reste un challenge.
@JonathanVacher Před 6 lety ⁺¹
Super vidéo! Surtout le petit côté historique avec les personnages clés et la présentation de l'alternative entre distance absolue et Euclidienne (suspens!).
Petit bémol peut-être pour le manque de distinction entre régression et classification (labels continues vs discrets).
@skunker52 Před 6 lety ⁺²⁹
On m'enlèvera pas de l'idée que Gauss a la tête du mec qui déclenche une bataille de bouffe à la cantine.
@Fire6 Před 5 lety
tu m'as achevé
@unknowjlm Před 5 lety ⁺³
C'est un sale Gauss?
@rodolphebobby4537 Před 2 lety
Ouah!!!!! L'explication de départ est tout simplement lumineuse ....
@alexrvolt662 Před 6 lety
en l'espace d'une remarque, tu viens de m'aider à comprendre quelque chose à quoi je n'avais jamais réussi à trouver une réponse satisfaisante : pourquoi les carrés? (plutôt que les valeurs absolues ou autre...).
Je m'étais bien fait la réflexion que la distance d'un point à une droite se base sur les carrés de delta_x et delta_y (par Pythagore, mais le delta_y n'est alors pas le même que celui de l'incertitude) , que les carrés sont plus sympas à manipuler que les valeurs absolues, et qu'en tant que physicien j'adore additionner des carrés (parce que les grandeurs énergétiques varient presque toujours comme les carrés des phénomènes en cause) etc, etc.
Mais rien de tout ça ne répondait vraiment à la question.
Et là, à 3:03 , tu nous lâches les mots clés qui permettent de savoir quelle piste suivre : "Bayesien", "central limite"...
Donc pour une valeur théorique donnée, la probabilité d'obtenir une valeur expérimentale qui s'en écarte d'une distance "E" varie comme exp(-E²)... donc pour plusieurs points, maximiser les produits de probabilités (pour maximiser la "crédibilité" qu'on accorde à la droite) revient à maximiser exp(-[somme des E_k])....
Mais oui !!!!
J'ai pas perdu ma journée : j'ai compris quelque chose !!
merci Lê :-D
@AllXS7117 Před 6 lety
très bonne présentation, bravo !
@ShonxDo Před 6 lety
Ah ! Enfin des mathématiques que j'ai déjà étudié !!
@Snow-dg7um Před 4 lety
VRAIMENT vraiment tes le boss
@amyd.2840 Před 4 lety ⁺⁷
Super vidéo, merci ! Pour ceux qui recherchent davantage d'explications, Guillaume de la chaîne Machine Learnia (czcams.com/channels/mpptkXu8iIFe6kfDK5o7VQ.html) fait des supers tutoriels dont plusieurs expliquent comment faire des régressions linéaires et polynomiales dans Python ! Ça m'a en tout cas beaucoup aidé, je recommande :)
@alexandretritz8555 Před 4 lety ⁺³
Bonne vidéo ! En effet allez faire un tour sur sa chaîne, ça vaut le coup pour une compréhension globale ou avancée des sujets qui vous intéressent plus particulièrement dans le machine learning, and in French please !
P.S : sur le site machinelearnia.com vous avez aussi un super ebook pour enrichir votre bibliothèque numérique 👍
@IncroyablesExperiences Před 6 lety ⁺⁹
Je me suis toujours demandé pour les moindres carrés, ça fait sens quand il s'agit de tension électrique car un point éloigné compte au carré de sa distance à la droite en terme de puissance, mais dans le cas général... J'attends impatiemment ton explication ^^
@gremibarnou8146 Před 6 lety
Tout comme le magnétisme et son rapport de force au carré de sa distance. La bonne question serait alors de se demander si la somme des carrés des forces dans toutes les directions ne résulterait pas en un vecteur complètement nul en son centre ?
@yannberthier8335 Před 6 lety
Incroyables Expériences je t'aime passionnément
@Aejfke Před 6 lety
Ca a un rapport avec le théorème de Gauss-Markov il me semble, mais je veux pas dire de conneries ^^
@yannberthier8335 Před 6 lety
Martin à ton avis mon martin ?
@TheCatbutcher Před 6 lety
Ne pourrait-on pas aussi y voir une similitude avec la norme 2 que nous utilisons pour la distance minimale dans le plan ou l'espace ?
@paradoxe9566 Před 6 lety ⁺¹
En statistique, c'est la méthode du maximum de vraisemblance qui est la méthode d'estimation "reine". Dans le cas de la régression linéaire où X et Y sont gaussiennes, les méthodes des moindres carrés (norme L2) et du maximum de vraisemblance sont équivalentes. Il me semble que c'est pour cela que la régression en norme L1 n'est que peu enseignée et que les moindres carrés l'est beaucoup.
@nogadrama2595 Před 6 lety
Dis donc, un usage des statistiques serait assez pertinant ici, je penses notamment au test du Chi2, qui est un excellent indicateur pour savoir si un jeu de donnée (ici el famoso nuage de points) suit une certaine loi de probabilité :). Sinon, mon prof de calculabilité en école d'ingé t'as diffusé en classe pour expliquer le problème de l'arrêt donc GG à toi ^^
@JustinParrot Před 6 lety
Tu tombes bien, je sors d'une formation data scientist / machine learning
@carl-maxencevinh3415 Před 6 lety
Bon ça y est, je suis largué. Hop, reprise des épisodes précédents !
@alvynflamel7362 Před 4 lety
Merci pour cette vidéo!
@jiluhk5477 Před 6 lety ⁺¹
Y-a-t-il un rapport entre la préférence pour la méthode des moindres carrés et l'utilisation de l'écart-type ( racine carrée de la variance, la moyenne des écarts à la moyenne au carré) plutôt qu'une moyenne des "distances" à la moyenne ?
(C'est peut-être pas très clair...)
@clementdelaunay6314 Před 6 lety ⁺³
Pour le problème XOR, il me semble que l'approche en SVM en changeant la dimension (en augmentant en général) résout le problème.
@christophe4253 Před 6 lety
Tout a fait, ça s'appuie sur la théorie de Vapnik-Chervonenkis si je ne m'abuse :)
@Yarflam Před 6 lety
Cette représentation de XOR m'intrigue ... j'aurai inversé les pouces haut/bas. Puis-ce que techniquement on peut dire que le point d'origine jusqu'à la première moitié abscisse & ordonnée symbolise un couple (0,0) donc ça vaut 0 = pouce vers le bas. C'est un détail ... merci pour cette vidéo. Je suis en train d'implémenter en Tensorflow en JS et effectivement c'est bien la galère quand tu ne connais pas la régression linéaire ; c'est la dernière pierre à l'édifice et très certainement la plus importante.
@keryannmassin5596 Před 6 lety
Bonjour Lê,
Dans le cadre de ta série de vidéo sur l'Intelligence Artificielle, penses-tu qu'il te serait possible de faire une vidéo sur l'apprentissage par renforcement, qui constitue l'une des bases des réseaux de neurones ? (Ou tout simplement une vidéo sur les réseaux de neurones). C'est un secteur de recherche en plein essor, aussi cela pourrait sans doute intéresser.
@SpringlesF Před 6 lety
Pour le problème xor est-ce qu'on peut s'en sortir en inversant simplement l'axe d'une des features? Il me semble même que les features concernées doivent êtres liées donc la solution serait peut-être de les analyser à part et de les "fusionner" en une seule feature.
@Pedro-xx8cw Před 6 lety
J'ai une question, est ce qu'il y a l'idée de famille libre, famille génératrice ou base lorsque l'on parle de classification lineaire de dimension d s'il te plait?
@MonCompteTubulaire Před 6 lety
Super vidéo ! Comme d'hab' quoi :p
@raphaelayache338 Před 6 lety
Au sujet des méthodes des moindres déviations et des moindres carrés, selon moi comparer ces deux méthodes revient à comparer les façons de mesurer les "erreurs totales" (avec la norme 1 pour la méthode des moindres dérivations ou avec la norme euclidienne pour la méthode des moindres carrés). La norme euclidienne étant la façon la plus naturelle de mesurer les distances il me semble que la méthode des moindres carrés est également la plus naturelle.
@paulamblard3836 Před 6 lety
pour le xor :
on peut se contenter de mettre seulement l'une de 4 région de coté.
ça ferait une grosse approximation, avec un coté valide à seulement 2/3 et l'autre valide à 100%, mais avec seulement la moitié des donné qui pourraient allez dedans.
Před 6 lety ⁺¹
Hey, c'est pas les chercheurs en IA qui ont inventé la régression linéaire, c'est les statisticiens ! Je sais bien que les informaticiens sont spécialistes de ré-inventer des trucs qui existent déjà et de leur donner un nouveau nom, mais tout de même, rendons a Césars ce qui lui appartient : une bonne partie du machine learning (dont la régression) existe depuis très longtemps et on trouve la majorité des méthodes "révolutionnaires" dans des bouquins de stat vieux de plus de 50 ans !
@himesoul6072 Před 6 lety
Salut ! Dans cet épisode tu fait ressortir la liaison entre l'algèbre linéaire et le deep learning que je veux étudier pour mon projet (tipe) de prépa. Aurais tu des sites ou explication pour me guider dans les études mathématiques ?
@lubinrobert-grandpierre9135 Před 6 lety
Est ce que tu compte parler des polynômes de Lagrange dans un prochain épisodes de ia ?
@maximebrd223 Před 6 lety
Merci Lê !
@Pradowpradow Před 6 lety ⁺³
Tout juste les cours que j'ai reçu ce dernier mois à l'école Centrale de Lyon!
r² est-il vraiment significatif de la vraisemblance d'un modèle linéaire, sachant qu'il peut être très grand quand on peut voir que les points suivent à vue d'oeil une autre loi?
@erwile Před 6 lety ⁺¹
Il y a une corrélation très forte au dessus de 0,8; mais le modèle linéaire n'est accepté que pour r^2>0.98; c'est ce que j'ai appris en IUT Mesures Physiques. Typiquement les lois physiques dont on connait la formule et dont on fait varier les bons paramètres de manière précise, c'est assez robuste et on est rarement avec r^2
@thibaulddelrieu2293 Před 6 lety
Dommage que tu ne soit pas rentré plus en détail sur les svm car ces dernières projettes les données dans un nouvel espace muni de d'un produit scalaire ce qui lui permet (en fonction de l'utilisation des fonction noyaux utilisée pour cette projection) de linéariser certains problèmes
@sabzygobi5055 Před 6 lety ⁺¹
La Transformée de Fourier me semble pouvoir être utile dans le problème XoR mais je ne saurais pas le formaliser ^^'
@TheCatbutcher Před 6 lety
Salut Lê !
Je me posais une question : en école d'ingé, tout ce que j'ai retenu c'est que pour une régression linéaire, lorsque R² > 0.8 on peut valider la corrélation et faire confiance au modèle. Saurais-tu (ou quelque mathématicien avisé) pourquoi on valide cela sachant que corrélation n'implique pas causalité ?
Et au passage merci pour tes vidéos, grâce à toi je découvre les mathématiques par le prisme historique et cela m'a fait comprendre énormément !
Et puis pour ton challenge du XOR, un simple perceptron à 2 couches le fait non ? Genre deux droites peuvent classifier les données à 100% de précision easy il me semble ?
@naonedtroll9144 Před 6 lety
E t grâce à la corrélation r de la relation linéaire y a il moyen d'appréhender une corrélation non linaire type exponentiel, inverse, puissance, racine ... ?
voir même définir la non-linéariter grâce a la relation entre la méthode des moindre déviation et des moindre carrés?
@AvatarsBlanc Před 6 lety
J'ai de plus en plus envie de faire mon TIPE sur ce sujet ^^
@flutterwondershyyay8255 Před 6 lety
Fonces! C'est totalement faisable (c'est un ancien PSI qui a fait son TIPE sur les réseaux de neurones qui te parle ;) )
@junkbingo4482 Před 4 lety
concernant correlation et causalite..... y a des debuts d'approches pas ininteressants, que l'on trouve par exemple chez gourieroux et monfort ( statistiques et modeles econometriques, tome 1)
@fefalmoro Před 6 lety
Bonjour,
Est ce que le machine learning utilise les statistiques et notamment les plans d'expériences définis par Fisher et Taguchi pour évaluer, la force de l'influence des facteurs sur les réponses. Je pense a cela car c'est une méthode utilisé en conception dans l'industrie pour savoir quels sont les paramètres que l'on doit surveiller et ceux qui sont moins prépondérants dans le but d'optimiser les coûts de fabrication, augmenter la fiabilité etc...
@TheFinelames Před 6 lety
Une petite coquille s'est glissée à 6:52. Vous avez dit qu'un hyperplan de dimension d est représenté par d+1 nombres (alors que vous avez écris qu'un hyperplan de dimension d+1 est représenté par d+1 nombres, ce qui est juste)
Comme toujours une excellente vidéo !
@gabrielc8399 Před 6 lety
Est-ce qu'il possible pour réduire le nombre de dimension sans perdre trop d'informations de combiner plusieurs dimensions en une seule ?
@salimyataghane7449 Před 6 lety
Je voudrais juste signaler qu'on appliquant l'ACP on effectue un changement de base, donc les dimensions qu'on garde à la fin n'ont rien à voir avec la base initiale, donc il faudrait trouver un sens aux nouvelles dimensions obtenues.
@paulamblard3836 Před 6 lety
Pour choisir entre l’approximation par moindre carré ou linéaire, il faudrait calculé avec quoi on fait la meilleur approximation d'une gaussienne.
(Actuellement, j'ai la flème de réfléchir à quelle méthode utilisé pour faire l’approximation dans les 2 cas; définir "meilleur", et faire les calcules. Je reviendrait.)
@fredgarcialevrai Před 6 lety ⁺⁴
OK, je crois que je dois réviser le précédent épisode. Par contre je ne connaissais pas le "la causalité n'implique pas la corrélation", je vais creuser le sujet ! EDIT : c'est une référence au problème d'inférence causale ?
@yugoogle9141 Před 6 lety ⁺⁶
j'ai plutôt compris ça comme étant : "la causalité n'entraine pas la corrélation *linéaire*" c'est à dire que y ne varie pas linéairement selon x, comme avec l'exemple de y=e^x...mais on a bien causalité, et on a bien corrélation "exponentielle", c'est à dire que y est corrélé "linéairement" avec e^x
(De même, si y=sin(x), il y a relation causale, et si tu trace y en fonction non pas de x mais de sin(x), tu as une belle droite)
C'est comme ça que je l'ai compris et c'est l’expérience pratique que j'ai de la régression linéaire, aussi je m'excuse si j'ai mal interprété et je tiens à le savoir si c'est le cas ^^
@fredgarcialevrai Před 6 lety
Ah oui, je ne l'avais pas envisagé comme ça, merci !
@unclemax8797 Před 6 lety
la causalite est inferee, mais c'est une correlation qu'on mesure.......... on a meme des variantes! dans les series temporelles, on peut avoir de la sims ou de la granger causalite..... on dira ' X ' granger cause' Y)
@weak7897 Před 6 lety
Cette vidéo c'est un chapitre de mon cours de stats...
Sans les formules et les théorèmes de partout.
@link69096 Před 5 lety
Pourquoi causalité n implique pas correlation ? Je suis d'accord avec les correlations linéaires mais si y=sinx ne peut on pas dire que y est corrélé a x?
@edouarddelaire1939 Před 6 lety
9:26, comme ça je dirai : kernel tricks ;) Il y a d'ailleurs des choses très sympas à voir du coté des locally linear svm.
@le_science4all Před 6 lety ⁺¹
Héhé ^^
@Kolinnor Před 6 lety
Salut Lê et la communauté de S4A, je suis en L1 de maths et je sors d'un semestre de prépa MPSI. J'ai une question qui n'a rien à voir avec les sujets actuels de vidéos.
En physique, les profs utilisent très souvent les notations "df", "dx" toutes seules, c'est-à-dire sans que l'on parle de dérivée ; pourtant, on associe très souvent à ces notations les propriétés de la dérivation (exemple : df/dx = (df/da)*(da/dx), et après on dit que df/da est la dérivée de x par rapport à a, etc).
et j'ai l'impression en demandant aux profs et aux gens autour de moi que personne ne comprend vraiment cette notation mais "qu'elle marche bien". Typiquement, mon prof de physique de prépa m'avait dit "tu prends la relation df/dx = f'(x), et tu multiplies des 2 côtés par dx " . Cela ne m'a absolument pas convaincu puisque la dérivation est plus qu'un simple quotient ! J'en viens parfois à me demander s'il existe une théorie rigoureuse à ce sujet ..
Enfin voilà, dans l'ensemble je suis assez confus, si quelqu'un pouvait éclairer ma lanterne ou me renseigner sur la documentation à ce sujet ! Merci
@gordub Před 6 lety
Ce n'est pas une solution linéaire, mais pour le XOR avec des features de dim2, en prenant le graphe de x ---> y0 + 1/(x-x0)
où (x0,y0) serait les coordonnées de l'isobarycentre des features (À définir proprement quand on est pas dans IR²), on obtiendrait le graphe de la fonction inverse, centré en (x0,y0). Et normalement ça devrait plutôt séparer les données en deux régions distinctes. Mais c'est quand même moins régulier qu'avec une droite...
@gabrielfrey3004 Před 6 lety ⁺⁴
Utiliser deux droites de séparations plutôt qu'une seule pour le cas XOR ?
Ce qui est amusant c'est que le cas XOR était déjà le cas problématique pour les réseaux de neurones artificiels basiques d'il y a 25 ans.
@mathieuaurousseau100 Před 6 lety ⁺²
Je crois que c'est pour ça que Lê en parle :)
@bacrimapardon9238 Před 6 lety
ça l'était pour les perceptrons, c'est-à-dire les réseaux à une seule couche. On savait déjà que c'était faisable avec une couche supplémentaire, mais on ne savait pas comment entraîner un tel réseau. Maintenant on sait ^^.
@Cactuskipikkk Před 6 lety
Pour le XOR, c'est une hyperbole qui sépare les données, non ?
@Fine_Mouche Před 6 lety ⁺¹
Pourrais-tu faire une vidéo H.S sur les prix Turing ?
@le_science4all Před 6 lety ⁺¹
Y en a beaucoup des prix Turing ^^
@thermochannel Před 5 lety
Sachant que
Xor(x,y) = Or(And(Not(x),y),And(x,Not(y)))
il est peut-être possible de le décomposer en plusieurs (six) étapes solvables individuellement par des méthodes de classification linéaires...
me trompe-je ?..
@antoninperonnet6138 Před 6 lety ⁺¹
sérieux les gars !
@nylanderiafulva7765 Před 5 lety
4:23, "Pour x entre 0 et 100, la corrélation est inférieur à 30%"
Corrélation entre quoi et quoi ?
@MrSpikegee Před 3 lety
C’est super comme explications, par contre sur les « Lei balls », c’est indécent le nombre de fois que celles ci ont été citées, ça me surprend que CZcams n’ait pas démonétisé cette vidéo.
@tburn8888 Před 6 lety
Cest quoi la différence alors avec le lissage exponentiel
@charlesgislard9073 Před 6 lety ⁺¹
Pour le problème XOR ça ressemble à f(n) = 1/x. Faut-il évoluer la droite en courbe ?
@gordub Před 6 lety
Je me posait la même question... Mais on perdrait la linéarité...
@georgespichot7161 Před 6 lety
charles gislard j
@flutterwondershyyay8255 Před 6 lety ⁺²
En minimisant les carrés, j'ai l'impression qu'on accorde beaucoup plus d'importances aux points loin de la droite de régression que l'on cherche à obtenir (si d, la distance du point à la droite, augmente, alors d² accélère)
Or, c'est justement ces points là les moins pertinents non?
J'ai alors l'impression que minimiser les carrés n'est juste qu'une astuce permettant de simplifier les calculs
@yugoogle9141 Před 6 lety
C'est la question que je me pose également, pourquoi accorder plus "d'importance" à ces points ?
@alexrvolt662 Před 6 lety ⁺²
justement parce qu'ils sont moins probables. Pour une valeur théorique Y_th (obtenue par corrélation) , la probabilité que la valeur expérimentale Y_exp soit loin est faible, ce qui tend à signifier que la droite théorique ne peut pas s'éloigner bcp de ce point. (ouh là je suis pas sûr d'être clair là)
@yugoogle9141 Před 6 lety
D'où ma question ^^, pourquoi donner plus d'importance à certains points plutôt qu'à d'autre, en particulier ici à ceux que tu dis être les "moins probables" ?
@alexrvolt662 Před 6 lety ⁺¹
Assurons nous déjà de parler de la même chose : nous ne parlons pas ici des points qui sont aberrants. Ces derniers, trop éloignés de ce qui est crédible, ne sont pas pris en compte du tout. Nous parlons des points qui sont "vrais", mais qui s'éloignent de la tendance dessinée par les autres. On est d'accord jusque là?
Du coup :
on n'a pas une droite qui est "posée a priori", et des points qui en sont plus ou moins loin. Au contraire : on a des points, et on cherche à faire en sorte que la droite passe "au plus près".
Donc si on envisage une droite arbitraire, et qu'un point est "loin", c'est improbable. C'est donc que la meilleure droite doit en fait être "moins loin" dudit point (mais bien-entendu, chaque autre point "tire" la droite à lui même, aussi).
Au final, avec la droite optimale,
- si tous les points sont proches, on a bonne confiance dans la représentativité de la droite : tous les écarts observés sont probablement dus à l'incertitude de mesure
- s'il reste des points relativement loin, ces derniers font baisser le coefficient de corrélation r² : cela indique que l'on a "peu confiance" dans cette droite (même optimale), car elle laisse derrière elle des valeurs qui n'ont que peu de chances d'être dues au hasard/ à l'incertitude de mesure.
(Cette réponse est encore moins claire que la précédente, j'ai l'impression #) )
@yugoogle9141 Před 6 lety ⁺¹
alex rvolt Ça y est je crois que j'ai l'idée ;-) par contre ce que je demandais par "donner plus d'importance" c'était plutôt pourquoi x^2 plutôt que x...et pourquoi pas x^3/2 dans ce cas ? Pourquoi moindre carré plutôt que moindre déviation et c'est un peu la question ouverte que Lê posait...et pourquoi les moindres carrees est plus appliqué en science ( c'est celle que j'applique) ? Voilà c'est peut-être plus clair comme ça ^^
@mraninabil5635 Před 3 lety
peut on dire que au final la régression linéaire est une interpolation ?
@gremibarnou8146 Před 6 lety
[INTROSPECTION]
J'ai l'impression que l'IA peut être approché par le néophyte qui n'a pas de base solide en mathématique. (Il n'y a qu'a voir tout les framework relativement accessible).
Ma question: d'après votre expérience, à quel niveau en IA pensez vous qu'un tel profil non mathématicien pourrait-il prétendre aujourd'hui ?
@AdrienBRUNO Před 6 lety
Bravo pour vos vidéos toutes très intéressantes!! Pour info, Alpha zero a battu aussi la machine spécialiste du Shogi. Je me demande si alpha zero ne deviendrait pas une machine universelle, bien entendu limité aux jeux... Une deuxième remarque: Yan Lecun fait remarquer que c'est facile de réaliser une machine spécialiste en jeux, plus difficile de réaliser une voiture autonome: par exemple la faire s'éclater contre un arbre autant qu'elle le veut pour qu'enfin elle comprenne que ce n'est pas bien (coût).... fin de remarque de Yann. En fait , je ne vois pas de différence entre le jeu et la vraie vie. Dans les deux cas, il y a de la localisation et des objets en déplacement, un système physique en qq sorte. Il suffit dans les deux cas de trouver des règles et faire tourner la machine pour qu'elle apprenne. L'environnement se limite aux règles, c'est pauvre mais pourquoi pas. (apprendre de l'humain n'a aucun intérêt) C'est donc du machine learning. En attendant, pour éviter les accidents répétitifs, les machines apprennent sur de la vidéo enregistrée et de la vidéo créée de toute pièce grâce au GAN. (nous faisons la même chose nous nous appuyons sur ce que nous connaissons et nous essayons d'imaginer des cas plus complexe pour anticiper notre façon de procéder). L'objectif de deepmind est 1- comprendre ce qu'est l'intelligence 2- tout faire avec! Je pense que l'on peut faire confiance à Hassabis pdg de deepmind pour créer la vrai machine universelle.
@yugoogle9141 Před 6 lety
Si j'ai bien compris et que je poursuis plus loin le raisonnement sur la complexité en l'appliquant au système le plus grand possible c'est à dire l'univers : toute la complexité de l'univers à un jour été comprise dans la tête d'épingle que celui-ci était ? Et ça ne serait qu'une portion de cette complexité qui nous a été transmise dans le développement de l'homme, de la vie ? Et que la complexité de l'univers est constante et ne peut augmenter ?
@jldessalles Před 6 lety
La complexité du programme comme A0 qui apprend en jouant contre lui-même est faible au sens de Solomonoff/Kolmogorov/Chaitin, mais on peut la capturer par la "profondeur de Bennett" qui prend en compte le temps d'exécution du programme minimal.
@4el-tv Před 6 lety
Super vidéo. Merci. Il y a cependant une petite erreur. Le portrait de Legendre qui apparaît à 2:21 est celui de Louis Legendre, un politicien français. On ne connaît qu'une caricature d'Adrien-Marie Legendre, visible sur Wikipédia : fr.wikipedia.org/wiki/Adrien-Marie_Legendre
@le_science4all Před 6 lety
Ah merde ! En même temps la caricature du pauvre Legendre est tellement peu flatteuse ^^
@sylvainalazet6755 Před 6 lety
Si j'ai bien compris, la différence entre la méthode des moindres variations et moindres carrés est :
- Pour les moindres variations, l'objectif est de minimiser l'écart entre la droite et les points. Si on divise ça par le nombre de points, on peut dire que l'objectif de la méthode est de minimiser la moyenne des écarts
- Pour les moindres carrées, l'objectif est de minimiser les écarts au carré entre la droite et les points.Si on divise ça par le nombre de points, on peut alors dire que l'objectif de la méthode est de minimiser la variance des écarts (ou l'écart-type).
La question est donc : Dans ce cas là, est-ce plus pertinent de minimiser la moyenne ou l'écart type ??
Nos points sont issus de mesures, et j'ai l'impression que souvent c'est 1 ou 2 points qui dérangent particulièrement. Du coup, pour minimiser leur influence sur la courbe, je pense que c'est mieux la méthode des moindres variations.
(Mais en vrai je doute vu qu'à l'école on nous apprend la méthode des moindres carrés, pk nous apprendre celle-là si c'est la moins pertinente ? ^^)
Je viens de penser aussi, on pourrait dire que sur nos mesures, on fait tout d'abord la technique des moindres variations et on supprime par exemple 10 % des mesures les plus éloignées ; puis avec les mesures restantes, on fait la technique des moindres carrés.
Pck quand il n'y a pas de points particulièrement dérangeant, j'ai l'impression que minimiser l'écart-type est un peu plus intéressant que la moyenne, vu qu'on cherche une droite qui limite la disparition des points à celle-ci.
@mathiasautexier Před 6 lety
Heureusement qu il y a les schémas pour concrétiser le discours, sinon j étais plus que largué 😛 ...
Sinon pour le petit clin d œil à la fin ,la complexité de Solomonov dépends effectivement du temps, l univers tel que nous connaissons en est un excellent exemple je crois ...
@thomascollonville9448 Před 6 lety
cela dit, tres bonne video comme d'hab mais le travail de vulgairsation diminu, ou c'est le level qui monte je ne sais pas... ca manque d'exemple plus concret je pense Le
@jeanmanu Před 6 lety
Je super frustré de ne pas tout comprendre. Sinon, à 6:51 tu dis représenter "un espace de dimension D par D+1 nombre" déjà je comprends pas pourquoi D+1 alors que espace de dimension 1-> 1 nombres, dimension 2->2nb, dimension 3->3 nb ... donc dimension d d nombres non ? En plus il y a marqué Dimension d+1 --> d+1 ... Qu'en est-il ?
@weak7897 Před 6 lety
Théorème Central Limite RPZ
@Chayan1735 Před 5 lety
4:03 "...la corrélation est égale à -1 lorsqu'elle descend et contient les données...". Il me semble qu'une corrélation négative exprime des tendances opposées, et non pas la pente d'une tendance commune. Que ce soit entre deux jeux de données ou un modèle et un jeu de données.
Pour illustrer: i.postimg.cc/G2mkFnsL/correlations.png
(Oui je sais, un peu tard pour commenter)
@gordub Před 6 lety
Le graphe que tu montres pour le XOR ne serait-il pas plutôt un XNOR ? En considérant que le "thumb up" vaut 1, et le "thumb down" vaut 0, évidemment.
@gabrielc8399 Před 6 lety
Pour la question de la complexité du cerveau enfant, peut on vraiment considérer qu'elle est de l'ordre de la quantité d'informations de l'ADN, étant donné que les lois de la chimie/biologie sont beaucoup plus compliqué que celle d'une machine de Turing ? L'adn ne serait-il plutôt quelque chose comme la graine d'un automate cellulaire incroyablement complexe ; ou ne s'agirait-il pas d'un cas similaire à celui de Alpha-0 ?
@elisagibaux3353 Před 6 lety
Notre ADN contient énormément d'informations "inutiles". Plus de 80% (on avance souvent le chiffre de 98%) de notre ADN ne code aucune pour aucune protéines. Par exemple, on a des télomères à l'extrémité de nos chromosomes; Grosso modo, c'est de l'ADN ne contenant aucune information utile. Sa présence s'explique juste de par le fait qu'avec le temps les chromosomes prennent des dégâts, surtout aux extrémités, sans les télomères, ce serait des parties codantes importantes qui se retrouverait endommagés (Le raccourcissement des télomères avec le temps explique notamment une partie des problèmes du vieillissement)
Et de plus, comme je crois que tu le souligne, l'ADN ne fait que coder des protéines, qui sont un peu les outils multi-fonctions du corps humain. On a des protéines pour un peu tout et n'importe quoi (structures, enzymes, transports, signalisation et cetera). Néanmoins, notre corps et son fonctionnement, ce n'est pas que des protéines. Si l'on s’intéresse à l'activité biologique d'un être vivant, on voit bien d'autres choses que des protéines, il y a minéraux, sucres, gras, tout un tas de chose qui ne sont absolument pas codé par l'ADN
Imagine Bernard. Bernard est un ermite qui vie dans la foret. Bernard possède un livre énorme dont 80% des pages ne contient pas d'informations utiles, et le reste, des plans pour faire tout un tas d'outil à partir de matériaux de bases. Bernard va construire des outils, et Bernard va se faire une maison, un champ, bref, Bernard va faire tout un tas de choses.
Résumer l'information de la vie par l'ADN (ou tout autre forme d'information génétique) , ce serait résumer l'information de ce que fait Bernard au livre des outils
L'information génétique est essentiel aux processus biologiques, mais les processus biologiques ne sont pas réductibles à l'information génétique
@gabrielc8399 Před 6 lety
Merci pour ta réponse, tu vulgarises/expliques vraiment bien.
À vrai dire je ne pensais pas que l'information de l'ADN pourrais être compressée autant, mais idem quand informatique, la fiabilité du stockage de l'information est aussi importante que la quantité où l'optimisation (sur les stockages informatique de données aussi on enregistre des données redondantes pour contrer les problèmes d'usure).
@zouki5152 Před 6 lety
Est ce qu'une machine peut gagner en complexité de Solomonove (déso pour l'orthographe) à partir du hasard ? Je pense à ton exemple de l IA alphazero qui a appris tout seul à jouer contre lui même. Ne peut on pas dire que cette machine a tiré de la complexité de Solomonove du hasard ? (si il y a du hasard dans l'algorithme, je sais pas).
@le_science4all Před 6 lety
La réponse est oui. J'en ai parlé dans les commentaires de la vidéo précédente. Le hasard a une grande complexité de Solomonoff.
Le problème, c'est aussi que c'est de la complexité de Solomonoff "inutile". En général, ça n'aide pas à résoudre des problèmes.
@user-qo7qt3wq7h Před 6 lety
7:15 équations normales ?
@ElMahdiELMHAMDI Před 6 lety
Salut, je suis juste passé vérifier que c'est toujours "la complexité de Solomonoff" après le dérapage de la vidéo 7.
twitter.com/L_badikho/status/920298023346896898
@papasenyseye Před 3 lety
j'ai rien compris mais c'est interessant
@mathieuaurousseau100 Před 6 lety ⁺⁴
Bas non, la régression linéaire c'est pour les relations affines ^^
(les relations linéaires passent forcément par 0)
Sinon pour le ou exclusif, ne suffirait-il pas d'utiliser deux droites de rupture au lieu d'une?
@mathieuaurousseau100 Před 6 lety ⁺²
Dragon Rock je crois que tu as compris mon commentaire à l'envers :) je disait justement que que la régression linéaire s'appliquaient aussi bien au relation affines que linéaire alors que Lê a sous-entendu qu'elle s'appliquait uniquement au relation affines (7:20)
@mathieuaurousseau100 Před 6 lety
De rien :)
@talesseed Před 6 lety ⁺⁷
À 6:53, Lê dit dimension d au lieu de d+1. Sinon bonne vidéo ! :)
@arthur72164 Před 6 lety
merci, ca m'avais fait buger et j'etais pas content
@daubert4892 Před 6 lety ⁺²
J’avais remarqué aussi. Lê doit maintenant faire pénitence.
@Algneo Před 6 lety
Un hyperplan d'un espace de dimension d+1 est de dimension d et se représente par d+1 nombre.
@kiruakirua9362 Před 6 lety
Bonjour,
Une remarque concernant la phrase à 17:01, tu dis en parlant de alphazero que "pour passer de l'état initial à l'état où elle est aujourd'hui en fait le temps de calcul est absolument énorme".
Cela m'étonne car j'ai lu que l'IA n’avait joué "que" 44 millions de parties et 4h d''"entrainement" contre elle-même.
Je n'ai peut-être pas bien compris ta phrase ou bien les explications de l'apprentissage d'Alphazero mais je trouve au contraire le temps de calcul absolument ridicule pour construire une IA quasi imbattable aux échecs.
@le_science4all Před 6 lety
Oui je considère que 4h d'entraînement c'est beaucoup. T'as pas trop envie que ton adversaire aux échecs mette 4h pour jouer un coup...
@jeanalme6109 Před 6 lety
Après, il me semble qu'il ne faut pas confondre entraînement et prédiction. En prédiction l'algorithme est "rapide". En entraînement il est plus lent. Mais d'un autre côté, je ne connais pas d'humain, qui parte de 0 connaissance à maître des échecs en 4h, donc finalement ça me semble rapide ?
@kerany451 Před 6 lety
J'arrive un peu milles ans après la guerre mais bon...
A la fin, tu parles de régressions logistiques, comme étant des courbes en "S". De ce que j'ai pu voir en fait, la différence entre la régression linéaire et logistique n'est que le fait que la régression logistique va tracer une droite servant à séparer 2 catégories (e.g., chiens et chats pour la reconnaissance d'image), seulement, la régression logistique est aussi linéaire, d'où le problème du machine learning dit basique, auquel on a dû ajouter une voir, plusieurs couches cachées pour pallier à ces problèmes et faire du Deep Learning.
@TheAnat001 Před 6 lety
Est-ce qu'il ne faudrait pas créer une notion de complexité plus générale, qui prend en compte la complexité de Solomonov mais aussi la quantité de calcul qui a été nécéssaire pour atteindre un code capable de tourner à partir du code initial ? Aprés tout, si l'univers a commencé par un big bang et une grande soupe de matière, alors la complexité de Solomonov de l'univers est très faible, et on pourrait peut-être décrire toutes les informations nécéssaire pour atteindre l'univers aujourd'hui avec très peu d'informations initiales. Ce qui nous sépare du ~code~de l'univers tel qu'il est aujourd'hui, c'est la quantité cosmique de ~calculs~ qui ont été effectués en 13 milliards d'années depuis le big bang.
@le_science4all Před 6 lety
Je pense que oui ! Je pense aussi que trouver une jolie définition qui formalise tout ça, et une théorie qui permet de bien comprendre tout ça, c'est un prix Turing :P
@TheAnat001 Před 6 lety
Je m'y met tout de suite.
@yugoogle9141 Před 6 lety
Je perçois une grande corrélation sémantique entre complexité et entropie...on m'explique ? ^^
@le_science4all Před 6 lety
Les deux sont très liés ;)
@yugoogle9141 Před 6 lety
Science4All Hum, j'ai essayé d'y réfléchir...il y a dans les deux notions celle de décrire un système mais alors que l'entropie se contente d'une description présente, fixée dans temps, la complexité se ramène à une description la plus fondamental possible, indépendamment du temps...ça expliquerait peut être pourquoi l'entropie d'un système fermé ne peut qu'augmenter alors que la complexité de celui ci ne peut que rester constante...c'est très pauvre comme réflexion je l'admets, j'espère secrètement (oups plus maintenant) que tu vas apporter qqreponses la dessous mais quoi qu'il arrive je vais continuer d'y réfléchir ;-)
@aurelienperdriaud108 Před 6 lety ⁺²
Pour cet épisode j'ai lâché, désolé :(
J'ai commencé à avoir su mal à partir du moment où tu parles de la corrélation.
Et complètement lâché à partir des variations, et donc pour le reste de l'épisode j'ai rien compris.
Je n'ai même pas compris d'où on sortait ces "variations", c'est qui au juste ?
De plus cette variable r qui correspond au "taux de corrélation" me paraît beaucoup trop abstraite pour moi. Et puis au juste, qu'est-ce que c'est exactement une "corrélation" ? (même si je vois un peu près c'est quoi)
Bon je dois être un peu idiot au fond :(
Mais du-coup, je suis triste :'(
@Nalojuntu Před 6 lety ⁺²
Pareil pour moi. C'est raide là. J'ai pas fait de prépa, juste un DUT multimédia... dans lequel on faisait pas de maths. En gros, j'ai arrêté les maths au bac.
Là, j'étais largué.
Mais bon, j'ai compris certaines philosophies générales de la vidéo.
@paulamblard3836 Před 6 lety ⁺¹
La corrélation, en gros, c'est une tendance à 2 choses d’arrivé en même temps, plus souvent que si ses choses étaient tiré indépendamment.
Il a directement balancer la formule général, donc c'est pas évidant de visualiser, mais ça n'est pas nécessaire de comprendre totalement pour comprendre se que l'on cherche à faire.
Exemple de choses corrélé : habiter en France, et avoir le français comme langue maternel.
Il y a plein d’exception dans les 2 sens, mais quand quelqu'un a l'un, il a plus de chance d'avoir l'autre que quelqu'un tiré aléatoirement dans la population mondial.
Ici, il y a des exemple dans des cas continue : fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques)#D%C3%A9pendance
Dans se cas, on ne se constante pas de dire "ça correspond" ou "ça correspond pas", mais on regarde si c'est plus ou moins proche.
La façon de calculé "plus ou moins proche" est arbitraire, et c'est se dont il parlait pour les 2 méthode pour trouver la "meilleur" droite.
@JosephGarnier Před 6 lety ⁺¹
En plus des réponses précédentes, cette vidéo vulgarise très bien la notion de corrélation : czcams.com/video/aOX0pIwBCvw/video.html
@aurelienperdriaud108 Před 6 lety
Merci pour toutes vos réponses, je vais m'y pencher ^^
@le_science4all Před 6 lety ⁺²
Oui il y a pas mal de détails techniques que je n'ai pas explicités (notamment les définitions formelles de la corrélation et de la variation).
Il est plus que normal de ne pas tout comprendre en regardant cette vidéo.
Mais ce n'est pas le but de la vidéo. Le but est de travailler l'intuition de ce que signifie les objets.
La corrélation, c'est à quel point la régression linéaire colle aux données. Et la variation, c'est à quel point les labels varient (notamment si on oublie les features).
@jackseg1980 Před 6 lety ⁺¹
J'ai pas compris ton "je pense que la bonne réponse est Parisienne..."
je dois avoir mal compris
@le_science4all Před 6 lety ⁺²
Haha ! Pas "parisienne" mais "bayésienne" ;)
@jean_sebastien Před 6 lety
L'industrie à choisi les moindres carré pour calculer les élément de géométrie idéal associé à une surface réel et moi ça me va
@juliengomes7810 Před 2 lety
Supervvideo
@darlinngankam5954 Před 2 lety
Merci pour les vidéos vraiment c'est super ☺️ mais tu parles trop trop trop vite ... Pour comprendre il faut écouter encore et encore ...
@thomascollonville9448 Před 6 lety ⁺¹
c'est parceque X-OR c'est le cherif de l'espace... ^^ ok je xor....
@bod9317 Před 6 lety
Aaaah ce Pierre Simon Laplace, décidément...
@kaiminus Před 6 lety ⁺³
imgur.com/wkWuywo
Désolé mais je me sentais obligé d'en faire un gif.
@redswap Před 6 lety
Un truc XOR ? C'est corrigé avec un réseau de neurones : playground.tensorflow.org
@redswap Před 6 lety
J'ai tué XOR ! XD
@Mwendigo Před 6 lety
Features... Labels... Raah ça me perd continuellement dans l'épisode xD
@anthonym.5292 Před 2 lety
La bonne réponse est l'inaction, selon toi, et non la oindre action selon les physiciens classiques...
@lecreeperweeb4813 Před 6 lety
Lol commentaire 2 alors qu'en faite y'en a 4
@yodasky99 Před 6 lety
ca y est tu m as perdu depuis l episode 8.... domage l'IA est un sujet pasionant, mais la ca devient des math, c'est plus de la vulgarisation comme ton episode 1 qui etait genial...
@unclemax8797 Před 6 lety
je vais un peu cracher dans la soupe du deeplearning et des reseaux convolutifs............ vu ton age tu n'a s pas connu......
y a 20 ans est ne un truc qui mettait les statistiques au rencard, ca s'appelait datamining.........
( bon saporta a quand meme ecrit un article ' le datamining, une autre facon de faire des statistiques?', mais ca c'est pour les vieux qui n'ont rien compris)
a la poubelle, la theorie des sondages, les probabilites, le modele lineaire, gourierous et monfort, makidakis, saporta, maddala et tous ces trucs de vieux cons!!!!!!! on a l'algorithme miracle qui calcule toutes les correlations sur tout dans les bases de donnees, sait tout, et decouvre tout............
' find a needle in a haystack', c'etait le leitmotiv................
on a vu comme ca a ete utilise, et ce que ca a donne
je rigole! 20 ans plus tard, je remplace ' reseau de neurones' par ' deeplearning ( dont personne ne sait que c'est des ann), et le discours n'a pas bouge d'un iota
j'attend patiemment 5 ans, parce que autant ca peut etre utile, autant certains qui ont rate des marches dans la montee vont vite redescendre lors d'utilisations a mauvais escient! je suis pret a lever les paris ;-)
il suffit de lire certains sites/blogs et autres fait par des phd en deeplearning pour se dire que mine de rien, y a des trucs qui manquent!............ wait and see, l'experience forme la jeunesse
bonne soiree
@micabloreplay4504 Před 6 lety
Je comprends plus rien à cause des anglissicismes à la con style "labels" et cie.
J'ai pas envie de retourner voir à chaque épisode les vieiles vidéos pour avoir les définitions en tête donc je vais m'arrêter là.
Bonne continuation!
@bououdamehdi6386 Před 6 lety
First
@arthur72164 Před 6 lety
desolé mais c'etait moi ;)
@arthur72164 Před 6 lety ⁺¹
first !

Další v pořadí

Automatické přehrávání

La bidouille non-linéaire (kernel trick) | Intelligence Artificielle 10