Les réseaux de convolution (CNN) | Intelligence artificielle 47

Sdílet
Vložit
  • čas přidán 28. 10. 2018
  • Les réseaux de convolution sont des réseaux de neurones artificiels inspirés du cortex visuel des humains.
    Facebook : / science4allorg
    Twitter : / science__4__all
    Tipeee : www.tipeee.com/science4all
    La formule du savoir (mon livre) :
    laboutique.edpsciences.fr/pro...
    A Roadmap for the Value-Loading Problem
    arxiv.org/abs/1809.01036
    Moi en podcast avec Mr Phi :
    Version CZcams : / @axiome7403
    Version Audio : feeds.feedburner.com/Axiome
    Sous-titres sur les autres vidéos : czcams.com/users/timedtext_cs_p...
  • Věda a technologie

Komentáře • 87

  • @nicholasbodart9979
    @nicholasbodart9979 Před 4 lety +8

    Merci pour cette vidéo.
    Je découvre votre chaine, par hasard, en faisant un état de l'art. Et je trouve vos explications extrêmement clairs et fluides (et denses également).
    Merci encore une fois

  • @wellan4072
    @wellan4072 Před 5 lety +1

    Oui oui et oui merci Lê pour ton travail, cette série est vraiment trop bien.

  • @gabinletueur
    @gabinletueur Před 5 lety +2

    Je viens de finir le livre de Stanislas Dehaene "La bosse des maths" et je confirme, ce que raconte cet homme est passionnant !

  • @obchardon
    @obchardon Před 5 lety +2

    Hello, merci beaucoup pour cette série de vidéo, géniale ! Intuitivement je dirais qu'un "max pooling" aurait plus tendance à conserver les éléments très distinctif de l'image et donc à être plus discriminent.

  • @PatriceFERLET
    @PatriceFERLET Před 5 lety +1

    Faut vraiment que tu parles des autoencodeurs. C'est très utile, notamment dans les techniques d'OCR.

  • @dad-d
    @dad-d Před 5 lety +2

    Merci pour la vidéo ! Petite question, Est-ce-que les réseaux de neurones sont sensibles aux illusions d'optique. (je pense notamment au célèbre lapin canard).

  • @castoramanwab2723
    @castoramanwab2723 Před 5 lety

    Tu tombe pile sur le contenu de mon cours, j'ai un CNN à implémenter avec tensorflow pour demain en Computer Vision!

  • @antaresd1
    @antaresd1 Před 3 lety +1

    Man what an amazing video, you solved all my doubts thank you very much! Luckily I speak french, but I think you should put some english subtitles, that can help a lot des personnes non francophones

  • @choupinette841
    @choupinette841 Před 5 lety

    Super comme vidéo, merci beaucoup.

  • @TheNightsWatchHels
    @TheNightsWatchHels Před 5 lety +5

    - Mais Lê pourquoi tu pars avec une cuillère ?
    - t'inquiètes pas j'ai une idée !

  • @fringzproduction4802
    @fringzproduction4802 Před 3 lety

    Excellente vidéo, merci !

  • @hlb4590
    @hlb4590 Před 5 lety +2

    Sur le supériorité de max pooling sur average, c'était déjà le cas en pratique "avant", avec les sacs de mots visuels et les Fisher Vector. Les raisons n'en sont pas toujours claires mais il y a des indices dans certains cas. Basiquement, une statistique d'ordre telle que max peut être plus robustes à des bruits et ainsi mieux représenter certains invariants désirables par exemple. Ça doit être expliqué dans le chapitre 6 du livre de Goodfelow, dans la partie concernant le pooling.

  • @quarkneutre2890
    @quarkneutre2890 Před 5 lety +19

    J'ai crut que le chien crachait du feu.

    • @Yarflam
      @Yarflam Před 5 lety +7

      Non ce n'est pas un chien, il ne faut pas mélanger identité de race et identité de créature ... c'est un dragon (enfin je crois) !! :D

  • @Lunard8128
    @Lunard8128 Před 5 lety +2

    6:56 Il me semble que prendre le maximum se comporte mieux par translation que la moyenne. C'est peut être ça qui fait mieux marcher les choses?

  • @bosonde-geek5297
    @bosonde-geek5297 Před 5 lety

    hey merci de m'avoir répondu ;)

  • @tens8534
    @tens8534 Před 5 lety

    Pour calculer la matrice de convolution, on sélectionne le premier neurone aléatoirement ? ou y'a t-il un facteur dans le choix de ce neurone (hétérogénéité des données issues des neurones d’observation) pour déterminer la matrice de convolution qu'ensuite on appliquera comme poids à chaque neurone de la même couche ?

  • @theoi3921
    @theoi3921 Před 5 lety

    Est-ce qu'on peut estimer la quantité de calcul qu'exige une image d'une autre?
    Savoir quelle puissance de calcul il faut pour l'analyser?

  • @jeanpeuplu3862
    @jeanpeuplu3862 Před 2 lety

    Merci beaucoup !

  • @ade8803
    @ade8803 Před 5 lety

    Héhé 🤖
    Quel beau cadeau

  • @NEBREUELPHFTARRRR
    @NEBREUELPHFTARRRR Před 5 lety

    je me demande si lorsque les ia auront une conscience certaines d'entre elles auront des personnalités multiples et est-ce souhaitable ?

  • @sibamarcel9428
    @sibamarcel9428 Před 5 lety

    Je voulais acheter votre livre. Mais je n´en trouve pas en Allemagne. Pouvez vous me guider s´il vous plait

  • @stephanevernede8107
    @stephanevernede8107 Před 5 lety

    Si les réseaux récurent sont adaptés au problèmes avec une symétrie de translation temporelle et les réseaux convolutif sont adapté au problèmes avec un symétrie de translation spatiale quelle est l'architecture adaptée pour les problèmes avec des invariance d'échelle (par exemple reconnaitre des formes géométrique quelque soit leur taille ) ?

  • @alexandermaclennan4271
    @alexandermaclennan4271 Před 4 lety +1

    Bonjour, j'ai du mal à comprendre concrètement comment se traduit "l'architecture pré-programmée pour l'invariance par translation des images". Est-ce que par exemple cela veut dire qu'en présentant au réseau une image A de face et une image B légèrement de côté du même objet, un CNN n'aura aucune difficulté à "voir" que les objets sont les même?

  • @thomaslabro9418
    @thomaslabro9418 Před 5 lety

    Salut, je me demandais si ton site en français était encore accessible car j'ai un message d'erreur " error establishing a data base connection" lorsque j'essaye d'y aller. D'ailleurs si n'importe qui a une réponse je suis preneur. Merci d'avance.

  • @ivanchosse7707
    @ivanchosse7707 Před 5 lety

    bonjour! avez vous un lien de famille avec Eric Nguyen?

  • @meerkatj9363
    @meerkatj9363 Před 5 lety

    Je pense qu'il y a une erreur sur le pooling (ou j'ai peut-être mal compris) j'ai compris que tu disais que le pooling se fait en faisant la moyenne ou le max sur les filtres pour chaque pixel de sortie de la convolution alors que le pooling est fait sur des pixels proches dans l'image, pas sur les différents filtres. Du coup si on a une image 28x28 qu'on passe avec 8 filtres de convolutions 4x4 on obtient 8 images 24x24 is en suite on fait un pooling 2x2 on obtient 8 images de 12x12.

  • @dappermink
    @dappermink Před 5 lety +1

    Combien de vidéos durera encore la série ? (si tu le sais seulement ^^) et referas-tu un vote (scrutin de condorcet) pour le sujet de la prochaine série ? :)

    • @Phantoharibo
      @Phantoharibo Před 5 lety

      Pas de vote svp, les casuals qui ont voté en masse pour l'IA ne regardent même pas.

    • @dappermink
      @dappermink Před 5 lety

      @@Phantoharibo C'est bien dommage en effet :c Je parle de vote uniquement parce que les autres sujets du votes me fascinent et que j'espère qu'il les fera aussi

  • @StfStar
    @StfStar Před 5 lety

    Grandiose!

  • @robotronik2371
    @robotronik2371 Před rokem

    Bonjour Mr s'il vous plaît je voudrais comprendre concrètement comment model de réseau de neurones apprend ou quoi l'apprentissage pour un model consiste?

  • @anubis00210
    @anubis00210 Před 5 lety +1

    Ça me fait penser, le nombre de neurones permettant d'analyser une image dépend du nombre de données (que ça soit un nombre de pixels pour des intelligences artificielles ou un nombre de points discernables d'images dépendant de l'acuité visuelle d'un organisme voyant). Donc si, par un moyen transhumaniste, on arrivait à augmenter notre acuité visuelle, on aurait plus de données à traiter, et du coup potentiellement on n'arriverait pas à traiter toutes ces données. En fait, chercher à avoir 100 ou 1000 dixièmes d'acuité visuelle par exemple pourrait être inutile, voire même dangereux, car on ne saurait pas comment le cerveau s'y adapterait.

    • @cedricholocher7570
      @cedricholocher7570 Před 5 lety

      Étant donné le cerveau humain il est très probable qu'il se contenterais de rajouter une couche sus-mentionnée simple voire stupide : rien qu'un "flou" de l'image permettrait de reobtenir une image de taille raisonnable
      Le cortex visuel doit être l'un des meilleurs pour compresser l'information vu son travail

  • @SaRa-vq7mk
    @SaRa-vq7mk Před 3 lety

    merci

  • @NRichard
    @NRichard Před 5 lety +4

    Quand est-ce que tu fais une petite réduc sur ton livre ?! :D

  • @martineclerc7501
    @martineclerc7501 Před 5 lety +5

    Super video juste une question la serie ira jusqu a combien de video ?

  • @noezufferey5782
    @noezufferey5782 Před 5 lety

    Ce qui m'impressionne le plus c'est à quel point le chat c'est imposé comme exemple type d'image à reconnaître. On le retrouve dans tous les cours à l'université, dans toutes les chroniques de vulgarisations sur internet. Je crois vraiment que les informaticiens vouent un culte énorme à cet animal.

    • @cedricholocher7570
      @cedricholocher7570 Před 5 lety

      Rejoint l'église de la Sainte felinite sacrée

    • @noezufferey5782
      @noezufferey5782 Před 5 lety

      C'est ce que j'ai du faire le jour où je me suis inscrit en computer science à l'université. Personne ne m'aurait accepté dans le cas contraire.

  •  Před 5 měsíci

    ❤❤❤❤❤

  • @thth1236
    @thth1236 Před 3 lety

    5:46 De mon avis, le cerveau humain ne traite pas toutes les zones de la rétine de la même manière, l'image au sens où on l'entend est au centre sur une toute petite zone, et autour où l'on voit moins bien il se passe d'autres sortes de traitement de l'image, pour pallier à ça l’œil suit presque automatiquement un objet pour le replacer au centre alors que l'intelligence artificielle à l'air de couvrir toute l'image de la même manière

  • @leonel-thierrykst3051
    @leonel-thierrykst3051 Před 5 lety

    cool

  • @jercki72
    @jercki72 Před 5 lety

    wait for it

  • @antoninperonnet6138
    @antoninperonnet6138 Před 5 lety

    👍👍👍

  • @dirackiumtai3999
    @dirackiumtai3999 Před 5 lety

    Super comme toujours ! J'ai lancé ma chaîne sur la physique et les math qu'en penses tu

  • @valentinschmitt1434
    @valentinschmitt1434 Před 5 lety +1

    Arthur Cuillère

  • @ominium8386
    @ominium8386 Před 5 lety

    Quand on est un dirigeant, la tendance est de ne pas se préoccuper du niveau "moyen" de ceux qu'on dirige mais des meilleurs. On a là le même schéma que préférer pondérer une zone avec la valeur max qu'avec la moyenne. L'angleterre n'avait qu'une poignée de talents artistiques et scientifiques alors que la france en avait 10, 20 fois plus, mais c'est shakespeare qu'on retient au niveau du monde. Un pays avec 10000 poètes est considéré ne rien connaitre à la poésie, un pays avec 2 poètes très célèbres est considéré comme très bon. Là la nature humaine nous montre ses failles et à quel point on se méprend sur le monde; on trouve des tombes riches et des archéologues en déduisent que la civilisation( donc tout le monde) était riche.
    On est attiré par le brillant ou le très sombre, le commun est jeté.
    Le classique Qualité vs Quantité, mais c'est aussi la rareté qui fait le danger; un lien avec l'évolution ?

    • @cedricholocher7570
      @cedricholocher7570 Před 5 lety

      Certainement très beau et philosophique... Juste pour les poètes Shakespeare est juste plus connu parce qu'il y a plus d'anglophones je pense.
      De même on peut dire l'inverse : Shakespeare est le seul poète potable anglais et tout le monde le connaît, alors que des poètes de même niveau en français sont moins connus car plus nombreux...
      Bref les extrêmes ne sont pas représentatifs de la société, mais ils le sont pour les images

  • @maximed9957
    @maximed9957 Před 5 lety

    Sinon ça revient à un traitement en parallèle de chaque partie de l’image ?
    Pourtant il me semble qu’il y a plusieurs étapes lors de la visualisation d’une image : une vision globale de l’image où très rapidement l’œil est « attiré » successivement par plusieurs sous parties de l’image (fonctions de l’éclairage, contrastes...) pour ensuite reconsidérer l’image dans son ensemble avec reconstruction par le cerveau avec les détails précédemment analysés.. existe-t-il un fonctionnement similaire en IA ? Gain de temps avec une plus faible quantité de données à traiter ?

    • @optizognons802
      @optizognons802 Před 5 lety +1

      Certaines personnes fonctionnent dans l'autre sens : elles voient les détails avant d'avoir une vision globale (Comme beaucoup d'animaux). Je ne retrouve plus le terme associé, si quelqu'un le connait ou peut le retrouver je suis preneur. ;-)

    • @maximed9957
      @maximed9957 Před 5 lety

      R VE je suis d’accord avec toi je me suis mal exprimé. Je crois qu’en analysant la direction du regard de personnes regardant un tableau montrait que les gens regardaient la plupart du temps le tableau de la même manière : en regardant très rapidement de manière une zone précise pendant une fraction de seconde puis une autre ainsi de suite puis seulement regarder le tableau dans son ensemble.
      Je parlais de vision globale en premier parce qu’il faut bien voir l’ensemble avant que le regard s’accroche sur une zone précise.... je sais pas si je me fais bien comprendre... 🙄

    • @ApiolJoe
      @ApiolJoe Před 5 lety +1

      Cela me fait penser aux "attention mechanisms" en IA. Cela permet à l'IA de toujours voir l'image globable, mais de porter son attention sur différentes zones de l'image en priorité puis en séquence pour en extraire les données.
      Il va peut-être en parler plus tard, cela semble être un des derniers "hot topics" dans le domaine à ma connaissance. Je ne suis pas expert du domaine, loin de là, et je ne crois pas trop à ces systèmes sur le long terme (apparemment ça aurait commencé à donner de meilleurs résultats que le LSTM pour l'analyse du language. Mais d'après ma maigre compréhension j'ai l'impression que "l'attention learning" demande beaucoup plus de calculs que LSTM. LSTM est tellement élégant d'ailleurs, j'ai beaucoup de mal à croire que ça ne reviendra pas sur le devant de la scène après une ou deux innovations bien senties :D)

    • @hlb4590
      @hlb4590 Před 5 lety

      Dans les années 90, il a été montré (Simon Thorpe...) qu'il une partie de la sémantique d'une image est déterminée en moins de temps que ce qui est nécessaire pour effectuer le moindre saccade visuelle. Par exemple, sur s'il y a un animal dans deux images simultanément en moins de 30ms. Ou dire du une image est un paysage naturel ou construit par les hommes (ville...). Donc, non, explorer les détails n'est pas forcément nécessaire pour comprendre une image dans une certaine mesure.

    • @Yarflam
      @Yarflam Před 5 lety +1

      ​@@ApiolJoe Ça n'a pas l'air d'être incompatible : czcams.com/video/QuvRWevJMZ4/video.html :) après tout, ce qu'un animal réalise le mieux c'est la détection de mouvement, c'est ce qui déclenche l'attention, une activation intense des neurones et parfois même ça provoque un réflexe physionomique. Il passe d'une phase détection, analyse de la provenance, mise en exergue des éléments, calcul de corrélations, applications d'une procédure d'urgence si l'élément n'est pas correctement identifié / trouble etc. C'est fascinant comme fonctionnalité. :)

  • @thomasbrisson2085
    @thomasbrisson2085 Před 5 lety

    Salut ! Quelque chose m’intrigue : j’ai l’impression que l’apprentissage de ce réseau sera impossible... comment faire apprendre au réseau à la fois les filtres à utiliser (matrices de convolutions) et les poids synaptiques du réseau de neurone qui analyse les données en sortie des filtres ?
    J’ai l’intuition qu’il y a « trop de degrés de liberté » (2 au lieu d’un en gros) pour faire un apprentissage efficace.
    Si je n’ai pas été assez clair, c’est comme s’il y avait deux fonctions dans un réseau à convolution :
    - L’une est de savoir de quelle manière filtrer les images
    - l’autre de quelle manière analyser la sortie de ces filtres pour en déduire une structure.
    Mais j’ai l’impression qu’un apprentissage efficace de l’une de ces fonctions nécessite que l’autre fonction soit déjà performante !
    Si quelqu’un voit ce que je veux dire et est capable de m’éclairer j’en serai ravi merci !

    • @cedricholocher7570
      @cedricholocher7570 Před 5 lety

      Vu que c'est moins libre qu'un réseau de neurones "normal" ça doit pas être si énorme
      Bref a relativiser

  • @Nibirux974
    @Nibirux974 Před 5 lety +2

    prout out de riz de chinois mixé au soja

  • @Palslayers
    @Palslayers Před 5 lety

    Au delà de l'aspect "invariance par translation", partager les mêmes poids pour chaque couche synaptique permet de faciliter grandement le calcul parallèle sur GPU lors de la phase d'apprentissage du CNN ! Je suis d'ailleurs un peu déçu que tu ne parles pas de la phase d'apprentissage pour les CNN ou des différents types d'algorithmes de vision par ordinateur qu'on peut faire avec (classifier, détecteur, segmentation...) !

    • @sebydocky5080
      @sebydocky5080 Před 5 lety

      Dans des prochains épisodes surement ....

  • @Pradowpradow
    @Pradowpradow Před 5 lety +1

    LeCun a la même tête que le mechant dans l'épisode de black mirror avec l'USS Calister :o hasard? Coincidence? je ne pense pas ...

  • @thomasbrisson2085
    @thomasbrisson2085 Před 5 lety

    Pour la question du max pooling, je pense qu’une moyenne glissante brouille une image :
    La moyenne glissante de :
    [8 8 8 8 0 0 0]
    sur une période de 3 est (arrondie à l’unité) :
    [8 8 5 3 0]
    la transition qui était brutale dans la liste d’origine est douce une fois moyennée
    En revanche avec Max pooling on obtient :
    [8 8 8 8 0]
    Ici la transition est plus nette. Donc plus facile à remarquer pour une IA (plus discriminante).

    • @cedricholocher7570
      @cedricholocher7570 Před 5 lety +1

      Faudrait tenter avec le 90-99e centile ça éviterait, par exemple qu'un pixel mort change complètement le résultat

    • @thomasbrisson2085
      @thomasbrisson2085 Před 5 lety

      @@cedricholocher7570 Ah oui bien vu !! Mais alors il faut vraiment que l'image soit de bonne qualité (beaucoup de pixels) pour éviter que ce qui se trouve être un caractère distinctif important de l'image soit alors considéré comme un pixel mort.
      C'est génial parce qu'hier j'avais l'impression que nos IA n'aimaient pas les images de bonne qualité : pour l'homme, plus une image de chat est de bonne qualité, plus l lui est facile de le reconnaître alors que pour la machine j'avais l'impression que plus l'image était de bonne qualité et plus elle galérait (ce qui semble contre-intuitif et remet en cause les techniques que nous utilisons). Mais là grâce à cette méthode, la pratique rejoint l'intuition : je suis content.

  • @bhromur
    @bhromur Před 5 lety +2

    La cuillère n'existe pas !

    • @naonedtroll9144
      @naonedtroll9144 Před 5 lety

      c'est du Décartisme primaire! "Cogito ergo sum" : c'est juste par qu'on considère dans notre Matrix de pensé que la cuillère ne pence pas qu'elle n'existe pas. Mais on peux ce posé la question: est-ce que ce n'est pas parce que on pence qu'elle ne pence pas qu'on ne sait pas l'écouter? ... la cuillère?

  • @shelivsbaxters
    @shelivsbaxters Před 5 lety

    La cuillere n existe pas ...

  • @vinyard13
    @vinyard13 Před 5 lety

    rien compris.

  • @Raysenel
    @Raysenel Před 5 lety

    C'est pas complètement con ce lien entre neurones artificiels et biologiques... Pas particulièrement parce que le cerveau ne serait qu'une machine à calculer, mais parce que l'Homme en vient souvent à "copier" ce qui se fait déjà dans la nature.

    • @ApiolJoe
      @ApiolJoe Před 5 lety +2

      Est-ce vraiment une copie, ou est-ce que les propriétés émergentes des systèmes qui fonctionnent sont simplement proches des propriétés émergentes des systèmes naturels?
      En posant la question autrement: est-ce qu'à force d'améliorer nos systèmes fonctionnels, on ne serait pas tout simplement forcé de retrouver des mimiques de plus en plus proches des systèmes naturels? Car la meilleure manière de résoudre un problème est dictée par le problème non par la personne qui souhaite le résoudre, on serait voué à retrouver les systèmes naturels, adaptés à nos limitations technologiques.
      Tout ça pour dire qu'effectivement, je suis d'accord avec toi, ce parallèle n'est pas si con, car étudier des systèmes dont les propriétés émergentes permettent de résoudre des problèmes que la nature sait résoudre, cela peut nous donner des idées de ces propriétés émergentes dont les systèmes naturels profitent justement.

    • @Raysenel
      @Raysenel Před 5 lety +1

      @@ApiolJoe
      C'est exactement ça et c'est la raison pour laquelle j'ai mis des guillemets à mon "copier". Rien qu'en robotique, filière très proche des IAs, il me semble qu'on retrouve des schémas similaires aux corps de nos espèces animales, squelettes, tendons, muscles en particulier. Pareil pour les avions qui sont, au final, très similaires à des oiseaux sur bien des points avec des gouvernails, ossature creuse.... (Bon, là il y a aussi pas mal d'inspiration qui joue sans doute).
      Au final, on voit régulièrement des sortes de convergences évolutives quand on créer quelque chose, la différence majeure étant qu'on parle de convergence quand la solution aux problèmes est amenée par des processus évolutifs, alors que dans le cas d'une IA, il s'agirait plutôt d'une création humaine.

    • @cedricholocher7570
      @cedricholocher7570 Před 5 lety

      La nature n'est pas si bonne que ça a créer des systèmes efficaces pour nous autres humains.
      Elle est par contre une bonne inspiratrice vague (avions, hydrophobie, RN...)

  • @maximed9957
    @maximed9957 Před 5 lety +1

    Après V1 V2 V3 V4 je m’attendais à ...
    V5.... toi aussi ?! :)

    • @Raysenel
      @Raysenel Před 5 lety +5

      Non, je m'attendais à V = -1/12 :

    • @maximed9957
      @maximed9957 Před 5 lety +2

      Nevenoe infiniment d’accord 😉

    • @Palslayers
      @Palslayers Před 5 lety

      @@maximed9957 Non, pas d'accord ! La supersommation linéaire, régulière et stable des entiers naturels est interdite, cf sa vidéo hardcore #3 :) (bon ok je suis pointilleux là...)

  • @zrmsraggot
    @zrmsraggot Před 5 lety

    Hotdog no Hotdog