Comment l’IA peut-elle “voir” une vidéo ? — Jean Ponce

Durée: 26m29s

Date de sortie: 08/08/2025

Une nouvelle génération de modèles de vision permet d’anticiper la suite d’une vidéo, jusqu’à plusieurs dizaines d’images à l’avance. Avec Jean Ponce, référence mondiale en vision par ordinateur, on explique comment les machines perçoivent le monde, interprètent les mouvements et apprennent à prédire ce qui va se passer. Les applications à la clé : voitures autonomes, détection d’exoplanètes, reconstitution 3D, compression vidéo et robotique.


Sources

En plateau

  • Michaël de Marliave — animateur
  • Tiffany Souterre — chroniqueuse
  • Jean Ponce — invité

Pour consulter les détails de l'offre Trade Republic : https://trade.re/Underscore_Pod

L'investissement comporte un risque de perte en capital. Les intérêts et les gains financiers sont soumis aux prélèvements fiscaux et sociaux. Les performances passé es ne garantissent pas les résultats futurs. Les fonds non-cotés sont des investissements à long terme et ne devraient représenter qu’une partie du portefeuille total.


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Juste avant de démarrer l'épisode, un petit mot pour ceux qui ont déjà pensé à mettre leur logement sur Airbnb,
le partenaire de cet épisode, mais qui se disent que ça fait un peu trop de travail.
Eh ben, Airbnb propose un truc plutôt malin.
Le réseau de CoAute.
J'ai des potes qui font ça parfois le week-end à Paris et c'est très pratique.
Imaginez, pendant que vous êtes absent, un CoAute expérimenté s'occupe de presque tout.
La remise des clés, le ménage, les échanges avec les voyageurs,
même la gestion du calendrier ou des photos si besoin.
Ça vous permet de générer un petit peu d'argent pour vous faire plaisir sans avoir à vous en occuper.
Alors, trouvez un CoAute sur rbnb.fr slash haute.
H-O-T-E.
Merci Airbnb et bon épisode.
Les images que vous voyez là n'ont absolument aucun sens.
C'est une nouvelle y a qui, après avoir vu les premières images d'une vidéo,
est en capacité de prédire l'avenir.
Les trajectoires complexes d'une voiture d'un ballon qui rebondit d'un vélo
jusqu'à peut-être 50 images dans le futur.
Théoriquement, aucun algorithme ne devrait pouvoir prédire l'avenir.
Pour comprendre ce paradoxe, on a reçu Jean Ponce,
l'un des plus grands spécialistes de la vision artificielle
et directeur du labo en question.
On va enfin comprendre comment les machines arrivent à voir le monde,
à interpréter les mouvements et même à anticiper ce qui va se passer.
On découvrira aussi comment la vision artificielle bouleverse des domaines assez inattendus,
comme la détection d'exoplanètes, la compression vidéo
ou encore par-dessus tout, la robotique.
Est-ce que, déjà pour faire très très simple,
vous pouvez nous expliquer comment faire un modèle d'IA
qui comprend ce qu'il y a dans une image ?
C'est quoi la base de la base ?
L'idée de la vision artificielle, c'est quand on a d'imagerie numérique
sous la forme de photos ou sous la forme de vidéos
et on essaie d'interpréter le contenu de ces photos ou de ces vidéos.
Ça veut dire parfois reconnaître les objets qui sont présents dans la photo ou dans la vidéo.
Est-ce que c'est un chien, une chèvre ou quelque chose comme ça ?
Ça peut aussi vouloir dire essayer d'avoir une interpation physique
de ce qu'il y a dans l'image, par exemple.
À quelle distance de l'observateur se trouve la scène ?
À quelle vitesse se déplacent les objets ?
De quel matériau sont faits les objets présents dans la scène ?
C'est un domaine qui a démarré en 1963 avec la thèse de Larry Roberts, MIT.
C'était bien loin de l'IA moderne.
A peu près de 2000, j'irai, l'apprentissage machine est venu se marier avec la vision
avec un très gros impact en particulier dans le domaine direct au nissan visuel.
Puis en 2012, il y a eu l'arrivée de l'apprentissage profond
avec les travaux de Jeff Hinton et de son équipe à Toronto
qui ont montré que l'apprentissage profond appliqué à la catégorisation d'image
pouvait donner des résultats bien meilleurs que auparavant.
Si on peut donner une intuition de la différence de pourquoi c'est à ce moment-là,
c'est une révolution dans la vision.
Comment on pourrait l'illustrer ?
L'idée de l'apprentissage profond, c'est que...
Imaginez-nous que fait de la reconnaissance visuelle.
Ce que vous essayez de faire, c'est qu'on soit une machine qui, étant donné une image,
va prédire un label, chèvre, cochon, fusée, ce que vous voulez.
Cette machine, à la fin, a une étape qu'on appelle un classificateur,
je sais pas si c'est le bon mot en français,
mais qui va étant donné une représentation de l'image,
va prédire, en partie, cette représentation de manière assez simple, le label.
Ce qu'on faisait, jusqu'aux années 2010,
c'est que la représentation de l'image, de la scène qu'on donnait au classificateur,
était conçue à la main.
En utilisant les connaissances de bon ingénieur,
des connaissances du domaine, etc.
Ce qu'a montré l'apprentissage profond,
c'est qu'on pouvait à la place apprendre la représentation elle-même.
Et qu'aujourd'hui, grâce à des machines bien faites,
comme ce qu'on appelle les réseaux convolutifs,
ou maintenant ce qu'on appelle les transformers,
permettent de construire cette représentation automatiquement
si on a beaucoup de données disponibles.
Et ça, ça s'est avéré être extrêmement puissant en pratique.
Et donc ça, c'est, on va dire, de la reconnaissance
ou de la catégorisation relativement simple,
qui apparaît déjà à ce moment-là.
Tout à l'heure, vous avez parlé de cas où on va faire de la reconnaissance
beaucoup plus difficile et où, pour le coup, l'usage peut être même scientifique.
Donc, typiquement, vous le parlez dans les recherches beaucoup plus récentes
de détection d'exoplanètes, par exemple.
On peut avoir une sorte d'intuition de cette détection de motifs
sur des images d'animaux, par exemple.
Bon, là, sur la détection d'exoplanètes, ça ressemble à quoi ?
Non, c'est une bonne question.
Les exoplanètes, ça ressemble à des étoiles, en fait.
La manière dont on se confémarge, ce qu'on appelle de l'imagerie directe,
donc vous créez une espèce d'éclipse artificielle dans votre télescom,
mettant une pastille devant l'étoile, ça s'appelle un coronagraphe,
ce qui fait que vous regardez le halo, l'étoile elle-même est cachée,
comme pour une eclipse, vous regardez le halo qui est très brillant,
et dans ce halo qui est très brillant, vous essayez de trouver le planète.
Et donc ce que vous pourrez faire, c'est dans ce halo,
vous avez apprécié le sagespeau fond pour faire de la détection,
comme on fait de la détection d'objets,
quand on essaie de détecter, je ne sais pas, un militaire,
détecter un char dans une image, ou détecter un char chez vous,
faire la même chose dans cette image qui est prise dans le halo,
mais en prenant en compte, encore une fois, les connaissances physiques qu'on a,
donc on sait à quoi doit ressembler l'image d'une planète,
c'est un point qui a été soumis aux imperfections de l'optique,
qu'on peut mesurer, et donc vous avez ce modèle physique,
vous avez un modèle statistique de ce à quoi doit ressembler le halo,
vous avez certaines caractéristiques physiques, des télescopes,
qui font qu'il y a certaines symétries dans les images,
vous mettez toutes ces connaissances-là,
et après vous faites de l'apprentissage pour fond pour refaire une carte de détection, par exemple.
Donc est-ce qu'il y a besoin, par exemple, d'avoir un jeu de données,
avec plein de photos d'exoplanètes, dont on est sûr qu'elles y sont ?
Alors c'est un des défis, en fait c'est très intéressant,
parce qu'à plus part de ce qu'il se fait en connaissance visuelle, en détection d'objets, etc.,
on entraîne une machine en ayant de la vérité terrain,
on demande des tas d'images où quelqu'un a mis une petite boîte autour de l'objet en question, etc.
Dans le cas de l'astronomie, on a trouvé relativement peu
quelques milliers d'exoplanètes aujourd'hui, on a trouvé relativement peu,
donc on n'a pas tous ces deux étudiants d'entraînement.
En revanche, on sait créer des fausses exoplanètes,
puisqu'on sait à quoi elles ressemblent.
Donc on prend des images d'une étoile, des vraies images,
et on injecte dedans des fausses exoplanètes, et ça ça sert de verre ététérin.
Ça devient populaire en vision et en lien en général d'avoir des images des données synthétiques,
mais en général elles ne sont pas fidèles, mais là on a de la fidélité, parce qu'on a un très bon modèle.
Et ça ça sert de data set d'entraînement ?
Ça sert d'entraînement.
Et ce qui est un défi, il y a deux défis supplémentaires.
L'un c'est que quand on cherche l'exoplanète,
il se peut très bien qu'il y en ait une dont on ne sait pas quelle est là.
C'est ce qu'on appelle un faux négatif.
Donc vous croyez que vos données sont super propres, etc.
Et vous dites là il n'y a rien,
et en fait ce beut qu'il y a une petite exoplanète qui ne vous est pas dit et qui soit là.
Donc c'est une difficulté technique supplémentaire,
ce qui rajoute du charme à la tâche.
L'autre chose qui est intéressante, c'est comment vous allez évaluer les résultats,
puisque vous ne savez pas quels sont les exoplanètes.
Mais l'avantage dans les tâches scientifiques en astronomie,
vous pouvez aller re-regarder.
Une fois que vous avez un soupçon qui a quelque chose,
vous pouvez soit faire de nouvelles observations,
soit aller chercher des archives, des anciennes observations,
et vérifier quelque chose.
Donc c'est...
C'est une autre photo qui viendrait potentiellement...
Qui viendrait confirmer ce que vous avez trouvé.
Et une autre chose qui est importante par rapport à d'autres sujets en IA,
c'est qu'il est très important de quantifier l'incertitude.
Si je veux savoir s'il y a une chèvre chou dans mon image,
si ça me dit j'ai un score entre 0 et 1,
que le score est 0,8,
je ne sais pas ce que veut dire le score de 0,8,
ça va pour une application scientifique.
Les gens ne vont pas vous croire si vous n'avez pas un truc qui est bien calibré,
qui c'est vraiment une probabilité.
Non, vous avez ces trucs-là qui sont des défis, c'est intéressant.
Ça c'est un peu la catégorie de la détection,
ou de la classification.
Il n'y a pas vraiment de notions de temps qui s'écoulent,
et de suivre ces choses dans la durée justement.
Est-ce que vous pouvez nous expliquer
comment on mesure l'évolution d'objet dans le temps,
comment une IA peut interpréter par exemple une vidéo,
ou d'un coup cet objet, on savait ce que c'était,
mais maintenant on est même capables de savoir comment il se meut dans l'espace.
Il y a plusieurs manières de faire ça,
une manière plausible c'est de dire une vidéo c'est quoi.
Une image c'est un carré en gros avec des nombres dedans.
Vous prenez plusieurs images, je les empilais,
ça vous fait un cube avec des nombres dedans,
et vous pouvez appliquer à ce cube les mêmes types d'opérations
que vous appliqueriez à l'image.
Donc les fameux réseaux neurones convolutifs
qui sont une des présentations les plus puissantes aujourd'hui
pour traiter des images,
vous pouvez les adapter pour qu'elles traite un cube de données
plutôt d'utiliser une image plane.
C'est un peu dommage de faire des choses comme ça
parce que les dimensions spatiales sont différentes dans les dimensions temporales.
Le temps il va déjà dans une seule direction,
et en plus une vidéo c'est...
ça c'est une apalissade mais une vidéo c'est un trinsecement dynamique.
Souvent aujourd'hui la manière dans l'envisoire artificielle,
la machine pense entre guillemets une image c'est un tout.
C'est une présentation complètement globale de l'image
et des motifs qu'il y a dedans.
Mais dans une vidéo il va y avoir plusieurs objets qui vont bouger
pendant la vidéo.
Quand l'objet tourne en profondeur par rapport à vous,
il va y avoir des parties qui étaient visibles qui vont se retrouver cachées
et des parties qui n'étaient pas visibles qui vont être révélées.
Et donc ça demande une anélise plus fine de ce qui se passe dans la vidéo.
C'est j'ai bien compris en fait si on conservait le principe
d'avoir une représentation d'une image et de tous les motifs qu'il y a à l'intérieur
et qu'on a dupliqué pour faire une dimension supplémentaire
il y aurait beaucoup de redondance en fait.
Il y a aussi le risque de ne pas capturer les détails et la multiplicité
des objets et la complexité de la dynamique.
On a déjà fait, vous prenez une vidéo de je sais pas, quelques secondes
et vous essayez de dire est-ce que c'est quelqu'un qui est en train de courir
ou en train de s'asseoir par exemple.
Ça c'est relativement simple.
Si vous voulez avoir une description un peu plus complexe
où justement les choses évoluent au cours du temps,
une personne passe devant l'autre pendant que les caméras bougent et doux
c'est beaucoup plus complexe.
Donc typiquement parmi les vidéos fascinantes
il y a un papier qui s'appelle Dott je crois
et donc là où on a des visualisations de comment un objet
mais c'est pas simplement l'objet en tant que tel en fait
on a même l'impression que c'est tous les points de l'image
de voir comment ils évoluent au fur et à mesure du temps.
Donc là c'est un exemple avec une mangue à le faire
où tu peux suivre exactement tout ce qui se passe dans l'image.
Il y en a des encore plus folles après.
Donc là tu vois le mouvement de la balle en boule
qui sort de l'image.
D'ailleurs tu vois la personne qui fait du running
les mouvements de chacun de ses pieds
je trouve ça absolument fascinant.
Il y a des gros avantages de trésorisation c'est que c'est très visuel.
On a facilement des jolies illustrations
là vous voyez effectivement je sais pas ce que c'est un lézard
il a été un iguan c'est pas quoi
il a été caché pendant un moment on l'a récupéré.
Comment on peut lui faire comprendre que ce canard se déplace
dans le jadroit et que c'est toujours la même entité qui se quitte.
Le lycée n'a pas de notion de ce qu'il y a un canard
mais par contre il y a une notion de comment suivre
des points de manière extrêmement efficace et robuste
sur de longues secondes d'image
et comme vous le disiez de comment suivre tous les points.
C'est ça qui est beau en fait
et même si les points ne viennent de cacher
vous pouvez suivre les points qui ont été révélés
vous pouvez les suivre aussi.
Comment on fait ça ?
C'est un mélange de techniques assez classiques
de ce qu'on appelle du flow optique.
On suit des points en interpellant
en extrapolant leur mouvement passé
avec des méthodes d'apprentissage
qui vont essayer de prédire ce qui va se passer dans l'image suivante.
Mais est-ce que du coup on peut conclure
qu'il y a une forme de compréhension
sur les différents objets qui sont dans l'image
et les différents mouvements potentiels qui pourraient faire ?
Je ne dirais pas qu'il y a la compréhension
mais je dirais que le logiciel et le modèle
qu'il construit de manière automatisée
il a une représentation du fait qu'il y a plusieurs objets
qui bougent de manière cohérente dans une image.
La première fois que j'entendais parler des modèles comme ça
c'était pour faire un truc, ça s'appelle de l'interpellation.
Par exemple tu as filmé ton imme,
tu as ta vidéo en 30 images par seconde
tu aimerais faire un super ralenti dessus
mais l'information n'existe pas
et je me rappelle de vieux plugins
qui existaient sur les logiciels de montage
pour rajouter des frames supplémentaires
et donc ils devaient déjà à l'époque
essayer de créer des images plausible
moi je me souviens souvent
tu prenais une main qui faisait comme ça
très souvent il y avait des images intermédiaires
flou, bizarre, ça ne marchait pas bien
et maintenant ça commence à très bien marcher
je trouve que pour l'instant on arrive
un peu à avoir une intuition de comment c'est possible
c'est à dire qu'on se dit qu'il y a beaucoup d'informations
avant, beaucoup d'informations après
et il essaye de faire un truc cohérent
j'imagine que...
Il y a toute la nature tridimensionnelle
relativement simple du monde
par contre là où ça commence
à devenir vraiment très perturbant
c'est quand on se met à prédire
le futur
des images dans le futur
qui n'existent pas
et donc qui n'ont pas d'informations
ce qu'on voit c'est des images générées du coup
donc là, typiquement
t'as un petit compteur en haut à droite qui t'indique
à quel moment on est de...
de tes zéro
le moment de la dernière frame
ah ok, ok
donc là tout ça c'est généré
tout ce que tu vois
il s'agit à partir de quelques images
quatre images, si ma mémoire est bonne
de prédire l'avenir
20 images dans le futur
voire même 50 images dans le futur
et moi même quand...
ça a de mes étudiants qui disaient ça
et j'ai été bluffé parce que
c'est pas logique
d'aller prédire si loin dans le futur
on n'a pas assez d'informations
expliquer ce qu'elles font est difficile
parce que les...
ces métonnes ne sont pas basées sur des règles
ni quoi que ce soit
l'idée de base de l'apprentissage c'est que
on a vu des choses sur plein de données
et sur des nouvelles données qui ressemblent
aux données initiales
ce qu'on a vu devrait se répéter à peu près
et donc une fonction qui a été
estimée sur plein de données
si on donne des nouvelles données qui ne sont pas trop loin
des données initiales
ça devrait aussi donner des bons résultats
et donc même si il paraît
par exemple dans les scènes urbaines
qu'on voyait tout à l'heure
si il paraît
étonnant qu'on puisse arriver à prédire des choses
alors qu'on ne sait pas l'avenir
on ne sait pas comment on va tourner les voitures etc
une scène urbaine c'est relativement structuré
en quelle fois les voitures tournent à peu près
toujours de la même manière etc
et on a vu plein d'exemples
donc c'est pas forcément très très étonnant
qu'on arrive à faire des choses
des choses à long terme ce serait plus étonnant
Mais du coup quand on repart de la même image
et qu'on génère plusieurs fois
est-ce que c'est tout le temps le même futur
qui est prudent ?
Alors c'est intéressant
il y a des gens qui pensent qu'il est très très important
de pouvoir prédire des choses différentes à chaque fois
j'ai jamais très bien compris pourquoi
si vous faites une bonne prédiction après tout
c'est ce qui est important
alors il y a évidemment des tâches
qu'on peut imaginer qu'on veut maintenir
de la diversité dans les prédictions
si on veut faire de la planification à long terme par exemple
imaginons je développe une voiture autonome
et elle capture des vidéos pendant qu'elle conduit
et donc à un moment la voiture va devoir décider
est-ce que je change de fil, est-ce que je tourne etc
et donc il est plausible et même normal
même important que pour faire
ce genre de planification
qu'est-ce que je vais faire
il semble raisonnable de prédire
ce qui va se passer à un horizon relativement court
de manière à dire là il se peut que ce camion change de ligne
je vais devoir faire ça à la place
typiquement si j'ai bien compris
un des exemples de ça
qui essaye justement d'avoir des résultats en ce sens
c'est un projet sur lequel vous avez été cité
dans les premiers papiers qui s'appelle VJPAS
et là pour comprendre un peu
ce qu'on a vu où le but est vraiment
de deviner des images entières dans l'avenir
là c'est un autre objectif
c'est d'essayer d'avoir une représentation
intermédiaire qui code entre guillemets le sens
plutôt que les pixels en eux-mêmes
est-ce que c'est un peu ça ?
c'est un peu ça donc c'est l'idée de VJPAS
c'est donc c'est l'idée de Yann Lequin et son équipe
donc on avait travaillé avec Yann et Yann
avec des étudiants qui s'appellent
et qui sont maintenant chercheurs chez Métin
on avait travaillé sur une instance de ça
pour la vidéo et pour les images
l'idée sous-jacente c'est au lieu d'étiqueter des images
on va se servir des cohérences des données elles-mêmes
et donc en gros l'idée de JPAS c'est quoi ?
c'est que vous avez des données
vous allez prendre deux vues différentes des données
donc dans le cas de ces données c'est une image
vous pouvez prendre par exemple une fenêtre
quelque part dans l'image, une autre fenêtre dans la même image
et ce qu'on va faire c'est d'apprendre une représentation
telle que on puisse à partir d'une des deux vues
prédire l'autre vue
donc ça c'est pour les images
maintenant pour la vidéo ce que vous pouvez faire
vous avez votre vidéo, vous pouvez voir ça comme je sais pas
1000 frames, 1000 images pardon
et vous allez prendre un certain nombre de ces images
et en prédire un certain nombre d'autres
et ce que vous allez faire c'est apprendre la représentation
ces deux blocs, ces deux vues des données
telle qu'on puisse facilement prédire l'un à partir de l'autre
donc ça c'est l'idée initiale de JPAS
après qu'elle ait été étendue au vidéo
avec soit on prend un bloc d'image
pour prédire un autre bloc d'image voire des images
purement dans le futur
ou bien on peut faire des trous dans le bloc
on peut m'extraire des espèces de cubes
dans le bloc d'image qui vont essayer de prédire les images
donc par exemple j'ai une vidéo d'un stylo
ou d'une balle qui roule sur la table
un exercice pour JPAS ça pourrait être de créer un trou dans la vidéo
du moment où la boule roule
et de voir s'il arrive à comprendre que la direction
se maintient
à comprendre je sais pas mais en tout cas à prédire
à prédire sur les données d'entraînement
effectivement où vous voulez être le stylo
et ensuite ce qu'on va faire c'est
vous avez une période d'entraînement
on essaie de prédire ces bout manquants
et ensuite comment on l'applique
un peu comme dans les modèles de langue vous allez dire
maintenant que j'ai appris mon modèle
voilà une vidéo prédis-moi les 10 prochaines images par exemple
donc la différence avec les papiers qu'on a vu avant
c'est quoi exactement parce que ça ressemble on dirait
techniquement c'est la différence c'est que
tant que JPAS et ses variantes
on apprend un codage des images
et c'est ce codage qui va être la représentation
il n'y a pas de notion de différents niveaux
de groupes de points
c'est une représentation assez globale des images
mais on apprend ce codage des images
de manière à ce qu'un bloc de données puisse
en prédire un autre
et une variante de ça aujourd'hui c'est de
conditionner cette prédiction
sur des actions
donc vous dites prédis-moi
ce que vont être les 10 prochaines images
si tu supposes que je vais tourner à gauche par exemple
alors pourquoi on veut faire ça
encore une fois pensons
de même des voitures autonomes
évidemment savoir ce qui se passait
si l'appli qu'une commande c'est important
et de manière générale si on veut faire
imaginer planifier les mouvements de la robot
le fait de prédire un rétiment court terme
ce qui va se passer dans son environnement
alors que lui bouge et effectue
des mouvements qu'il a commandés
ça paraît une approche raisonnable
Quand on décrit sur toutes ces capacités
je ne peux pas m'empêcher de penser
au cas où on a par exemple un bras robot
ou un humanoïde
à qui on peut dire attrapons à ce verre
et donne le moi
qui est capable de prédire les actions
et l'impact sur le monde que ça aurait
est-ce que c'est pas une possibilité de...
Donc il y a beaucoup de gens qui travaillent là-dessus
même chez nous
même moi j'ai des gens qui travaillent là-dessus
là où je pense qu'il y a aujourd'hui
des limitations donc je ne vais peut-être pas dire ça comme ça
mais une certaine naïveté en tout cas
peut-être à croire que le robot va avoir
regardé la photo de la tasse
il réfléchit parce qu'il a son grand modèle de langue
et puis il va partir et aller chercher
parce que moi je ne suis pas aussi malin qu'un robot
mais si vous nous demandez par exemple
où est la cuisine ici
je n'ai aucune idée
même si je l'ai vu tout à l'heure
je n'ai aussi aucune idée
et le robot si vous adresse
si vous ajuste son environnement là
même s'il connaît plein de choses
parce qu'il a entendu des luts plein de journaux
et de choses comme ça
il y a des connaissances manquantes
donc croire qu'on peut dire comme ça
juste à partir je prends une photo d'ici
et je vais aller trouver la cuisine
ou les toilettes
ça n'a pas bien marché
par contre mêler ces connaissances
avec un peu d'exploration
est-ce qu'il y a un chercheur est-ce que...
des choses qu'il va voir au fur et à mesure
un peu comme nous on ferait
oui bien sûr
il y a des gens qui travaillent là-dessus
ça a priori...
il y a des chances que ça arrive
c'est pas impossible
oui il y a des robots
qui font ça de nos jours
de manière limitée bien sûr
mais ce que je trouvais sympa
pour finir peut-être c'est donner
des usages concrets et proches en réalité
et un d'entre eux dont vous m'avez parlé
c'est typiquement dans la compression de vidéo
et je n'avais pas du tout pensé
la conséquence de ça c'est de pouvoir
se transmettre des vidéos de très haute qualité
avec très peu de bandes passants
c'est une des choses qu'on avait en tête
effectivement avec les travaux de Guillaume
donc pour moi des raisons pour laquelle
on ne peut pas faire de prédition à long terme
c'est que on ne sait pas ce qu'il va y être dans l'avenir
si on a une vidéo entière
on connaît l'avenir, on connaît la vidéo
et donc on peut apprendre à prédire
des bouts de cette vidéo
et ne transmettre de cette vidéo
que de tout petit bout
qu'on corrigera au fur et à mesure
et qui prédirent le reste
alors est-ce que ça marcherait mieux
que les logiciels de compression de vidéo moderne
je ne sais pas, faut le voir
mais du coup ça m'a fait penser
l'histoire de la compression
il y a un même en informatique
qui est assez connu c'est N-Hands
c'est un running gag
de gens qui disent dans les séries
policières en général
N-C-S quand ils ont des vieilles caméras
de surveillance et puis
avec un visage là
ouais avec un visage ils font N-Hands
et puis après ils arrivent toujours
à rajouter des pixels
dans une image qui est complètement
de basse qualité
pour pouvoir détecter un
quelqu'un, enfin faire une informatique
ou alors lire quelque chose
ou voir un tatouage je ne sais pas
et ce qu'en fait ce serait plus un meme
dans le futur
non seulement ce n'est plus un meme
mais la start-up qu'on a s'appelle
N-Handslap
j'ai juste à cause de ça
et c'est précisément ce qu'elle fait
qu'on fait de ça
et ça rajoute des pixels
ça m'inscère plus une blague
et surtout ce qui est hyper intéressant
je trouve c'est que
de la super résolution
moi je l'avais déjà vu pas mal avant
des upscalers comme on dit parfois
qui sont souvent assez impressionnants
N-C-S
mais dans beaucoup de cas
ils inventent de l'information
N-Les premiers du tech
ils ont frappé l'immédiation
c'est vrai que c'est sorti sur Google
il y a je ne sais pas combien
2017 ou ce plus quand
et ça a inventé l'information
parce que ça part d'une seule image
donc il n'y a pas assez d'informations
dans une seule image
où c'est obligé d'inventer
ça doit donner un résultat
qui se vend extrêmement réaliste
mais souvent c'est pas la même personne
que vous voyez
un script qui peut ne pas être gênant
il faut aller des photos avec votre smartphone
si ça rajoute des détails
dans les arbres
les machins qui sont pas vrais
oui c'est pas grave
par contre si vous voulez par exemple
regarder des vidéos surveillance
et vous voulez prendre des décisions
par exemple
j'ai servi sur un parent grand jury
aux Etats-Unis
c'est les gens qui ne juge
les personnes mais qui décident
si la personne ne les jugeait ou pas
donc j'ai passé cinq jours
à regarder des photos
et des vidéos de surveillance
ce que vous vous rendez compte
c'est que le monde entier est surveillé
et c'est donc que vous pouvez suivre
la personne mais on voit rien du tout
la qualité est vraiment pourrie
donc ce qu'on peut imaginer
c'est avoir des thèmes qui permettent
au genre même
de se faire une opinion
mieux informée
pour des choses qui sont importantes quand même
et sur la super résolution
sur quelque chose de
beaucoup moins grave
il y a une application
que je trouve incroyable
et qui va intéresser
tous les gamers qui nous regardent
c'est tout ce qui est
super résolution en temps réel
j'ai vu ça se développer
entre autres chez Nvidia je pense
mais peut-être ailleurs
mettons t'as une machine
qui ne coûte pas 3000€
et qui ne peut pas faire tourner
ton jeu en 4K
aucun problème
en fait tu le fais tourner
en 720p
et t'as un petit modèle qui
en local
qui l'agrandit en temps réel
donc nous on travaille
le faire en temps réel
sur des images de vidéos
de autres résolutions
c'est très très difficile
nous on arrive à faire
en temps réel
donc 30 images par seconde
c'est des petites images
c'est un espèce de super zoom
à quoi ça pourrait servir
donc c'est pendant longtemps
si c'est petit que je ne suis pas disant
pour la vidéo
mais par exemple Manies
c'est aller voir Taylor Swift
à Paris
et elle était à 300m de la scène
donc
on peut imaginer
que si on zoom comme ça
vous voyez Taylor Swift
une petite image
vous voyez une petite image
mais vous la voyez quand même
vous serez content
mais par exemple
pour la superposition de vidéo
une application potentielle
c'est pour tout ce qui est
réalité virtuelle et réalité augmentée
je crois comprendre
que la partie
infographie
toutes les images synthétiques
sont de super haute qualité
etc.
la partie augmentée
prise par des caméras
pointant à l'extérieur
et de moins bonne qualité
donc on peut imaginer
augmenter cette qualité
à l'intérieur du casque
ou bien dans des lunettes
une lunette intelligente
tu as tes lunettes
et là tu te termines
tu vois un truc au loin
tu ne le vois pas bien
tu dis
Hennes
bam
tu te plaisouilles
là tu as un super zoom
donc on réfléchit évidemment
tout ça
et pour ça il faudrait
de suivi des yeux etc
ça viendra
si ça vous a intéressé
je vous conseille vivement
notre interview
d'une chercheuse en IA
qui nous a présenté
une question assez peu abordée
et pourtant préoccupante
de l'auto empoisonnement
des IA
et de ce qui pourrait arriver
dans quelques années
c'était dans cette vidéo

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨


Partenariats: underscore@micorp.fr


---


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Tags
Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere