Apple annonce leurs nouveaux modèles d’IA !

Durée: 47m46s

Date de sortie: 05/04/2024

Mais est-ce que ça va suffire à combler leur retard dans la course à l’IA générative ?


Pensez à mettre 5 étoiles pour soutenir l’émission !


Écriture : Matthieu Lambda



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Ce que j'entends le plus souvent de la part des recruteurs c'est
« Mes pierres, il y a des millions de candidats potentiels sur LinkedIn, j'ai pas le temps, j'ai déjà des millions de réunions, des millions de mails »
Alors je leur réponds, avec LinkedIn Recruteurs c'est simple, vous formulez votre recherche avec vos propres mots
et l'IA trouve instantanément les candidats correspondants à vos critères
et grâce à ça, vous pouvez gagner jusqu'à 3 heures par semaine sur vos recrutements
et là, on me répond à chaque fois
« 3 heures par semaine, je vais pouvoir faire un million de choses »
Avec LinkedIn, recrutez des bons profils plus vite
Rendez-vous sur LinkedIn.com.se, recrutez mieux
C'est parti pour ce magnifique sujet sur « Qu'est-ce que fout Apple » en termes d'IA generative
Chez les GAFAM, les plus grosses entreprises tech américaines
toutes ont pris le virage de l'IA generative
Google et sa filiale DeepMind sont des précurseurs depuis des années
Pareil pour faire Facebook avec son laboratoire Faire qui a été créé d'ailleurs par le français Yann Lequin
Microsoft a investi des milliards dans OpenAI
donc le leader du marché
et Amazon suit un peu derrière, ils ont quand même sorti leur modèle Titan
et ils ont leur plateforme Bedrock qui rassemble et qui met à disposition tous les modèles de fondation disponibles sur le marché
Mais alors, que fait Apple dans tout ça ?
Est-ce qu'ils sont à la traîne ?
Il y a même des rumeurs qui disent que Apple pourrait travailler avec Google
pour intégrer des fonctionnalités d'IA dans les prochains iPhones
Sauf que depuis quelques mois on observe du changement
Malgré leur importante culture du secret, on a quelques infos qu'on va vous livrer ce soir
Dans l'ombre, Apple a fait des avancées très intéressantes
Ils ont sorti quatre modèles différents qui pourraient être à l'origine de fonctionnalités très très cool
dans les prochains iOS, peut-être même MacOS, les prochains iPhone ou Casque
Casque, Apple Vision, c'est vrai que j'ai oublié de faire un petit nouveau dans la bande
Historiquement, Apple n'est vraiment pas un précurseur de l'IA
Comme je l'ai dit, c'est beaucoup plus Google et Facebook qui travaillent dessus depuis presque plus de dix ans maintenant je crois
ou encore, il y a évidemment des acteurs dont c'est le principal métier, je pense à OpenINGIA, à Mistral ou en Tropique
Avec le boom de l'IA génératif depuis deux ans, les analystes et aussi un peu les investisseurs d'Apple
se posent la question du retard que pourrait avoir Apple, que pourrait avoir pris Apple
et honnêtement, un peu à juste titre, tout le monde se dit qu'est-ce que fait Apple dans cette histoire
Ils sont clairement pas en avance, sauf s'ils arrivent dans les prochains mois à redresser la barre
Parce qu'en effet, potentiellement, c'est un facteur économique important
On aura beau avoir le plus beau des iPhones, le plus class et le least la plus incroyable
Si à côté l'Android, il commence à avoir des fonctionnalités super simples et super intuitives
grâce à ce qu'apporte l'IA générative, il y a un moment, l'iPhone va prendre un peu du plomb dans l'aile
et on va acheter des pixels, des galaxies, etc.
Et ce que je vous disais dans l'intro, à tel point, certains analystes se posent tellement la question
qu'il y a une rumeur sortie par Mark Gurman sur Bloomberg
qui dirait que Apple pourrait bien utiliser Gemini
Donc Gemini c'est le...
Tellement ils sont dans la merde
Tellement ils sont dans la merde, il pourrait utiliser Gemini, le modèle d'intelligence artificielle de Google
à l'intérieur des prochains iPhones et du prochain iOS, sans doute iOS 18
Ce serait fou parce que c'est pas du tout Apple de faire ça, vraiment ils détestent outsourcer leur...
Et surtout c'est leur plus gros concurrent sur les smartphones
Enfin en tout cas sur les smartphones, l'iPhone versus Android, ça a toujours été la guerre
faire Apple à Google pour ses capacités d'intelligence artificielle, ça serait très étrange
Après Apple ils ont passé pas mal de contrats avec Google par exemple
Google c'est le surchanging par défaut sur iOS
Donc on sait qu'il y a déjà des petits trucs...
Ils sont en relation
Ils racquettent complètement le plus aux francs pour se positionner sur leur moteur de recherche
Mais effectivement en général c'est plutôt dans ce sens là que vont les transactions
Ils sont un peu plus en relation qu'avec Microsoft, ça c'est vrai
Ils ont un peu leur rival de toujours, non ?
Ils ont des contacts à Apple et Microsoft qui font des trucs
Franchement la suite office par exemple sur Mark a toujours existé
Non ça va pas si mal, en fait
Bon en tout cas il y a des jeux de pouvoir
Et tout ça inquiète beaucoup
Sauf qu'en coulisse c'est un peu différent
En fait Apple s'active énormément
Comment le sait, par plusieurs points
Déjà premier point, Tidme Cook sans doute pour un peu rassurer les investisseurs
Ne cesse de dire que cette année c'est l'année de liage générative chez Apple
Surtout en plus que depuis qu'on a appris l'arrêt du projet de l'Apple Card
de la voiture d'Apple et que certains employés allaient être mis à disposition des départements d'IA
Là on martèle
On fait comprendre que ça sera l'année de liage générative pour Apple
Apple dépenserait 1 milliard de dollars par an dans le liage génératif
à partir de maintenant
Donc c'est le budget qu'ils ont prévu
C'est absolument énorme
Deuxième point, depuis 2017 Apple a racheté plus d'une vingtaine de startups liés à l'IA
La dernière en date c'est Darwin I
Et c'est globalement pour amener l'IA sur les téléphones mobiles, sur des appareils mobiles
Donc ils évoquent des voitures mais aussi des avions, des téléphones, des montres
Et globalement ils achètent une techno mais bien souvent ils achètent les cerveaux qui y a derrière
Les chercheurs, c'est du recrutement par rachat de startups globalement
Et c'est honnêtement pas du tout étonnant que Apple ait racheté tant de startups dans l'intelligence artificielle
Honnêtement, c'est pas si différents sur ça, ils font ça dans un peu tous les domaines
Ils ont racheté plein de trucs en VR pour l'Apple Vision Pro
Bref, ouais
Et juste dans les exemples de startups rachetés, est-ce que tu...
Là typiquement Darwin, est-ce qu'on a des idées de à quoi ça leur sert typiquement ?
Là en premier lieu, dans le communiqué qui a été fait, de ce qu'on a compris de la personne qui travaille chez Darwin
C'est pour intégrer ça sur des appareils genre l'iPhone, ou l'iPad
On fait de lia dans le cloud avec des gros serveurs, on fait tourner des motels d'intelligence artificielle
À l'intérieur d'un iPhone
Est-ce qu'il y est ?
On se pose que c'est des technologies de miniaturisation, de miniaturisation, de quantisation, de...
Exactement
...d'inférence en...
Et d'électronique aussi, il me semble, j'ai pas mes notes sous la main
Mais il me semble qu'il y avait un avantage concurrentiel d'un point de vue électronique à vérifier
Est-ce que du coup, ils feraient pas un peu comme Nvidia où ils embarqueraient Liad directement dans leur hardware
Par exemple, Nvidia, on sait maintenant, ils mettent directement leur cadre graphique
Du coup, Apple, vu qu'ils ont les processeurs M1 qui sont très puissants
Je crois que c'est A quelque chose pour les iOS
Si ils arrivent à mettre de Liad dedans directement, ça serait officiel
C'est le cas depuis longtemps, mais ils ont des modèles de...
Ils ont des modèles de l'inférence sur l'image, ou des choses comme ça
Mais ils ont pas de modèles de LLM
Ils arrivent à exécuter des...
Ils ont pas de LPU finalement
Ils ont pas de LPU, ils ont pas de grands modèles comme PELAVOIR, Google, Microsoft avec OpenAI
Et les autres
C'est pas Siri qui va concurrencer tout ça, quoi
Et pour l'instant, c'est pas Siri qui va concurrencer tout ça
Mais peut-être
On y revient
Et enfin, le dernier point où on sait que Apple s'active grandement sur Liage Generative
C'est qu'ils ont su faire preuve de beaucoup d'opportunisme
Je m'explique
En fait, il y a quelques années de ça
Google a dû faire face à quelques dramas dans son département IA
Je vais la faire compte, mais il y a eu des licenciements, notamment de deux chercheurs
Qui travaillaient dans le département lié aux questions éthiques des intelligences artificielles
Il s'appelle Margaret Mitchell et Dimitre Gebru
Et ces deux licenciements ont fait beaucoup de bruit
Dans les actualités tech, mais aussi au sein de Google
Et ça, globalement, ça a un peu déstabilisé tout le monde, il y a d'autres raisons
Mais globalement, ça a un peu déstabilisé tout le monde
A tel point que le PDG de Google, Sundar Pichai, j'espère que je prendrai bien
Avez dû même s'excuser d'une licenciement et dire on a dit j'ai hanté une enquête
On va voir ce qui s'est passé
Pour qu'il se dise ça publiquement, c'est que vraiment ça a fait beaucoup de remous
Bref, ces licenciements et cette ambiance un peu morose, pas incroyable
A provoqué des vagues de départ, des départements de Google IAI
Et Apple s'est proposé en mode coucou
Nous sommes là et ils vont récupérer dans leur rang des membres fondateurs de l'IA de chez Google
Et c'est réellement des poutes dans leur domaine
Si vous voyez sur un CV quelqu'un qui a travaillé chez Google en IA dans les années 2010
Globalement, une grosse bruit
A commencer par le premier qui s'appelle John Guiondrea
C'était le chef du département IA chez Google
Et en 2018, il a été débauché par Apple pour faire la même chose
Il a pris la tête de l'IA chez Apple
Et il y a un deuxième homme, super important
Et c'est un petit craque monstrueux
Il s'appelle Sami Benjio
Et lui il est parti suite aux deux licenciements
Il a vu les deux licenciements et pour protester
Parce qu'il n'était pas en raccord avec ses licenciements
Il est parti et il a été récupéré par Apple
Très beaucoup honnêtement, un peu plus tard
En 2021
C'était le co-fondateur de Google Brain
C'est le projet qui a le mieux marché dans le projet Google X
C'était le labo de Google où il faisait un peu tous les projets chelous
En gros c'est le projet qui a mis l'apprentissage profond au goût du jour
Et vraiment c'est un énorme craque
C'est à lui qu'on doit torche depuis torche en 2002
Et donc lui il a pris en charge un département d'intelligence artificielle chez Apple
Et globalement on a observé qu'on prend des grands ponts
Il ramène des gens avec eux
Il y a une fuite des cerveaux de Google chez Apple
Et aussi parfois d'autres sociétés comme Microsoft
Mais en fait derrière ça, pourquoi je vous raconte tout ça
Pour une raison très précise
Derrière ça il y a une raison
C'est que la plupart sont des chercheurs ou des universitaires
Et en fait c'est pas des employés classiques
En fait ces gens là ont besoin de publier
Et de publier des articles dans des journaux académiques
Et dans des journaux de recherche
C'est ce qu'on appelle la liberté académique
Et cette liberté académique avec le licenciement des chercheurs
Et avec la période un peu morose chez Google
Avez-vous pas été mis à mal
Et donc Apple pour attirer ces chercheurs
A dû un peu faire une croix sur leur culture du secret
De malades, mentales, vous n'avez le droit de dire rien
À personne et à sans doute dû leur assurer
Cette liberté académique
Oui oui vous pourrez publier vos recherches
Parce que c'est votre mode de fonctionner
En fait un chercheur il fonctionne comme ça
Il publie toutes ces recherches
Donc en fait pour l'IA, Apple a un peu dû changer
Son fusil d'épaule pour essayer de rattraper son retard
C'est le seul moyen d'avoir les tous meilleurs chercheurs
C'est comme ça que Métain on réussit à voir
Les meilleurs chercheurs etc. en leur promettant de publier
Parce que c'est ça qui fait vibrer des chercheurs
Un peu plus que l'argent général d'ailleurs
Et comme tu l'as dit ils ont sans doute eu pas eu le choix
De faire ça et laisser publier
Alors bon vouloir
Alors pourquoi je vous parle de tout ça
C'est parce que c'est précisément
Grâce à ces papiers de recherche
Qu'on en sait un peu sur l'avancée d'Apple
En intelligence artificielle
Parce que les chercheurs d'Apple dans leur bureau
Du coup ils publie des papiers
Sur l'intelligence artificielle, sur l'évolution
Et publie des bons papiers
Des papiers très chouettes
Et aujourd'hui je vais vous en parler de quatre
Il me semble, de quatre je sais plus
Si je crois que c'est quatre
En tout cas de quatre papiers qui sont sortis de Google
Et en fait plutôt de quatre modèles
Parce que la première question qu'on peut se poser
Oui juste avant je disais
Il y a évidemment déjà chez Apple
D'ailleurs j'ai trouvé un cas d'usage très suprinent
Il y a chez Apple via le machine learning
Quand vous écrivez sur un iPad avec un stylé
Le fait que votre main touche l'iPan mais n'écrivriens
Et ben en fait derrière c'est une fonctionnalité de machine learning
Et ben je le savais pas
Je le savais pour plein d'autres choses
Je le savais pour des retouches photos
Pour la reconnaissance faciale
Mais pour ça je le savais pas
Évidemment
C'est l'exemple typique de quand les gens disaient
Mais Apple ils sont nuls en IA
En fait c'est juste tu la vois jamais
Mais justement pour clarifier ça
Évidemment ils font de l'IA depuis des années Apple
Ce qu'on veut parler là c'est
Est-ce qu'ils entraînent des grands modèles
Des LLM, des modèles de diffusion
Des modèles de fondation qu'il y a derrière
Qu'est-ce que fait Apple
Et donc du coup c'est ça la première question qu'on va se poser
Est-ce qu'Apple développe son propre modèle de fondation
Son propre modèle de langage
Et la réponse est oui
Et ils l'ont même publié en open source
Apple qui publie son modèle d'IA en open source
On croit rêver
Si on vous avait dit ça
Ça s'est passé en octobre dernier
Et il s'appelle ferré
Fûré en anglais
Du nom de l'animal
Et en fait c'est un modèle
C'est un MLLM
Voilà donc ça c'est l'annonce
D'un des chercheurs d'Apple
C'est un MLLM
C'est ce qu'on appelle un modèle de langage multimodal
L'idée derrière
C'est d'avoir un modèle qui comprend
Et le texte
Et l'image
C'est pas nouveau
C'est ce que fait Gémini
C'est à peu à peu
C'est ce que fait GPT4Vision
On t'a déjà parlé
Dans l'émission
Et en fait c'est intéressant
Parce que c'est...
Les modèles multimodaux
C'est un domaine de l'IA
Qui est encore pas mal en construction
Ou il y a encore pas mal de choses à faire
Et d'ailleurs on le voit avec ferré
Et les papiers de recherche
Si il y a des papiers de recherche
C'est qu'on y tère beaucoup
On cherche les bonnes solutions
Il y en a d'autres
Il y a aussi par exemple
Un qui est open source
Qui a été notamment fait par Microsoft
Ce qui s'appelle Lava
Et donc tous ces modèles
S'entraînent un petit peu
Pour essayer de trouver la meilleure sauce
Qui fera comme ce qu'on a fait au LLM
Maintenant LLM ça marche très très bien
On sait...
Il y a toujours des avancées
Mais on sait comment l'entraîner
Alors qu'est-ce qu'ils font justement
Qu'est-ce qui est différent de
Chat GPT de base
Eh ben il y a 3 composantes
Particuliers dans un modèle multimodal
Déjà il y a un encodeur d'image
Donc c'est lui qui va essayer
De comprendre les images
Il y a un LLM
Un grand modèle de langage
Lui il va venir interpréter
Les demandes de l'utilisateur
Donc les promptes
Et il va produire le texte
En sortie il va pouvoir interagir
Avec l'utilisateur
Et produire le texte
Et le dernier c'est tout simplement
Un connecteur
Qui fait la connexion entre un vision
Enfin le côté vision
Du modèle pardon
Et le côté langage
C'est un peu les 3 composantes
Et en fait ce qui est intéressant
De savoir sur les modèles multimodales
C'est comment ils sont entraînés
On sait que Chat GPT
A bouffé tout Wikipedia
Et on wet milliard de textes
Et ben pour un modèle multimodal
C'est un peu différent
Il y a du texte
Évidemment toujours du texte
C'est très important
Parce qu'il faut qu'il puisse répondre
À des questions
Mais il y a aussi des images seules
Et surtout il y a des images
Avec des légendes d'images
Donc des images légendées
Où on explique ce qu'il y a
Et en fait pour essayer de l'entraîner
On vient entraîner le modèle
A donner une légende à une image
On lui pose une question
Il donne une légende à une image
Et son but c'est de trouver
L'image d'origine
Pour la faire très simple
C'est un peu comme ça
Que les modèles multimodales
Sont entraînés
C'est vraiment des combinaisons
Légendes d'un côté
Images de l'autre
Images et légendes mélangées
Et ça fait ça tambouille
Et alors pour comprendre
À quel point c'est intéressant
C'est que ça n'a rien à voir
Avec le fait d'utiliser chat GPT
Et de lui fournir une image
Et la description de l'image
Qui est la manière un peu
Préhistorique de faire
Où on avait des modèles
Vous savez sur Facebook
Vous pouvez avoir une légende
De ce que vous publiez
En réalité d'ailleurs c'est un modèle
DIA qui est capable de décrire
Voici un homme avec les cheveux bruns
Qui porte une casquette
Avec des amis
Ah oui, et bien historiquement
Pour avoir des réflexions
Sur de l'image
Enfin des...
Pour pouvoir répondre
À des questions sur les images
On faisait des combinaisons
Comme ça de modèles entre eux
Là c'est vraiment bien plus intéressant
Puisque c'est au niveau des vecteurs
Que les rapprochements sémantiques
Se font
C'est à dire que si vous observez
Le connecteur du modèle multimodal
Vous allez voir que
À l'endroit où sont encodés
Les fonctionnalités, les features
D'un chien
Vous allez retrouver le mot chien
En fait comme je dis par les vecteurs
C'est dans la construction du modèle
C'est avant même que vous l'utilisiez
Il est né avec ça
Il est né avec cette dualité
Et ça c'est très important
Parce que c'est ce qui permet
D'avoir des réflexions complexes
Sur des images là
J'imagine tu vas nous montrer
Des demonstrations etc
Dites-vous à chaque fois que
Ça c'est possible
Parce qu'on repasse pas
Par le texte en fait
On reste au niveau vectorial
Entre guillemets
Et c'est ça qui permet à la fin
Au chat GPT d'Apple
D'avoir cette compréhension
Aussi fine de l'image
En fait on a enlevé le hack
Qui est on passe tout par du texte
Parce qu'on sait très bien gérer le texte
Pour essayer de faire des choses
Là c'est vraiment
Comme si c'était fait pour quoi
Et donc du coup
Pour revenir au cas de
Férer d'Apple
Ce modèle multimodal
C'est un modèle du coup
De recherche
Il est pas destiné pour l'instant
A être commercial
Avec une licence commercial
Il n'a pas de licence commercial
Mais dans les benchmarks
Il se débrouille très très bien
Et en fait il est capable d'identifier
Super précisément
D'encadrer sur une image
Ce qu'on lui demande
Ce qu'on lui demande de trouver
Donc par exemple
On lui dit
Trouve-moi le chien
Sur cette image
Bon il l'encadre
C'est cool
Mais après on peut continuer
La discussion on peut lui dire
Dans quel état semble être
Le chien
Alors il peut dire
Voilà il est plutôt dans un
Là il dit
Il est plutôt dans un état friendly
Il a interagé avec son camarade
Il est content
Et en fait
Cette deuxième étape
De demander des précisions
Elle est super dure
Et c'est l'exemple du chien
Mais il y a plein d'autres
Il y a plein d'autres
Voilà là par exemple
Vous avez
Alors je sais pas si vous verrez bien
Mais en tout cas
Vous pouvez d'un côté avoir une image
De l'autre interagir
Avec votre modèle
Et il va vous répondre
Et en même temps
Vous montrer ce qu'il faut
Vous montrer
Et alors
Il y a un autre usage
Pour lequel Ferré est incroyable
Et moi ça m'a vraiment convaincu
En fait Ferré il est bon
Pas forcément sur l'image en global
Comme GPT Vision est très bon pour ça
Mais il est très bon
Sur des régions très spécifiques
Ils appellent ça l'ancrage
Et par exemple
Pour raison d'un CAPTCHA
Ferré est bien meilleur que GPT
Qu'à de vision en tout cas
De ce qu'ils annoncent
Et par exemple
Il y a un CAPTCHA
Ils ont fait un exemple
Avec des feux de circulation
Et Ferré il arrive à identifier
Exactement quel cas
Il faut cocher pour avoir les
Alors il faut zoomer très fort
Mais il s'en sort mieux que
Alors d'après eux
Il s'en sort mieux que GPT Vision
Et voilà c'est juste là
Hop là
Je trouve ça tellement drôle
Que sans aucun complexe
Les chercheurs sont bonnes
Alors comment contourner
A les CAPTCHA que mes collègues
On met en place
Oui parce qu'en fait
Ça sera jamais
Montré dans une keynote
Évidemment c'est des papiers de recherche
C'est des trucs
Ils sont en foot
De montrer ça
C'est un super bon test
Mais c'est un super bon test
On se rapproche de l'humain
En fait de comment nous on fonctionne
C'est-à-dire
C'est le test de Ultimate
Ça fait quoi ça?
Ça fait 10 ans qu'on y s'est des CAPTCHA comme ça
Et de se dire
Ben ouais je suis un humain
Je suis pas un robot
Et maintenant les robots ils sont là
Ben non moi aussi
J'interrompre de boîtes
Et rapidement ils vont arriver
A des meilleurs tours de réussite
Que nous c'est ça qui est flippant
Et surtout ce qui est vraiment intéressant
Avec cet ancrage
C'est la spatialisation
Oui
Habituellement beaucoup de modèles multimodaux
Ils savent
Ils savent te décrire ce qui se passe
Mais pas du tout
Dans sa globalité
Exactement ils ont pas de rapport
Avec l'espace
Et ça ouvre plein de possibilités
En terme de fonctionnalité
Qui sont sympas
Et c'est ce que
Qu'on voulait montrer les chercheurs d'Apple
C'est vraiment qu'il est très très précis
Il arrive à chopper des trucs
Très précises dans une image
Genre un feu circulation
Que tu vois pas bien
Dans une image découpée en 16
Y a un exemple aussi avec le scooter
Je sais pas si tu...
Oui alors il faut faire que t'il le retrouve
Mais je sais pas si tu veux l'expliquer aussi
Oui c'est mes souvenirs saumon
Et il lui fournissait
Une image d'un scooter
Avec un modèle très spécifique
En lui demandant
Où était une pièce
Qui était au niveau du moteur
Je sais plus
Du peu d'échappement
En fait il te montre la différence
Entre les autres modèles concurrents
Tout le monde à côté de la plaque
Alors que lui arrive à pile trouver
La pièce qui correspond à la description
Avec l'encadré
Surtout ça c'est hyper puissant
Imagine ça intégré dans un casque
Par exemple ou un truc comme ça
Tu pourrais voir une surbrillance
En temps réel
Où J'arviste t'explique que
Tu devrais aller resserrer tel écrou
Moi j'ai des problèmes de machine à laver
En ce moment
Tu imagines si on me montre la pièce
Que je dois remplacer
Exactement
Moi je pense à ça
C'est comme ça qu'il a été marqué
J'ai pété vision d'ailleurs
Il disait si vous voulez réparer un vélo
Faites des photos tout ça
En l'état c'est pas aussi poussé
En l'état justement
À cause de ces problèmes de spatialisation
On en est très loin
Et surtout la différence supplémentaire
Complètement dingue avec j'ai pété vision
C'est la taille des modèles
Parce qu'en fait tu me dis si je me trompe
Mais là c'est des modèles de 7 milliards
7 et 13 milliards de paramètres
Autant dire que le 7 milliards
Il peut tourner sur un iPhone
Sans problème
7 milliards ça tourne sur un iPhone
J'ai pété 4 visions
Il faut data sonner pour le retourner
Et j'ai pété 4 visions
Et aussi très puissant
On va dire qu'ils sont complémentaires
En effet c'est pas ici le même but
Et puis là c'est un Proof of Concept
Proof of Concept c'est...
En vrai tu peux l'installer
Parce qu'il est disponible en open source
Tu peux l'installer sur topical
Sur un server et tout
Mais voilà
Salut ! Si vous appréciez Ender Score
Vous pouvez nous aider de ouf
En mettant 5 étoiles sur Apple Podcast
En mettant une idée d'invité
Que vous aimeriez qu'on reçoive
Ça permet de faire remonter Ender Score
Voilà
Tel une fusée
C'est ça ?
C'est ça c'est le premier modèle
C'est le premier modèle
Et c'est peut-être celui le moins impressionnant
Parce que Ferret en fait
C'est vraiment une première étape
Et puis c'était en octobre
Depuis octobre il s'est passé quelques mois
Apple va continuer dans ce sens
Et en février là récemment
Il y a à peine un mois
Ils ont sorti...
Alors MGE
Je sais pas comment prononcer
MGE
Justement il se base sur Lava
D'autre on en a parlé
Qui est un autre modèle multimodal
Open Source
Et alors c'est le même concept
Un modèle multimodal
Mais maintenant
Au lieu de juste analyser une photo
Il peut retoucher une photo
Via des promptes
Donc par exemple si tu ne sais pas du tout
Utiliser Photoshop
Et que tu n'as jamais utilisé Photoshop
Tu vas pouvoir retoucher une photo
Avec du texte
Ou on l'imagine plus tard
Potentiellement avec de la voix
Parce que tu pourras forcément
Faire une retranscription
Voie tout texte
Et ce qui est incroyable
C'est que ça peut faire des choses
Très précises
Comme...
Alors voilà c'est des exemples
Donc la première par exemple
Tu peux transformer une photo
Du tout au tout
Hyper cool
Donc là on voit un paysage
Avec un lac
Et il rajoute des réflexions
Des éclairs
Et des réflexions sur l'eau
Et juste avec un prompt
Et donc ça peut faire des choses
Comme ça très général
Mais ça peut faire aussi des choses
Très précises
Comme enlève
Enlève-moi ce photobombe
Ou enlève-moi ce procédant
Qui n'est pas...
Je sais pas ce qu'on peut...
Ajoutement un soleil couchant
Sur cette photo
Et voilà
Typiquement toutes ces choses-là
Pourront devenir super simples à utiliser
Sans avoir...
On sait évidemment le faire
Mais sans avoir besoin de faire autre chose
Et donc c'est franchement
En retouches photo
C'est super prometteur
Remove texte
Le watermark disparait
Alors ça par contre
Vraiment c'est des gangsters
C'est amoureux
Rien
Mais c'est ouf
Parce que ça c'est vraiment
Parce que le modèle est multimodal
C'est...
Par exemple d'Ali
On sait qu'il peut remplacer
Bon comme il peut
Sur des images
Mais on peut pas passer
Exactement par le texte
Et lui faire dire
Qu'est-ce qu'il y a sur l'image
Et en plus lui faire des retouches
Là c'est parce que c'est multimodal
Qu'on peut faire sur le même modèle
Et en fait d'Ali
Il va être très très bon
Pour générer une image
Mais modifier une image existante
Alors ça fait un petit moment
Que je l'ai pas fait
Mais c'est...
A l'époque c'était galère
C'est largement pas à ce niveau
Ouais
Et je pense que là c'est
Mégat optimisé
Et en effet d'Ali en fait
N'est pas vraiment fait pour ça
Il n'a pas été entraîné
Surtout c'est pas de la multimodalité
Il est intégré avec chaque GPT
Mais comme on a dit
C'est une sorte d'extension
Qui repasse par le texte
À un moment donné là
C'est directement dans le modèle
Et d'ailleurs Google
Commença à le faire avec Gémini
Qui est un modèle multimodal
Et on voit des choses chouettes
Mais on est content de savoir
Que Apple est dans les rangs
Et c'est là
Et en tout cas moi je trouve ça
Très très prometteur
De tous les exemples qui ont cité
Pour le coup ça
On n'y a pas accès
Troisième modèle
Et c'est toujours en février
On va petit à petit
Crescendo
On voit apparaître sur les radars
Quelque chose qui s'appelle
Key Framer
En fait c'est une application
Des grands modèles d'IA
Mais cette fois-ci
N'ont pas une image fixe
Mais à de l'animation
Et à du motion design
Et honnêtement
Dans l'IA
C'est un domaine très complexe
Parce que ça nécessite
Personne ne s'y atte les actuellement
Non, enfin
Il y a sans doute des acteurs spécialisés
Qui sont actelés
Mais en tout cas c'est très très dur
En fait le but de Key Framer
C'est à partir d'une image statique
De créer tout simplement
Une image animée
Mais via des commandes
En langage naturel
Comme pour la retouche photo
Juste avant
C'est à dire vous pouvez aller dis
Voilà, anime moi ce soleil
Je veux qu'il se lève
Et qu'il se couche
Par exemple
Mais ça c'est
Si ça marche vraiment
C'est tellement drôle
Alors pour l'instant
Je vois les gens dans la région sueur
Mais le temps que je me souviens
Avoir passé à faire des...
Ça s'appelle Key Framer
Parce que du coup
Ça c'est par rapport aux images clés
Qu'on utilise dans les logiciels
De motion design
Qu'est-ce que c'est long et complexe
De faire de la moindre chose
Non mais c'est souvent taban
Non en fait
Sauf si c'est ton métier
Évidemment si c'est dans le motion design
Si c'était quelqu'un comme vous et moi
Ça c'est là-haut
Waouh, attends
Alors explique-nous
Alors en fait
En entrée vous fournissez
Une image en SVG
Donc une image statique
Derrière vous faites votre prompt
D'accord explique-nous parce que...
Une image SVG
Juste une image comme en JPEG
Qui est en vectoriel
Donc c'est quand même un élément important
C'est que les calques
Ils sont contenus dans le format
C'est pas simplement une matrice de pixel
Ça correspond quasiment
À un fichier de montage
Ou par exemple
Si vous développez des sites web
Vous savez évidemment ce que c'est un SVG
Mais en effet c'est...
C'est vectoriel
C'est une image vectoriel
C'est vrai que c'est très important
Et en fait derrière vous le faites un prompt
Vous le dis voilà je vais animer ça
Et en fait il fournit le code CSS
Donc c'est pour animer
Je crois que c'est bien ça
Pour animer l'image
Et du coup vous avez deux solutions
Soit vous prenez ce code
Et vous pouvez l'arranger à votre manière
Soit vous pouvez continuer à parler
À qui Frammer pour dire
Ok t'as fait ça
Est-ce que tu peux changer en ça
Et vu qu'il t'a généré
Il t'a pas juste généré en fait
C'est pas comme si d'Ali
Vous envoyer une image animée
Là c'est vraiment
Il envoie le code pour animer l'image
Je trouve ça incroyable
C'est intéressant
Alors je me demande jusqu'où
Il peut aller en termes d'animation
Parce qu'effectivement
Là on...
Il a réussi à faire une rotation par exemple
Là il a combiné une rotation
Avec le fait de...
De changer les couleurs
De changer les couleurs avec un pulse
On voit qu'il...
Qui fait ça toutes les deux secondes
Et ça pour le coup c'est une vidéo
Qui a fait Apple
Donc ils ont un petit peu communiqué dessus
Alors sauf si je me trompe
On n'y a pas accès
Donc c'est en fait là
On est un peu obligé de faire confiance
C'est sympa comme...
À la publication d'Apple
C'est sympa hein
Le...
Comment ça s'appelle ?
L'anneau de la planète qui tourne franchement
Le petit wiggle
C'est...
C'est très cool quoi
Je me demande si sur le long terme
Ils ne voudront pas générer leur propre SVG
Et finalement...
La première étape tu veux dire
Et pour que tout soit...
Ouais ouais
Tout soit automatisé de la zade
Très cool
Très cool
Alors je disais c'est complètement expérimental
Mais ils ont quand même fait l'effort
De faire un petit vidéo et tout
C'est complètement expérimental
Mais en fait je voulais montrer
Cette chose
Parce que déjà on peut commencer
À imaginer des...
Des usages
Des cas d'application
Pardon
Je voulais vous montrer
Qui fait le mal parce qu'on peut commencer
À imaginer des cas d'application assez précises
En peut-être montage vidéo
Ou...
Ou image animée sur un site web
Ou depuis son affin
Je...
Ouais franchement je pense
Dans le montage
Il y a un potentiel de fou
Par exemple si vous voulez
Faire un tuto en 30 secondes
Sur TikTok
Ou sur Insta
Ouais ou juste voir
Vous raconter comment faire
Une recette de cuisine
Et hop
Appele vous génère tous les petits
Dicots névus les animes en temps réel
Et...
Parce souvent sur un TikTok et Insta
On fait des fascames
Parce que en fait c'est le plus simple
Et t'as pas envie de faire beaucoup de montage
Mais là si tu peux rajouter une image
Juste une image que tu prends sur Insta
Et que t'animes pour illustrer un propos
Moi je me vois tout à fait faire ça
Sur un iPhone
Pour faire un petit truc de 30 secondes
Une minute
Expliquer vulgariser rapidement
Une notion par exemple
Tu t'animes un...
Un graphique tout seul quoi
Franchement ça peut être très très chouette
Et là ça veut dire qu'il arrive
Ils ont réussi à
Faire un pont entre l'image
Le rendu du SVG
Et le code de l'image
Je me demande comment ça fonctionne
Mais c'est assez impressionnant
Ça veut dire que quand toi tu demandes
Fais bouger la lune
Il sait lire l'image
Et savoir qu'est-ce qui est la lune
Et à quoi correspond une animation
CSS de WeGull par exemple
Et à l'appliquer sur le bon élément
C'est celui où on a le moins d'infos
Et c'est peut-être pas pour rien
Parce qu'en fait derrière
Il doit y avoir des techniques plutôt cool
Et je trouve que ça y est, c'est très bien de
Apple essaye vraiment de rattraper le retard
Et ils nous ont pondu un modèle
Franchement très très chouette
Tu voulais rajouter quelque chose
Et justement
Ils essayent de rattraper le retard
En faisant une seconde chose
Et rattraper le retard, ils vont passer par une seconde chose
Ils vont s'adresser au développeur
Je le disais un peu tout à l'heure
Cette fois-ci
Et je vous présenterai le dernier modèle
Juste après, cette fois-ci
C'est pas un modèle, c'est pas un outil
En fait c'est davantage une démarche
Apple ils ont lancé en décembre dernier
Et c'est un peu passé comme ça
On l'a pas trop vu
Leur framework de machine learning
Optimisé pour les puces Apple Silicon
Donc tout ce qui est des puces A
Qui sont dans les iPhone
Et les puces M
Qui sont dans les Macs
Et certains iPad
Et ils l'ont publié
En open source
Une fois des Macs outils
MLX tout à fait
C'est vrai que j'ai pas dit le nom
Ça s'appelle MLX
Ils ont fait ça de façon très intelligente
Ils ont repris les codes du framework
Fart dans le milieu que s'appelle
PyTorch, PyTorch
Et que tous les devs utilisent
Et puis ils ont livré ça
Avec des appelliers en Python
En C, en C plus plus plus
Ils n'ont pas que livrer en Swift
C'est ça que je veux dire
Le langage d'Apple, de programmation d'Apple
Et clairement
Ils font pas ça dans tous les domaines
Apple de fournir un outil incitatif
Open source gratuit
Pour inciter les développeurs
A développer des applications
D'intelligence artificielle
Pour Mac et pour iPhone
Alors entre nous
C'est une super idée
Super idée
Mais en fait c'est une super idée
Parce qu'ils sont en retard
Et que c'est une super idée
Pour rattraper leur retard
Moi ce que j'ai trouvé incroyable
C'est que dans les exemples
Ils ont publié ça sur GitHub
Ils ont publié des exemples
Ils te montent comment utiliser Whisper
Avec MLX
Comment utiliser Stable Diffusion
Avec MLX
Donc Whisper c'est pour l'audio
Pour transcrire de l'audio
Stable Diffusion c'est pour générer des images
Comment utiliser Lava
Que je vous parlais tout à l'heure
Bref, ils ont des démo pour tous les modèles
Un peu à la mode
Tous
Et c'est trop bien
C'est super malin
Et surtout la plus grosse innovation
C'est que des développeurs
Et des chercheurs vont enfin pouvoir
Utiliser la même technologie
Du début à la fin
Pour designer leur modèle
Pour imaginer leur fonctionnement
Et pour les intégrer
En bout de chaîne
Dans des applis que des vrais gens vont utiliser
Alors qu'actuellement
Ce n'est pas du tout le cas
Les chercheurs ils travaillent sur
Des frémiers qui sont spécialisés
Sur Python etc
Et derrière on utilise des outils de conversion
Pour rendre ces modèles
A peu près potables
Pour des applis
Des applis en prod
Donc ça c'est une nouveauté
Qui fait vraiment plaisir
A énormément de gens
Surtout qu'en termes de performance
Ils ont mis un peu de temps
A être au niveau
Mais là petit à petit
On a vu qu'ils rattrapeaient
Le travail qu'ils avaient fait
La communauté sur liama.cpp
Par exemple etc
Et là petit à petit
En fait MLX est en train de devenir
Parfaitement compétitif
En termes de performance
Et surtout hyper rassurant
En fait pour tous les développeurs
Parce que c'est un truc
Bacqué par Apple
On sait que quand il y aura des problèmes
Des bugs etc
Ils seront là pour les corriger
Et donc c'est un super...
Ça montre on est là
On est derrière
Et c'est un gage de sérieux
Et c'est hyper incitatif
Pour tous les développeurs
Qui veulent faire du ML
Surtout que c'est aussi
Un pendu commercial c'est énorme
Parce qu'on sait qu'il y a beaucoup d'apps
Comme Snapchat, TikTok
Qui utilisent énormément
De machine learning
Par exemple pour les filtres
Je vois qu'on utilise un filtre
De liens derrière
Si ils arrivent derrière
Embarquer et de dire
Sur iOS
Vous avez tel filtre disponible
Parce qu'on peut embarquer
Grâce à MLX
Des modèles un peu plus performants
Que ce qu'on a à nous côté serveurs
C'est un produit commercial
C'est oufissime
C'est toujours été dans la philosophie d'Apple
D'avoir les features que les autres ont
Mais en mille fois mieux
Et là avoir un truc comme ça
C'est ouf
Et en fait s'ils l'ont fait
Aussi simplement
Et efficacement qu'avec l'open source
Et avec le gratuit
C'est qu'en fait ils en ont besoin
Notamment pour essayer de rater
Appeler leur retard
Mais pour draguer tous ces développeurs
Et en fait emmener tout le monde dans leur barque
Chose qu'on fait Facebook et Google
Depuis bien longtemps
Mais en fait là c'est vraiment
Il faut le voir comme un signal très très important
Même si c'est potentiellement un panéodotique
Parce que ça s'adresse qu'au développeur
Mais en tout cas c'est un signal très important
Que Apple s'est vraiment mis dans l'IA
Et également dans l'IA générative
J'en viens, tu voulais juste avant
J'en viens à mon dernier point
Le dernier modèle
Et honnêtement c'est le plus prometteur
Il a été annoncé tout récemment
C'était à la mi-mars
Il a, c'est son dernier né
Il s'appelle le MM1
Ou le MM1
C'est leur nouveau modèle de langage
Un multimodal
Voilà c'est un ingénieur d'Apple
Qui l'annonce
Pour le coup
Il est un peu comme Ferré
Mais pour le coup il n'est pas open source
Et en fait il ressemble à
À ressembler à un modèle
Pardon, à un modèle qu'on pourrait trouver
En production
C'est plus forcément un modèle que de recherche
On sent que là
Ca pourrait peut-être sortir
C'est trop bien pour être publié
C'est un peu trop bien pour être publié
C'est un peu ce qu'il faut comprendre
Pourquoi je dis ça ?
Parce que déjà ils ont une famille de modèles
Ils n'ont pas que un ou deux modèles
Ils ont une famille de modèles de 3 milliards
Jusqu'à 30 milliards
Ils ont des versions spécifiques
Dont à par l'une fois
Qui s'appellent les versions MOE
Donc des versions spécifiques
Qui potentiellement
Peut-être encore plus efficaces
Dans certains cas
Ils ont des versions chat
Donc ce qu'on appelle des versions instructes
Pour faire des chatbots
Déjà fine-tunés
Bref, on sent que là
Ca commence à ressembler
À ce qu'on a vu sur OpenAI
Ou Facebook
Il y a je dirais un an
Un an et demi
Ca commence à ressembler
À un vrai modèle multimodal
Et côté benchmark
De ce qui nous annonce
Ca rivalise avec des bons
Bon models multimodaux
Ils disent qu'ils arrivent
À réaliser avec GPT4 Vision
Et Gémini
Il faut les croire sur parole
Il faut les croire sur parole
Mais c'est dans le papier de recherche
Mais moi justement
Je trouve que le nom Apple
Et je vais expliciter ce que je veux dire
Mais le nom Apple met en confiance
Pourquoi ?
Tous les autres gens
Qui sont sur ces benchmarks
Quasiment
Ne sont pas directement
En lien avec les utilisateurs finaux
Ce qu'ils font c'est vendre des solutions
DIA
Pour après des Microsoft
Des intermédiaires en fait
Et ils ont tout intérêt à démontrer
Que leurs benchmarks sont au top
Que leurs modèles sont hyper compétitifs
Sans nécessairement avoir la responsabilité
De est-ce qu'à la fin ils sont bien
Et c'est ça qui est fourre
C'est que très souvent
Tu vois des benchmarks incroyables
Et le résultat pêche
Or on sait que Apple
Jamais ils se permettront
De publier des modèles
Et d'utiliser des modèles
Qui sur le papier en benchmark sont bien
Mais pour les utilisateurs finaux
Ce n'est pas au niveau
Si on peut les croire sur un truc
Leur réplication est trop importante
Exactement
Si on peut les croire sur un truc
C'est que ce qui leur importe
C'est l'expérience utilisateur finale
Et donc je l'écrois beaucoup plus
Sur la pertinence et la qualité
De leurs modèles que les autres
Je vais quand même émettre un petit doute
En ce moment il y a une hype
Sur les IA qui est non négligeable
Et il y en a beaucoup qui ont rush
Leur modèle
Par exemple, j'ai mis nid
Quand il faisait de la génération d'image
Ils ont dû l'enlever
Parce que c'était n'importe quoi
On pouvait générer tout ce qu'on voulait
Et en fait on sent qu'il y a ce rush
Donc d'un côté je suis d'accord avec toi
Apple c'est un gage de qualité de ouf
Mais d'un autre côté
Vu qu'on est dans un écosystème
Où tout doit aller vite
Et on veut rush et dire nous si on fait ça
C'est là où j'ai mon petit doute
Peut-être mais si ils avaient
Je trouve que si ils avaient voulu
Faire de la commiseur de ça
Ils en auraient fait en fait
Or ils n'en font aucune
Oui c'est ce que je vois
Ça ça ne les intéresse pas de se faire mousser
Et donc je me dis que
La seule raison de le faire ça
C'est de l'intégrer vraiment
Dans des fonctionnalités à la fin
Or si elle marche pas
L'utilisateur que ce soit un LLM
Ou je sais pas quoi
Il en aura rien à foutre
Apple ne vendra jamais le MM1
Il vendra des iPhone
On peut peut-être juste prendre
Un ou deux cas d'usage
De ce fameux modèle MM1
Un des premiers c'est de
C'est tout simple
Reconnettre un nombre alors
C'est de la reconnaissance de caractère
Mais il y a beaucoup de chiffres
Et il le fait vraiment
Sans se tromper
Et donc il y a plein d'exemples comme ça
Mais là je trouvais que celui-là
était intéressant
Surtout que c'est pas des modèles
Fait pour ça
Et donc s'il y arrive quand même
C'est quand même c'est bon c'est...
Ça veut dire que c'est franchement puissant
Le deuxième c'est mon petit préféré
C'est un où il prend une photo
De sa table avec ses consommations
Donc là en l'occurrence des bières
Et il y a une photo du menu
Et il est capable de calculer l'addition
Ok
J'ai trouvé ça
C'est pas mal
Incroyable
Vous allez pouvoir voir l'image
Mais en fait
Si tu vois la conversation qu'il a
Et ils ont fait évidemment le texte
Avec d'autres modèles pour comparer
Évidemment
M.M.1
J'ai envie de dire M.M.H
À chaque fois ça va me...
M.M.1
Ça sort super bien
Mais si tu joues un peu
Sur les images
C'est là que tu vois toute la puissance
De la langue et de la vision combinée
C'est qu'il arrive à détecter à la fois
Le fait que c'est une bière
Et en même temps que ça correspond
A telle référence sur le menu
Il a fait un recalcul
En plus en bout de course
C'est quand même assez magnifique
Il faut se rappeler
Il y a deux ans
Tchatch GPT avait fait pas faire 3 actions
Là on est sur un truc vraiment différent
On peut s'imaginer que
Tu pourrais avoir paris
Dans ton casque ou sur ton téléphone
Je veux le casque
Parce que en fait
Pourquoi je prends ces exemples
C'est parce que c'est une manière
D'utiliser ces outils là
Sans que tu aies aucune action à faire
Juste par défaut
Les caméras elles sont là
Elles ont ces informations
Et elles peuvent juste te faire gagner du temps
Sans qu'il y ait de frictions
C'est pour ça que je prends cet exemple
Mais typiquement tu regardes ton frigo
Et hop ils te disent
Quelles sont les menus que tu pourrais faire
Combien de calories et machin
Prends-t-elle truc mais on va devenir un peu assister
Ouais ou c'est Arthur
T'as l'heure qui parlait de la cuisson
Détecter si quelque chose est
Écuit ou pas
Si tu cuit un truc un peu
Je dis pas ton stack du lundi
Mais un truc un peu compliqué
Moi je sais jamais dire ce truc
Et là tu prends une photo de Patarte
Et hop
Il est capable d'aller chercher sur Google
Voir des équivalents de ta tarte au pomme
Et te dire si jamais c'est censé ressembler à ça
Chose qui ne serait pas possible
Sans vision
Sans capacité à voir
Tu sais c'est pas avec du texte Google
J'ai un cas d'usage un peu nul
Et je sais pas si c'est peut-être trop précis
Mais imagine t'as fait des pattes
Et t'as oublié le muniteur des pattes
S'il est capable de te dire
Quand tes pattes sont puites à l'image
Sans tellement le vécu
Oh écoute
Je pense que les gens vont se foutre de notre gueule
Évidemment
Ceux qui doivent justifier pour cette débauche de recherche
Non mais ça ne sert à rien
Imaginez les applications dans l'espace
La NASA tout ça et lui il me parle
Je n'en ai pas
Mais c'est parce qu'on est partout sur la question
Oui oui oui
Évidemment qu'il y a d'autres applications
Très souvent ce genre de modèle là
On va jamais les voir en réalité
C'est dur d'imaginer l'application
La fonctionnalité qui tue
Qui va nous faire acheter un iPhone
Parce qu'en réalité très souvent
Ce n'est pas nous qui allons interagir avec
Ça va être une brique
Dans des chaînes un peu plus longues
Qui vont combiner une comprension de l'audio
De la vision et du texte
Et à la fin on va juste avoir Syrie
Qui est capable d'interagir avec une pizzeria
Pour nous commander des trucs
Parce qu'il a scanné le menu
Qui sait qu'on n'aime pas les pizzas Hawaiian
Et enfin voilà
Tu pourrais avoir du point de vue de l'utilisateur
Juste un sentiment que ton téléphone est intelligent
Mais derrière en fait ça va être grâce à des briques de ce genre
C'est ce qu'on disait tout à l'heure
La qualité d'Apple
C'est vraiment créer un écosystème ergonomique
Où tout est transparent pour l'utilisateur
Il y avait Google qui avait essayé de faire ça
Où ils disaient
On peut commander une pizza à travers le Google Assistant
Et ils avaient fait une démo et tout le monde est en mode
C'est jamais sorti

C'était ouf possible la démo
C'est vrai que la démo dans la keynote
C'était impressionnant
Ouais moi je me suis dit
C'est moi je commande des pizzas automatiquement
C'est trop bien
J'ai pensé à des commentaires que j'ai vu
Comme quoi on est un peu trop fanboy d'Apple
Ça va pas s'améliorer
Oui mais pourtant j'ai pas arrêté de dire que Apple est en retard
Merci
Non mais honnêtement et c'est le cas
Oui c'est vrai mon gars
On n'a même pas fait exprès mais c'est vrai qu'il y a le cas de Danière Chronic
On a pas mal de trucs sur Apple
Ça joue ça nous intéresse
Voilà laissez-nous tranquille
Mais je vous ai quand même dit que si Apple fait rien
Clairement Google sont bien en avance
Et j'ai mini et là tout ce qu'on montre c'est pas en production
J'ai mini et capable de faire peut-être 70% de ce qu'on a dit
Et c'est en production
Pour remettre un petit peu les pendules à l'heure
Mais en tout cas
On parlait des applications
Il y a un tweet du créateur de Siri
Tu parlais de Siri peut-être que ça sera intégré à Siri
J'ai trouvé que son tweet était particulièrement important
On va vous l'afficher et je vais vous le dire
Oui du coup voilà c'est exactement ça
Il dit Siri fera des nouvelles choses intéressantes
Il répondait à un tweet hausse
Siri fera des nouvelles choses intéressantes en 2024
Puis l'accélera devenant une véritable force dans l'arène de LIA
Apple occupe une position unique pour permettre de nouveaux cas d'usage
Cades d'utilisation utiles et inattendus du LLM
Et lui il est vraiment chez Apple lui
Il est chez Apple et c'est le CEO de Siri
J'ai trouvé ça très très très étonnant d'avoir des prises de parole comme ça
Il a fait un tweet du créateur et patron de Siri
Et puis dans un tweet juste après
Il commence à imaginer, hypothétiquement, des cas d'usage
Et donc dans le premier
Globalement il dit est-ce que tu peux mettre
Cette chanson dans une playlist mais sur Spotify
Qui n'est pas une application Apple
Pourquoi il n'a pas dit Apple Music ?
Non mais tu vas...
C'est pour augmenter la difficulté
Parce que forcément dans le même écosystème
C'est un peu plus simple
Puis le deuxième exemple qu'il prend c'est
C'est pas fort compliqué
Il programme des alarmes pour se réveiller
Sauf qu'en fait il met plein de subtilités
C'est à dire que en fonction du jour tu vas me rire à telle heure
Mais si j'ai un rendez-vous
Prégrable, programmé le lendemain à telle heure
Il faut que tu avances mon réveil
Et en fait il dit ça dans une phrase en langage naturel
Et le but c'est que Siri
Il soit capable de tout programmer
Parfaitement du premier coup
Sans se tromper
C'est marrant mais je trouve qu'il manque d'imagination
Et tu sais quoi ?
Le tweet d'après si tu arrives à le retrouver-t-il
Il demande aux gens
Est-ce que vous avez des cas de visage à me proposer ?
Bah, non
Moi je trouve qu'il manque d'imagination
Parce que là tout ce qu'il a fait
C'est combiner plusieurs requêtes
Que tu pourrais faire à Siri en une
Or si jamais le problème de Siri
Actuellement c'était
Le fait qu'il faut poser plusieurs questions d'affilée
Ça se saurait quand même
Ouais
Juste personne utilise Siri
Parce que
Il est pas bien malin
Et
En fait les gens n'aiment pas parler
Oui
Mais ça c'est le problème de base
C'est qu'en fait
On déteste parler sauf qu'on est seul
Et c'est rare qu'on soit tout seul
Moi je veux voir
Moi je pense que les seules possibilités
Que je me mets à utiliser Siri
C'est si vraiment on passe
Encore une étape en termes de fonctionnalité
Par exemple
Réserve-moi un hôtel
Ou je sais pas quoi un truc
Si vraiment tu gagnes beaucoup de temps
Tu gagnes vraiment un quart d'heure
Là avec plaisir
Je sais que si je suis pas tout seul dans ma pièce
Je ne vais pas lancer mon munitaire avec Siri
Pourtant c'est un peu plus rapide
Mais parce que juste j'ai pas envie de parler
D'avoir la con
Un téléphone imaginaire
On parlait tout à fait du casque
Mais en rigolant
Mais en vrai c'est une situation assez cool
Parce que c'est très passif
Tu dois pas aller dire
Hey Siri fais-moi ça
C'est ça reste un assistant
Qui regarde ce que tu fais
Et donc peut vraiment intervenir
Bon moment
Il y a beaucoup de gens dans l'open source
Qui font leur propre service
On voit des vidéos assez dingues
Et je pense que c'est un cas d'usage
Où on veut que l'assistant
Regarde ce qu'on fait
Mais pas qu'on ait à intervenir
Pour l'appeler
Et lui demander de faire des trucs
C'est bon ça parle de Luc Julia dans le jet
Qu'on avait reçu effectivement une certaine
Mais il travaille plus chez Apple
Il fait de l'ancien papa de Siri
L'ancien papa de...
Oui c'est lui-même qui a un peu débit
La première version
Et ce qu'il faut c'est que ça n'aie pas bougé en 20 ans
Voilà on n'aime pas tant Apple que ça
En tout cas maintenant on sait qu'Apple
Mait complètement les bouchées doubles
Pour essayer de rattraper le road
Le retard sur la concurrence
Et on sait qu'en fait ils en sont capables
De ce... Par ce qu'ils ont publié
De par les experts qu'ils ont débauchés
Depuis 3, 4, 5 ans chez Google
Et certains chez Microsoft
Et là la question un peu en suspense c'est
Est-ce qu'Apple va annoncer
Des choses, des fonctionnalités incroyables
À la prochaine WWDC
Donc c'est la conférence pour les développeurs
Elle se passe en juin
S'ils le font pas ça sera un peu décevant
S'ils le font mais c'est que j'ai mis
Derrière de Google
Ça sera un peu décevant
Mais ça voudra dire qu'ils ont encore du travail
À faire
Il y a une question aussi un peu en suspense
Est-ce que ça sera une stratégie plutôt cloud
Comme le fait OpenAI
Donc on appelle une intelligence artificielle dans le cloud
Ou alors en local
On sait qu'ils ont déposé un papier de recherche
Qui a fait un peu de bruit pour le coup
Sur comment installer un modèle de langage
Sur un iPhone
Ça s'appelait LLM in a flash
Donc et puis ça serait un peu plus en cohérence
Avec leur politique de vie privée
De faire un modèle d'IA
En interne sur les appareils type Mac
iPad, iPhone
Bref, il y a un peu de questions en suspens
Mais
Et surtout qu'en fait là tout ce qu'on a
Montré c'est des recherches
Il y a un grand part entre la recherche et la production
Mais on attend de voir si Apple
Va pouvoir revenir dans la course
De l'IA générative
Très intéressant, en fait on sait pas
Sur le côté local, ce que pour rappel
Siri a toujours marché
En distance
Ils ont fait des changements
Il y a eu un moment
Il y a eu un petit modèle en local
Qui est capable de faire certaines choses mais pas tout
Il y a certaines tâches et ils sont capables
De le faire en local
Mais à la base c'est juste on envoyait nos voix
Et c'est toujours un peu le cas
Mais la preuve que c'était une semibonne
Raison c'est qu'il y a un moment
Il y a eu un petit drama justement
On s'est aperçu qu'ils récoltaient trop nos données
Et ils ont dû faire un point de marchandise

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨


Partenariats: underscore@micorp.fr


---


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Tags
Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere