S4E07 - Pourquoi ChatGPT devient débile ?

Durée: 161m16s

Date de sortie: 06/01/2024

Au programme de cette émission :

Windows 11 est devenu petit à petit un logiciel espion. On va vous montrer pourquoi et surtout vous expliquer comment il est possible de l’éviter, en mettant en place un Windows le plus clean possible.

Plus d’un an après sa sortie, ChatGPT serait-il devenu plus paresseux, voire plus débile qu’avant ? Impression ou réalité ? Éléments de réponses et explications sur cet étrange phénomène, avec Michaël.

C’est un sempiternel sujet dans la tech : et si nos smartphones nous écoutaient en permanence ?! Rumeurs, faisabilités techniques & nouvelles révélations, avec l’enquête des journalistes de 404 Média qui vient bousculer nos certitudes…

Avec Micode, Matthieu Lambda & Ackanir

Pensez à mettre 5 étoiles pour soutenir l’émission !

Écriture : Matthieu Lambda - Micode - Ackanir

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Ce que j'entends souvent de la part des recruteurs c'est
Pierre, contactez des candidats, c'est très chronophage.
Je dois envoyer des messages, relancer, réécrire des messages personnalisés.
Alors moi je leur réponds, avec LinkedIn Recruteurs, vous pouvez sélectionner vos critères
et l'IA rédige instantanément un message personnalisé, bien plus attrayant pour votre candidat.
Et vous pouvez même programmer un message de relance.
Vous aussi faites partie des 76% de recrutes en français qui déclarent embaucher plus vite grâce à LinkedIn.
Vous voulez plus d'informations ? Rendez-vous sur LinkedIn.com.
Recrutez mieux.
Bonsoir et bienvenue dans Ender Score.
J'espère que vous allez très très bien le chat, j'espère que vous êtes bien installé.
Moi je vais pas vous cacher, je sors de montrer en fait.
C'est vrai ça ?
Oui, c'est à dire que vraiment je suis apparaît depuis deux heures.
J'étais à la montagne pour les vacances.
Comment ça se demandait ? Comment ça s'était passé ?
C'était vraiment dur de partir.
Oui on s'est pas parlé car il m'a donné depuis mon train.
Mais ça s'est très bien passé.
C'était vraiment très bien, c'était vraiment dur de partir de quitter mes montagnes.
Mais il y avait un peu de neige.
Pas énorme, mais en fait je suis pas allé en station, j'ai fait un peu de ski de rando.
Wow, c'est bien cool.
Mais j'ai pas fait beaucoup de sorties non plus parce que c'était pas non plus...
Il n'a pas neigé toute la semaine.
Oui, oui, ok.
Mais pas mal, voilà.
Et vous ?
Même chose, retour, pareil, vacances, j'ai pas eu la neige.
C'était pas mon pari.
C'est pas l'esprit de Noël.
C'était sympa, c'est toujours la famille.
J'espère que pour ceux qui ont la chance d'avoir eu un peu de vacances et d'avoir vu leurs familles,
vous en avez bien profité.
Et toi Mathieu, c'était pareil ?
C'était un an, très peu de neige mais pas aussi.
Moi je vais setup tout ça.
Oui.
Parce que comme d'habitude.
Peut-être qu'on peut représenter Rémy.
Exactement, parce que...
À Canir sur les internet.
On fait comme si de rien.
Parce qu'il faut préciser que Rémy, tu travailles avec nous à l'Amix-Cœur,
donc nous on te voit tout le temps.
Les gens ont un peu moins l'habitude de voir dans l'émission.
Dans une époque lointaine, j'étais sur YouTube moi-même et ça fait un bon an et demi maintenant.
Oui, un an et demi.
Un an et demi je crois.
Oui, ça passe vite, ça passe vite.
J'ai réalisé ça tout à l'heure.
Ah bah tiens, plus on...
Magnifique.
Je fais mes cadres.
Ne bougez pas.

T'inquiète.
T'inquiète, y'a pas de problème.
Et oui, tu as une chaîne de YouTube à la base.
Oui, je pense que la chaîne est inactive depuis un an.
Je suis plus sur Twitter maintenant, thread, depuis que c'est sorti, même si c'est pas fou.
On se voit pas dans les threads, on se voit pas dans les threads.
Des threads au Discord, sur un équipier.
Ah tu sais que...
C'est la seule personne que je peux utiliser.
Alors tu sais que tu n'es peut-être pas au courant.
Mais underscore, connes threads.
Ah ouais d'accord.
On met les annonces des émissions pour là.
Non mais c'est...
Un buzz avec le connes underscore, on a eu 2 likes.
Incroyable.
C'est le buzz.
C'est un vrai joyeux écoute.
Et qu'est-ce que tu fais à la micorp?
Plein de projets, des fois.
Vous me voyez, si dans les vidéos, y'a de petits extraits, on me voit...
T'as entendu participer au projet, à la base je fais de la cyber.
Je vais vraiment en entreprise ou quoi.
Et donc...
Ouais, t'as travaillé en câbélant, comme ça et...
Ouais, en interne dans les entreprises pour protéger les boîtes, faire des pen tests, des trucs comme ça.
Je vois des gens dans le chat qui sont déçus parce qu'ils arrivent alors que ça fait 20 minutes que le live a commencé.
Ne vous inquiétez pas.
Soyez vraiment rassurés, c'est-à-dire qu'on a commencé depuis 2 minutes.
On a eu une petite coupure de courant qui nous a donné l'excuse.
C'était qu'il y allait un peu le début du live.
Ne vous inquiétez pas.
Vous inquiétez pas dans la triplet, dans la prise électrique pas du tout.
Ça arrivait à d'autres...
Mais nous sommes la seule émission sur Twitch, enfin, un talk show sur Twitch à être là cette semaine.
C'est vrai ça ?
Tout ce qui, popcorn...
Tout ça c'est off.
J'oublie les noms mais...
Zen.
Zen, merci.
Ça c'est off.
Les autres.
Et ben, nous on a visité en plus, on a visité à faire cette émission.
Rétrospectivement, est-ce que...
Est-ce que ça a l'air de l'erreur ?
Maintenant qu'elle est commencé, je suis content d'être là.
Ouais.
Donc, potentiellement pas l'émission de la mieux préparée on va dire.
Avec le plus d'avance, mais c'est pas grave.
Mais les sujets sont quand même très intéressants.
Ouais, il y a quand même des sujets intéressants.
Je note qu'on a pas de Bretzel.
Je suis outre.
Ouais, alors ça par contre, c'est vraiment...
Il y a plus de Gécois, ils sont vraiment là.
Mais c'est pas grave, c'est pas grave.
Alors non, il n'y en a plus.
Ah zut.
J'en ai marre de me faire trash.
Alors je suis en Régis, je suis malade, je suis seul,
et j'ai voulu me faire un thé avant de commencer l'émission pour ma gorge.
J'ai fait sauter les plombes.
N'hésitez pas, envoyez beaucoup d'occurre à Tile.
Il y a des choses très bizarres qui se passent avec l'écricité au bureau.
Et comment vous allez vous le chat par propos une fois qu'on vous parle finalement ?
C'est une émission.
Car cette émission, on n'est pas enregistré.
Exactement.
Et t'en pourrais faire ça ?
Non.
En fait, il y a un moyen de faire 500 que ce soit cramé.
C'est de réagir à des messages du chat à des moments.
On génère des messages dans le chat.
Exactement.
Et de les envoyer pile au bon moment.
Mais c'est vrai que t'avais déjà évoqué cette possibilité.
Il y a une possibilité vraiment de brain tout le monde.
Les gens, les gens n'y viraient que du feu je pense.
Non, je pense que ça serait invisible.
On répondrait toujours au 3M pseudo.
Je vais même te dire, te révéler un secret.
Je n'ai pas inventé ce concept.
J'ai découvert que, comme toutes les idées un peu foireuses d'internet,
elles ont déjà été émises chez les grosses marketeurs.
Ah je déteste ces personnes.
Je ne les rigole pas du tout.
Il y a plein de trucs où j'ai appris cette stratégie.
Il ne faut pas en parler trop fort parce que je pense qu'ils ne seraient pas contents.
Mais en gros, tu vas t'inscrire une formation en ligne ou un cours comme ça.
Mais qui peut, enfin, très bien, soit un truc de merde comme un truc très bien.
C'est utilisé par une variété de gens.
Bref, tu vas t'inscrire.
En général, ce qui se passe, c'est que pour te pitcher,
pour te montrer l'école ou la formation,
tu vas devoir d'abord accéder à un live en direct.
D'accord.
Pourquoi ? Parce que apparemment, c'est plus engageant, etc.
Ça marche mieux en fait.
Et donc, tu te rends sur le live,
t'as votre temps trop bien, c'est pile le lendemain de mon inscription, tu vois, le live.
Et t'arrives dessus et tu vois tous les gens et par les bambam,
les fondateurs de l'école, ils parlent entre eux, tout ça.
Et ils interagissent avec des messages du chat.
Mais c'est un différé en réalité.
Je suis sûr qu'ils injectent des commentaires en disant
qu'ils injectent dans le chat des messages.
Ah, donc en fait, t'es tout seul sur le chat ?
Oui.
Ça me fait un peu badé.
C'est bon, non ?
Du coup, si ça se trouve, tu mets des messages premiers degré dans le chat,
mais tu discutes vraiment avec zéro personne.
Personne ne te lit actuellement.
Ça ne te peut jamais te lire, c'est impossible.
Du coup, tu rajoutes un petit chat de GPT pour te répondre de temps en temps, vaguement.
C'est ça.
Oh, ça m'a déprimé.
C'est un fun fact.
Et je pense qu'il y a des moyens de faire des tests,
c'est typiquement de flodre le chat à mort et de vérifier si c'est une réaction.
Nous, on aurait une réaction.
Si tout le chat se mettait à dire la même chose en même temps, on le verrait.
Bah oui.
Il y a peut-être moyen de début ce qui est ces marquetteux.
Je tape dans le marketing, je cautionne pas cette tromperie,
non mais on est d'accord, c'est un peu abusé.
Apparemment, elle est...
C'est ça aussi pour les cours en ligne, pour les certifications.
Sérieux ?
What ?
What ?
Je suis le truc.
Et pas avec ton pull, et je suis sérieux que je valide que ton pull est assez dingue.
Et bien, c'est un cadeau.
Voilà, on va offert un pull.
Magnifique.
Il y va.
Franchement.
Voilà.
Est-ce qu'on commence avec des choses où vous avez des news ?
Ouais, carrément.
Vas-y, Renny.
Prudin.
Petite news.
Vous vous êtes en fait.
Ouais, quand même.
De mon côté, je sais pas si vous avez suivi une petite oeuvre
qui a rentré dans le domaine public, je sais pas.
Oui, Mickey.
Ouais, pas très connu.

La première version de Mickey.
C'est ça, exactement.
Parce qu'il y a plein de versions de Mickey.
Et la toute toute toute première date de 1928.
Elle a été, enfin, elle était censée rentrer dans le domaine public.
Il y a bien longtemps, je crois, la première, premier copyright.
Elle était censée durer 56 ans jusqu'en 1980.
Mais Disney a plusieurs fois gentiment repoussé le copyright jusqu'en 2000 ans.
Comment ils ont fait ?
C'est des douilles juridiques, la petite ligne ?
Ils ont carrément, ils ont fait beaucoup plus simple Disney avec son budget.
Ah, ok.
Simplement, voilà.
Allez voir le gouvernement américain et il volait les lois.
C'est parce qu'ils voulaient qu'on réagisse.
Un peu repris.
Non mais par contre, tu me poses la question, un fou très intéressant.
Tout ce qui est lobbying aux États-Unis.
Alors je sais pas exactement comment ça marche, mais t'es obligé de déclarer ça.
Et donc sur le site de la SEC, le l'Agence américaine,
t'as littéralement une page où Disney, enfin je limite dans les illustrations d'ailleurs,
Disney a signalé combien ils avaient payé en lobbying en 2020 et 2021.
Ah, ils ont juste...
Juste ces années-là, on était sur 7 millions, 7,7 millions de dollars
dépensés en 2020 et 2021 juste pour la partie lobbying.
Après, il y a marqué quoi ? 46 millions là ?
Euh...
Federal lobbying.
Ok, c'est pas le même lobbying.
Donc en 2020 et 2021...
Et entre 2010 et 2021, c'est 47 millions qu'ils ont dépensés.
Donc ils ont tout simplement fait évoluer les lois pour étendre le droit,
mais pas tout le droit, juste ce qui marchait bien, les oeuvres publiées avant 1929,
qui appartenaient à l'audiovisuel.
Ils ont réussi à faire ça.
Et donc, qui dit oeuvre, qui passe dans le domaine public,
dit internet, s'en est emparé directement, je crois, sur la page française.
Un 5h du mat', il y a un mec qui dit directement...
La page Wikipedia française, pardon, de Mickey Mouse.
Il y a quelqu'un qui a mis les oeuvres directement en ligne dès qu'elles sont passées dans le domaine public.
Le gars, il avait... Il était derrière son ordinateur.
C'est ça, il va être le premier.
Et surtout, on a eu des créations de fou furieux.
J'ai fait une petite sélection.
Trop cool.
Moi, je l'ai vu, Tilly.
J'espère que tu aurais qu'elle est dans ta section.
Laquelle c'était ?
Je crois que c'était un jeu vidéo.
Exactement.
Un...
Un FPS.
C'est celui-ci, il y a au moins deux jeux qu'on a été annoncés.
Oh là là, c'est celui-là.
Dans le style, c'est une petite vibe de copette.
Je sais pas si vous connaissez.
Avec les vieux dessins animés, il est magnifique.
Il me fait rêver.
C'est génial.
C'est vraiment génial.
Au moment où ils ont fait ça.
Donc on a deux jeux qu'on a été annoncés.
Il bosse dessus depuis longtemps.
Oui non, c'est un jeu que tu peux...
J'ai cru que c'était juste une démo.
Non, c'est un vrai jeu qu'on peut t'échapper.
Ça va être publié que tu peux mettre dans ta wishlist sur Steam.
Il y a déjà la page, il y a le gameplay.
Et franchement, j'adore le style.
Il me fait rêver.
Et on remarquera que ça s'appelle pas Mickey Mouse ou Disney.
C'est ça, si Mickey, l'œuvre est passée dans le domaine public,
la partie copyright, la partie marque, continue d'appartenir à Disney.
Il faut faire intérêt à faire super attention.
Si tu marques Mickey Mouse ou si tu veux croire que ça vient de Disney,
là ça passera pas.
Je pense que tu vas avoir les...
Oui, je pense qu'ils y rigolent pas trop.
Les avocats qui vont débarquer assez vite chez toi.
Mais même moi, je serais dans l'équipe de développement de ce jeu,
je serais pas la sûre.
Je pense.
Ils auront une amende car il y a des gants.
Oui, j'ai vu qu'il y avait des histoires de subtilité
entre les différentes versions.
Il y en a où ce sera dans 10 ans qu'elles seront dans le domaine public.
Donc là, il faut que ce soit en noir et blanc.
Il y a plein de...
Ah, OK.
Dans le même genre, on a eu le droit à deux films d'horreur,
annoncés qui ont l'air...
Pas fou, mais qui ont l'air très marrant.
Il y a des petites images qui ont juste repris
un serial killer qui porte un masque de Mickey Mouse
à l'effigie de ce personnage de Stan.
En fait, je ne viens de réaliser que personne ne pouvait le faire avant.
Maintenant que tu le dis, c'est évident.
Moi, je me demande si la haïbe ne va pas rester une ou deux semaines.
Et après, on s'en foutre à des trucs Mickey.
Ou alors, ça va rester parce qu'il va y avoir des super bons trucs.
Après, comme la montrait-il,
tu as toute la chronologie qui va faire que chaque année,
tu as des nouvelles versions de Mickey qui vont être débloquées.
Il y en a d'autres qui arrivent derrière.
Tu as Donald qui va passer,
Winnie Lourson qui est déjà passé précédemment.
On en a encore 7 ans avant les versions couleur.
Je vous partage, mais deux petits faveurs,
ça, c'est juste une mise en bouche.
On a évidemment Dnft,
qui ont été créés.
Ça existe encore ?
Il y a des collections entières.
Je pense qu'il y a des mecs qui avaient scripté leurs trucs
pour qu'à minuit piles,
ça soit les premiers à publier Dnft et Mickey Mouse légalement.
Et surtout, dans le plus fun,
ça, c'est des pages OpenSeas,
c'est la plateforme sur laquelle tu peux échanger.
Il y a des collections entières,
c'est un trending sur l'accueil.
Ça marche pas mal.
Il y a des volumes d'échanges qui sont marqués.
Il y a des articles qui se revendent.
On est aux alentours d'une entre 400 et 2000 dollars.
Je sais à lui c'est...
Surtout, ils font évidemment le truc
où ils ont des delayers
qui leur permettent de générer un 3 million de visuels.
En plus, je ne sais pas si c'est lié,
mais les cryptos remontent en ce moment.
C'est possible que...
J'en reprenne un peu les Dnft.
Ils reprennent.
Tu imagines les gars, ils ont tout pris au parrain.
Pour être premiers.
C'est vrai que...
Le plus sympa que j'ai trouvé, c'est un modèle d'IA.
Il y a des gens qui ont pris Stable Diffusion XL,
la dernière version du modèle,
et qui ont fan tuné sur les images de ce Mickey là
pour avoir le bon.
Maintenant, tu peux générer
tes propres versions de Mickey.
Ok, c'est marrant.
Plus de faire avant, non ?
Ouais, tu pouvais.
Ils ont juste attendu la news,
mais a priori tu demandes...
Par exemple, j'ai découvert un truc.
C'est que si tous les Dalis 3,
les mid-journées et compagnies,
ils essaient de filtrer un peu les prontes.
En réalité, si tu demandes...
Par exemple, si tu peux pas demander,
j'aimerais Thanos dans Avengers,
qui fait tel truc.
Mais en fait, si tu décris,
j'aimerais un alien qui ressemble
à un humain qui a des veines sur le tronc
et qui est sur une pleine de roue.
Si tu es qu'un condomné.
Exactement.
En gros, ça ressemble
exactement au Thanos.
C'est même pas une version...
Non, non, non, c'est juste lui.
Du coup, il y a des gens qui faisaient des tests
où ils montraient une frame du film Avengers
versus la génération de Dalis 3
ou de mid-journées.
C'est incroyable de ressembler.
On sort carrément...
C'est quasiment la frame.
Et du coup, on pense que
c'est pas impossible qu'il fasse une tune vraiment
sur chaque frame de film
en très haute résolution.
Tant qu'à faire.
Voilà, tant qu'à faire.
Il y a beaucoup de procès en ce moment.
Je crois que c'est le...
Je sais plus.
Il y a l'Américain en ce moment.
Il y a Universal Odyssey.

Je sais plus.
The Rock Times are opened.
Mais ça, c'est un autre truc.
Du coup, ce modèle existant,
je vous ai généré trois petites images.
Ah, merci.
La première, la classique,
Mickey à la plage.
C'est un peu comme Martin.
On a toutes les activités de Mickey.
C'est pour vous montrer un peu
un peu à quoi ça ressemblait.
J'ai fait Mickey Noe underscores.
D'accord.
What?
Attends.
C'est toi qui l'a mis, logo.
Comment il peut faire ça?
J'essaye de mettre du texte.
Il faisait n'importe quoi.
Le modèle est un peu pété.
C'est rigolo pour le principe.
Mais voilà, ça passe.
Oui, oui.
Et mon petit favori,
la classique au Mickey à clas NASA.

Ah, pas mal.
Ah, bah oui, oui.
Une chose.
J'ai généré Mickey.
Il avait beaucoup de mal à comprendre
ce qui était un PC, je suppose,
qui est effectivement dans le dataset de 1928.
Pas beaucoup, ces trucs-là.
Ah oui, donc on peut se dire que
la différence, c'est juste que là,
du coup, le dataset peut être ouvert
et peut vraiment utiliser les allemands,
mais c'est 100% sûr que dans les dataset prévus.
Mais je pense qu'il y a un truc marrant,
c'est que ton Mickey ressemblera
toujours un peu au même Mickey.
Et du coup, tu peux faire un très bon compte Twitter
Mickey A.
J'ai un DbD complet.
Et tu peux, tous les jours,
tu peux se faire Mickey à la montagne,
Mickey à la plale, Mickey à la NASA.
Faites-le.
Pour ma petite news,
je suis bien rigolé sur ces derniers films.
Moi, ce qui m'arrive le plus,
c'est le jeu de l'EFPS, franchement.
Ça a l'air super bien fait.
C'est un boutique, oui.
Mais vraiment trop stylé.
Est-ce qu'on utilise encore Gabin,
la régie d'éthomatique,
parce que j'entends souvent Tilt derrière,
bah Tilt, tu nous confirmes,
mais je crois Queen.
Alors étant donné que je suis seul,
heureusement que Gabin est là.
C'est clair.
Oui, jamais, il dit,
comme Tilt est là,
c'est...
Pourquoi utilisez-vous une IA?
Il y a quand même plus
que ça à faire, en général,
dans une régie.
Il n'y a pas personne en Régine.
Il n'y a jamais de personne en Régine.
C'est juste qu'au lieu d'être 4,
il y a une personne.
Donc c'est pas mal.
Petite news, mais...
Alors moi, c'est une news.
En fait, je me fais l'écho d'un vie ouvert,
d'un quelqu'un qui nous regarde.
C'est un développeur.
Et qui, à qui, lui,
a arrivé une petite histoire un peu marrante.
Un jour, il reçoit un mail
d'une notif,
une notif mail disant
qu'il a souscrit Amazon Prime.
Souscrit Amazon Prime.
Et c'est marrant,
le premier reflex qu'il a,
c'est de se dire,
j'ai un gosse de 2 ans,
c'est sûr,
il a fait une connerie avec Alexa.
Il a dit,
il s'est abonné à un truc
et j'étais pas au courant.
Donc du coup, il clique sur le lien.
Et en fait, il s'aperçoit très vite que, en fait,
c'est du phishing.
Donc il se fait pas avoir.
Mais, c'est là que l'histoire
commence à être intéressante.
Donc ça, c'est la page de phishing.
C'est pas le vrai Amazon.
Et en fait,
il se dit,
je vais quand même essayer
d'aller dans le process
pour voir un peu
comment ils ont fait leurs trucs de phishing.
Et donc, il inspecte les appels au serveur.
Donc il y a une requête post
qui envoie tout ce que tu as rentré,
l'adresse, le téléphone,
ta carte bancaire évidemment, etc.
Le mail.
Et en fait, il remarque dans les requêtes,
quand il fait une requête post,
qu'on lui renvoie l'historique des logs.
Oh !
De tout ce qu'il y a sur les deux derniers jours.
Et donc, il a 10 000 logs
sur les deux derniers jours.
Et en fait...
Un gros cerveau des jours.
Mais voilà,
il peut, il voulait s'amuser,
il a intéressé par la sécu,
il regardait quoi.
Et donc du coup, en fait,
sur les 10 000 logs,
il arrive en gros à faire un filtre
sur les gens qui sont allés
jusqu'à rentrer dans leur carte bancaire.
Parce qu'il n'y a pas tout le monde,
mais en gros, il y a différentes étapes.
Et donc du coup,
en fonction des logs,
il arrive à savoir où sont les gens.
Et donc sur 10 000 logs en deux jours.
Donc quand même ça veut dire
qu'il y a 10 000 personnes concliées
et qu'on rentrait au moins une information.
Il y a 177 personnes
qui ont rentré un code de carte bleue.
Ah c'est marrant, du coup, on a la state.
Ouais !
Donc ça fait du 0,02%.
Ok, c'est pas temps, franchement.
C'est pas temps, mais...
Non, honnêtement, le phishing
doit être pas super bien, en fait.
Et en même temps,
200 cartes bancaires en deux jours.
Non, c'est pas mal, c'est pas mal.
C'est pas mal.
Et donc du coup...
On peut me faire, c'est ça que je veux dire.
T'as fait un peu.
Et du coup,
et en fait, il a remarqué,
il avait accès aux mails.
En fait, il a vraiment accès
à tout ce que les gens ont rentré.
Il s'est dit,
j'avais envoyé des mails aux gens
qu'ont mis leurs cartes bancaires
pour les prévenir.
Qu'il se fasse faire naquer.
Et du coup, ils se sont dit,
vas-y, je vais l'automatiser.
Donc il a fait un power shell.
Et voilà, en gros, là,
dès qu'il voyait qu'il avait un VBV
et qu'il avait un nom de...
De cartes en vrai.
De banques, simplement.
Juste à côté.
En fait, ça voulait dire
qu'il avait détecté
la carte partenarie de banque
et donc que la personne avait rentré
sa carte bancaire.
Et donc du coup,
vu qu'il avait les mails,
il a envoyé des mails.
Il a fait un petit script
pour automatiser tout ça,
pour simuler une connexion.
Et voilà.
Et il a envoyé plein de mails
pour prévenir.
Il y a des gens qui l'auraient pondu.
Juste ici, Zuné.
Juste ici.
Il n'est pas allé retrouver
les gens qu'on fait là.
Je aimerais voir la réaction des gens.
Tu reçois un email qui dit
« Bonjour, vous vous êtes fait ficher ».
Il a dit « Ouais, bonjour ».
Ça, c'est le mail d'Arnaque en plus.
Bonjour, je veux vous prévenir.
Vous êtes tombés dans un piège.
Vous avez mis votre carte.
Moi, je lis ça, je suis en mode pfff.
J'ai le mail sous les yeux.
Je ne veux peut-être pas vous lire,
parce que voilà.
Mais il est plutôt bien écrit, je trouve.
Franchement, je viens de recevoir un mail
comme quoi j'avais souscrit.
Enfin, il se met dans la position
de victime.
Je me suis rendu compte
d'informatique.
C'était à quelques gens de Noël.
Du coup, il y a plein de gens
qui lui remercient en mode
« Ah, merci beaucoup ».
Et donc, il s'appelle...
Il a mis ça sur le GitHub d'ailleurs.
Ça s'appelle Julien.
Donc, si vous voulez aller voir
sur votre moteur, vous pouvez.
Voilà, c'était la petite histoire
de notre Julien national.
Franchement, ça s'est fait bien.
Bravo à lui.
Et du coup, c'est tout de même petit.
On nous a repris, c'est plutôt 1,7%
de taute de conversion
sur la page de Fishing.
210 000 ?
1,7 ?
167 sur 10 000.
Je me suis trompé dans mon bon sens.
Mais effectivement, ça veut dire
qu'il tape très, très large.
Mais c'est marrant parce que c'est très probable
que ce soit un autre point d'entrée
pour d'ailleurs faire de l'arnaque
à la FosseBank.
Ah ben oui.
Mais c'est marrant de voir que ça existe.
On voit, on a beaucoup entendu parler
d'ESMS évidemment.
Mais c'est marrant de voir que ça existe.
Enfin que ça marche toujours
entre Gmail, le Fishing à l'ancienne
par mail.
C'est pas disparu quoi.
Surtout au période de Noël.
Ouais, c'est clair.
Cadeau, les commandes Amazon,
tout le monde s'attend à la démarrage
de l'hypothraison en fait.
Mais là, l'URL était vraiment smart.
C'était un résiliation.
J'ai vu.
C'était un grand I majuscule au lieu d'un L.
Oh.
Et honnêtement super smart.
Enfin, tu...
Oui, il y a carré...
C'est sûr, l'URL était smart.
Il y a un tirerfr.com qui quand même...
Évidemment.
Évidemment.
Mais quand même.
Pas étrange mais...
Non, c'est ça que j'ai noté aussi.
Il était vraiment pas mal.
Voilà.
Very nice.
J'ai des souvenirs de...
Ouais, voilà.
Oui, il y a tirerfr.com.
Oui, t'as raison.
Écoute, je l'avais même pas vu.
Je regardais de loin.
J'avais vu Prime-Tirer-Videos.fr.
Et je pense que c'est très bon.
Franchement, oui.
Tu peux vraiment te faire avoir à tous les coups.
Sans plus tarder, je vous propose de voir le programme.
Ce soir, on va parler de est-ce que oui ou non,
GPT-4 devient paresseux.
Est-ce qu'il devient débile avec le temps?
C'est une question que peut-être vous avez posée.
Et bien, on va en parler.
Enfin, d'émission, on va parler de la question,
d'est-ce que nos smartphones et autres appareils
nous écoutent vraiment.
Moi, je pensais avoir ce sujet,
enfin connaître ce sujet, finalement.
Et c'était un peu à pétarboiller,
finalement, des rumeurs du front des internet.
Mais en fait, peut-être que vous allez apprendre des trucs
avec nous ce soir.
Mais pour commencer, je vous propose
une petite chronique avec Mathieu de
pourquoi Windows 11 est un spyware.
Nous pesons nos mots.
Et comment est-ce que vous pourriez changer la donne
sur votre machine?
C'est parti!
Musique
Windows 11, probablement l'un des OS les plus installés
et utilisés par beaucoup qui nous regardent.
Et si je vous apprenais qu'en réalité,
ce que vous avez sur votre machine
est un gigantesque spyware.
C'est-à-dire que le logiciel
qui fait tourner votre machine
vous espione.
Peut-être que vous le savez déjà un peu,
mais je pense que vous n'en réalisez pas
à quel point c'est profond
et à quel point ça a changé en réalité
sur les dernières années.
Aujourd'hui, on va vous le démontrer
et vous expliquer pourquoi.
Mais surtout, on va vous donner des astuces
pour éviter cet état de fait.
Et supprimer des logiciels qui gâchent
toute l'expérience d'un système
qui par ailleurs fonctionne plutôt bien.
Oui, complètement.
Et en fait, toute cette histoire
d'une super analyse
de la chaîne
The PC Security Channel
je sais pas si tu connais, ami, mais...
Pas du tout.
Non, ok.
Je me disais, tiens, ça tu vas connaître.
Mais non, Superchain, il a fait un super taf
que j'ai découvert, je crois que c'est toi qui me l'envoyais.
Et en fait, dans un premier temps,
il s'est demandé si dans les appels réseaux
que faisait Windows,
il y avait une réelle différence entre
ce qu'on avait il y a 20 ans sur Windows XP
et aujourd'hui, ce qu'on a sur Windows 11
et ça m'a...
Ok, j'ai voulu connaître la différence
et du coup, j'ai regardé.
Et s'il y a des différences,
quels sont les raisons derrière ?
Et est-ce que c'est des bonnes raisons
ou est-ce que c'est des raisons pas ouf de type espionage ?
Il a donc fait une expérience avec
un logiciel très connu qui s'appelle Wireshark
qui permet d'analyser les requêtes réseaux
qui arrivent et qui sortent de notre ordinateur
et il a lancé sur deux PC différents,
donc l'un sur Windows XP et l'autre sur Windows 11.
Et alors, on va commencer par Windows 11.
Il y a vraiment pas mal de requêtes qui passent.
C'est assez impressionnant.
Il y a des requêtes tout à fait légitimes,
notamment vers des services de Microsoft.
Donc on a du Bing, du SMS,
on a un service de géolocalisation
pour savoir où est-ce qu'on se trouve quand on se connecte.
Juste pour savoir, là ce qu'il a fait,
c'est qu'il a démarré son ordit.
Il n'y avait pas de logiciel installé,
juste un truc nature, c'est ça ?
Oui, alors je vais aller revenir, mais c'est ça qui est assez fou.
C'est qu'il a pris deux PC vierges
avec l'OS tout fraîchement installé.
Il n'a lancé absolument aucune application,
à part Wire Shark, évidemment, et il a lancé Wire Shark.
Et déjà, c'est assez étonnant,
parce qu'en fait, on voit des requêtes vers Bing,
on voit des requêtes vers MSN,
donc le site d'actualité de Microsoft,
on voit des requêtes vers tout un tas de services Microsoft,
alors que, a priori,
nous on se dit qu'il n'y a pas...
Internet n'a pas encore fonctionné,
on n'a pas lancé un seul navigateur web,
il y a déjà plein de requêtes en tâche de fond.
Alors évidemment, il y a des choses à faire tourner,
il y a des widgets, il y a des c-bettes,
mais si il y a la météo, il faut récupérer la météo,
des choses comme ça, mais bon...
Mais ça va plus loin que ça.
Mais évidemment, ça va plus loin que ça,
déjà parce que ça contacte des services qui ne sont pas Microsoft,
alors qu'aucore une fois, nous n'avons rien lancé sur le PC.
Donc on a un domaine de Google,
les Google APIs, on a Akamai,
qui est un CDN, donc c'est un...
comment définir un CDN,
c'est quelque chose qui...
Un hébergeur de contenu.
Un hébergeur de contenu proche de chez nous,
au lieu de que tous les films de Netflix soient aux États-Unis,
en vrai, il y en a qui sont hébergés à Paris
pour desserver la France.
Il y a un appel à McAfee,
donc l'antivirus,
via le domaine TrustedSource.org
et c'est toujours des domaines un peu...
Trust me, ah...
Mais bon, on se dit,
pourquoi pas peut-être qu'il y a un partenariat
avec McAfee ?
Un dose defender, peut-être.
Mais bon, c'est quand même très étrange
parce qu'on n'a rien lancé du tout.
Je vais revenir juste après,
mais en comparaison, sur le côté Windows XP,
pendant ce temps-là, parce que ça a tourné aussi,
il n'y a quasiment rien du tout.
En fait, il trouve deux domaines
qui sont Windows,
et c'est download.windowsupdate.com
et update.microsoft.com.
Donc c'est vraiment...
En plus, c'est des URL explicites.
Tout à l'heure, je ne les ai pas cités
parce que c'est des noms à rallonge,
donc on ne sait pas du tout où ça va.
Globalement, c'est l'e-check
si il y a des mises à jour.
Il y a plein d'indices wire check
qui sont doublons, dont on se fout.
Mais il n'y a pas de MSN,
pas de Google...
Il y a beaucoup d'enquêtes DNS,
il n'y a pas de Bing.
Il y avait un filtre DNS.
Mais ce qui est fou dans le cas de Windows 11,
c'est que la personne n'a jamais utilisé Bing,
et qu'il y a une requête qui part à Bing.
Même Maca-fi, les gens...
Même Maca-fi...
T'as plus d'antivirus, t'as Defender, t'as plus rien.
Eh bien si Maca-fi te choque,
je vais te choquer un peu plus.
Parce que jusqu'ici, on va dire que c'était plutôt
des domaines legit.
Et surtout, ce qu'il a découvert,
ce YouTuber,
il y en a quand même deux qui sont
assez questionnables
après celle de Maca-fi et de Trusted Source.
Il y a la première, c'est Score Care Research.
Donc déjà, quand on va sur le site,
c'est bloqué par YouBlock Origin.
Ce qui n'est pas bon signe.
Et en fait, quand on y va quand même,
peut-être qu'il veut parvenir à y aller,
on le découvre tout simplement.
Ah, ok, on n'a pas la même interface,
mais ok, ça doit être ça.
C'est un, je cite,
service qui étudie et rapporte les tendances
et le comportement sur Internet.
Effectue des recherches en collectant
des données de navigation sur Internet,
et utilise ensuite les données pour montrer
à l'aéroport, ce que les gens utilisent
sur Internet, ce qu'ils aiment, ce qu'ils aiment pas.
Et ça, c'est envoyer
minute une, quand tu lances un Windows,
on voit des données à ce service
qu'on ne connaît ni d'aie-veu ni d'adent,
qui n'est pas affilié à Microsoft,
mais visiblement, il y a potentiellement
un contraint, un partenariat
avec ce service,
et donner de personnalisation, globalement,
on envoie vos données.
Et surtout, ça veut dire que c'est minute une,
c'est probablement toutes les suivantes aussi.
Mais oui, et en fait,
c'est juste, tu commences, t'es déjà très con.
En étant inactif, c'est actif.
Et ce qui est fou, c'est que tu fais ça,
de toute façon tout à fait gratuite,
sans avoir validé un seul pop-up,
tu as validé des conditions d'utilisation, certes,
mais sans avoir lancé
un seul navigateur web.
Deuxième exemple,
c'est l'URL PrivacyProtocol.OneTrust.com
Alors, là ce qui me fait beaucoup rire,
c'est que dans cette vidéo, il dit,
souvent quand il y a Privacy dans un nom de domaine,
c'est qu'il envoie des données.
Et pareil, alors c'est un...
si on va, voilà,
c'est un...
En fait, je sais même pas trop exactement ce que c'est.
C'est quelque chose qui gère tout ce qui est
GDPR,
je m'en dis en français.
Ouais, RGPD, je sais que c'est très utilisé
justement, l'entreprise pour
gérer là où t'es donné,
en gros, pour générer la confinationalité
des données aux entreprises,
c'est un service très connu.
Ce qui est très cool, hein.
Pourquoi un ordinateur
qui n'est pas affilé à une entreprise,
un ordinateur personnel avec Windows 11,
envoie des données à un domaine qui appartient à cette entreprise
encore une fois.
On sait pas.
Mais du coup, à la question,
est-ce que Microsoft vend vos données
à des sociétés de publicité ?
Ça peut paraître bête à dire,
mais oui, c'est le cas.
Et moi, ce qui me fume,
c'est que...
C'est que Windows 11
est payant.
Ça coûte 150 euros.
Alors, peu de gens d'entre nous l'achètent,
parce que soit on l'achète de façon détournée
quand on achète un PC, soit parce que vous êtes
absolument d'un femme crapule
qui est téléchargée Windows également,
mais ça coûte 145 euros.
Et donc, dans un OS que tu payes,
en fait, on a l'habitude de Google,
on sait que nos données
sont utilisées et c'est le business model.
On le paye rien.
Et là,
t'achètes 145 euros ton logiciel
et t'as tes données qui parlent
de façon tout à fait random
à des services tiers qui ne sont pas
de Microsoft.
Donc, voilà, je trouve ça un peu scandaleux.
Mais du coup, ça m'a fait
penser à plein de choses.
Alors, restez jusqu'à la fin, parce que du coup, on va vous montrer comment ne pas envoyer
ces données
pour éviter d'envoyer des données
à on sait pas quelle SCARE research
et institute of data.
Dans le chat, il y en a qui disent
oui, c'est bon, on découvre que l'eau s'amouille
en fait, c'est parfaitement évident,
mais je pense que
vous vous trompez, parce que
tout le monde n'est pas du tout au courant
de la quantité de données
qui part constamment, et surtout du fait que
ça a évolué, c'est à dire que
il y a beaucoup de gens qui disent
oui, alors soit on se fait pister tout le temps partout,
soit qu'ils sont très naïfs
sur le sujet, mais de réaliser
de voir les deux voyeurs charques
là à côté de l'autre, et voir que sur Winos XP, il y a vingt ans
tu démarres ton OS Microsoft
il y avait rien,
quoi, il se passe, ta machine ne fait rien
quasiment au otage de fond, sans te prévenir
et bah
ça n'a pas toujours été comme ça en fait.
Et puis si tu n'es pas connecté à Internet, ton OS, il marche très bien,
heureusement, et il n'y a pas du tout
toutes ces données qui partent.
Donc ouais, et moi, ce qui m'a vraiment perturbé
c'est qu'en apprenant les conditions
de l'expérience, c'est vraiment
il venait de lancer son PC,
et il avait juste un logiciel d'incélitus
et voyeurs charques, et bah
tu as quand même énormément de données qui partent
c'est moi, c'est plus ça, c'est
tu te dis à partir du moment où tu lances un navigateur web
ah ok, d'accord, il y a des choses,
mais là c'est assez fou. Et du coup,
tous ces comportements un peu étranges qui se passent
sur Winos,
moi un peu rappeler toutes ces
vieilles pratiques pas ouf qu'on trouve
sur des Winos depuis tout le temps,
surtout depuis après Winos XP
justement à partir de Winos Vista
a commencé par les bloatware.
Donc les bloatware c'est ces logiciels
qui sont préinstallés sur des machines
et dont on en a un peu rien
à faire. Ça peut être des logiciels
qui sont préinstallés par Winos directement
ou par le fabricant
d'un PC qui rajoute
des logiciels.
Donc des logiciels préinstallés par Winos,
ça peut être Candy Crush, Facebook,
Disney, Netflix, en fait
ce sont des partenariats que fait
Microsoft en fonction de votre région.
Ça dépend
de là où vous habitez. Ils vous installent
des packages
d'applications.
Je fais ça sur les téléphones quand tu prends Android.
Android c'est...
Android c'est gratuit.
Voilà.
Mais oui, il y a beaucoup ça sur Android.
Là je me suis focus sur Winos, mais évidemment
il y a plein de bloatware sur Android.
Il y a aussi des applications payantes
en version gratuite, en version d'essai
qu'on installe par exemple des antivirus.
Souvent c'est des logiciels de sécurité.
Évidemment, il y a des applis de Microsoft.
J'ai un peu plus de mal à en vouloir, mais tout ce qui est Cortana,
Mail, Calendar, Teams, etc.
Bref,
beaucoup de choses qui ne sont pas nécessaires
à un système d'exploitation
et qui globalement peuvent prendre des ressources
parfois ralentir son PC.
C'est même déjà arrivé que des bloatware
et des failles de sécu.
Donc du coup le fait que tu es un logiciel pas désiré
sur ton ordinateur
te met...
Tu rendais vulnérable à une faille de sécurité.
Je crois que c'est le nouveau qui avait été
pingué il y a quelques années.
Ah on pourra ça, ça pourrait faire l'objet.
On en a parlé même. On en a déjà parlé de ce truc ?
Oui. Ah ouais ?
Vous avez oublié mais oui. J'ai oublié.
Je ne sais pas quoi fiche. Je vais retrouver la chronique mais oui.
Ouais bref
c'est le plus connu d'ailleurs,
c'est le nouveau.
Scarfish, je ne sais plus.
Bref, plein de bloatware
commence à en débarrasser.
Tout simplement.
Première méthode très simple, la plus simple
c'est le site
Shud Ayo We Movit
qui donne un petit classement en haut
vous voyez de... Les mauvaises élèves.
Donc Toshiba, les bloatwares
ça y va.
C'est très cool pour savoir
tu peux entrer le nom d'un logiciel que tu as envie de supprimer
pour savoir si c'est une bonne idée de le supprimer
ou si c'est un moyen de bonnes idées.
Ouais en fait c'est trop cool.
Là du coup, en gros je vais vous donner plein de petits tips
pour faire une
clean clean clean en salle de votre windows.
Alors évidemment, j'ai pas tout
mais on va dire de ce que j'ai préféré dans mes découvertes
là dessus. Parce que effectivement parfois
tu vois un truc dans ta liste de programmes qui ressemble à un nom de driver
entre comme ça. Et tu sais pas trop
si tu es en train de faire une connerie
si tu veux le faire et de réinstalle complète
donc tu vas là dessus et tu sais quoi. Et ça peut même t'accompagner
dans la désinstallation de
l'application. Ça c'est la première façon
mais après si tu veux aller un tout petit peu plus loin
sans vous prendre la tête
il existe un marché d'application
pour désinstaller des applications
sur Windows parce qu'il y a tellement de
bloatware et d'applications indésirables
qu'il y a des applications qui s'en charge pour vous
je vous conseille
l'excellent bulk
quarp in installer
qui en gros te fait des
installations complètement automatisées.
C'est une bea cool nom. C'est cool.
C'est trop cool. Alors l'interface est escalée
mais on s'en fout.
Tu coches tous les
tous les logiciels que tu veux
déinstaller et le mieux en fait il va chercher
tous les programmes de désinstallation et tout et il le fait
à la chaîne
en background et d'ailleurs la vidéo
je crois qu'elle a dur 5 minutes et il met
un timer en mode combien de temps ça vous
prend. Dans 5 minutes vous allez avoir un truc
super clean avec le moins d'applications
indésirables que vous voulez.
Je vois qu'il y a un lien sur github donc
ce sera peut-être un peu plus transparent.
C'est cool et c'est open source.
C'est open source.
Il y en a un deuxième qui est d'ailleurs open source
aussi. Je suis sûr
parce qu'il y a un lien sur github.
C'est bloatbox si vous voulez une alternative
à celui-là et qui fait à peu près
la même chose. Si j'avais découvert
ce truc qui me range plus tôt.
Mais j'ai encore mieux pour toi. Ah bon ?
Parce que ça c'est si elles sont déjà installées.
Est-ce qu'il n'y aurait pas un petit tips
pour ne pas venir ne pas les installer
à la base ? Il y en a.
Ça ou tu y vas ?
Ah ouais tu sais où je vais ?
J'ai déjà entendu parler
de versions custom de l'OS
lui-même en gros.
Alors c'est pas ça.
Si tu installais Linux.
Alors je vais citer un article de blog
qui a deux délastuces.
La fin de cet article de blog c'est exactement cette phrase.
Je pourrais vous la lire tout à l'heure parce qu'elle est très marrante.
Mais non mais c'est une technique en plus
vraiment de l'espace. Voilà c'est
un technique pour installer Windows
sans les bloctoirs.
En gros
c'est Microsoft
un process d'installation de Windows
qui s'appelle OOBE
Out of Box Experience
et le but
c'est de berner ce processus.
Et en fait, ça suit tout simplement
d'installer Windows avec une clé boutable
de façon très classique.
Et au moment de l'écran où on demande
le temps et la monnaie que vous allez utiliser
il faut faire un petit mensonge
et utiliser
le English entre parenthèses World
ou English Europe.
Ok. Pourquoi ?
Parce que tout à l'heure c'est hyper sombre.
C'est hyper sombre. Mais pourquoi ? Parce que tout à l'heure
je vous ai dit que les bloctoirs de Microsoft
en tout cas étaient installés
en fonction de la région. Et en fait
ça c'est pas des vrais formats de région.
Ils sont pourtant disponibles à l'installation sur Windows
c'est ça qui est très étrange.
Mais ce ne sont pas des vrais régions. Et donc du coup
le programme OOBE
ne va pas savoir quel bloctoir
installé
et du coup il n'installent pas.
En tout cas ceux
qui sont fournis par Windows.
Le truc dans la raccade quoi.
En fait c'est vraiment vrai.
Et en fait il vous suffit de faire toute l'installation.
Alors ça provoque potentiellement une petite erreur
au milieu mais il faut les ignorer.
Il faut vraiment être confiant dans son truc.
Toutes les tactiques que je vais vous donner
potentiellement il y a des erreurs mais c'est pas grave.
Voilà par exemple ça il faut se dire
OOBE région ok.
Il faut faire skip.
Le spyware n'a même plus pu être un spyware.
Génial.
Et ce qui est génial c'est que tu se retrouves après
avec un menu démarré mais vraiment
le plus frais possible. Il n'y a rien dedans.
Normalement dans le menu démarré aujourd'hui il y a plein de pubs
justement apportés par ces stuff.
Peut-être qu'on va pouvoir... voilà exactement.
Il n'y a que dalle.
Il suffit d'aller dans les parans.
Ce serait parfaitement logique d'obtenir ça.
Alors tu sais que cette fenêtre
est très rare dans le monde de nos Windows.
C'est vraiment un petit grâle.
À part éventuellement dans les pubs Microsoft.
On revient à l'époque où il y avait Internet Explorer
avec les 15 toulbars en haut en fait.
C'est vraiment ça.
Et du coup en fait il suffit après
d'aller dans les panneaux de configuration
et de remettre la vraie région dont vous êtes.
Parce que notamment si vous voulez effectuer
des achats sur la Windows Store et tout
vous aurez besoin que ce soit configuré en euro etc.
si on ça va bugger.
Mais vous faites ça.
Et ça marche nickel et vous n'avez pas
à tout désinstaller.
En plus je sais que j'ai réinstallé un PCR
récemment et Microsoft t'oblige quasiment
à te connecter à ton compte Microsoft
et ils doivent lier toutes les données et tout.
Oh l'appel monsieur de transition !
Juste ne pas te connecter à ton compte Microsoft
c'est un enfer.
Et ben ça sera ma dernière partie.
Parce que maintenant qu'on a essayé d'installer ça
à un semblote wear, comment installer Windows
sans utiliser un compte Microsoft ?
Ça fait chier !
Pour ceux d'entre vous qui sont sur Mac
ou qui n'ont jamais utilisé une installation
de Windows, effectivement
il y a un passage obligé c'est la connexion
au compte Microsoft.
Et alors ?
Est-ce qu'il y a moyen de l'éviter ?
Comment faire ? Il y a tout à fait
moyen de l'éviter.
Si tu as perdu et que tu seras coupé au montage
mais du coup sur les bloatoires juste avant
il reste en quand même Teams, mail, calendar etc.
Je crois qu'on peut les installer
je reçois quasiment sûr mais il faut le faire manuel.
Bref, ta question qui était donc
est-ce que c'est possible
d'installer Windows
sans compte Microsoft ?
C'est tout à fait possible d'utiliser ce qu'ils appellent
un compte local.
Donc c'est ce qu'on utilisait avant
avant qu'ils nous embêtent.
Et puis ce qui est utilisé je crois sur tous les autres OS
c'est des comptes locaux
même si parfois ils sont liés
à des comptes avec Cloud etc.
Alors il y a plein
de tutos qui existent
sur internet pour qu'ils nous disent comment faire
et en fait il y a plusieurs solutions pour ça
la première très très simple
ne pas être connectée à internet
donc tu débranches le câble
et en fait à un moment il te propose
une installation limitée
elle est très bien
elle est très bien quand elle est limitée
et on vous fout la paix.
Mais globalement ça fonctionne. La deuxième solution
c'est de débrancher internet mais de façon
software si c'est
un Wifi cable c'est un peu chiant de le débrancher
en fait
il y a une technique qui est de lancer Shift
F10 pour lancer un invité de commande
pendant l'installation
et il suffit de faire IPconfig
IPconfig
slash release
et ça permet de couper des collectures réseaux
si besoin on peut le refaire
de nouveau après pour le remettre
ou de démarrer l'ordi c'est machin.
Voilà mais ça c'est les... bon on va dire
que ça va générer quelques messages
d'erreur
c'est globalement tout ce qui est utilisé partout
quand on craque des logiciels on essaye de
s'éconnecter d'internet
Il y a deux autres méthodes
une qui est justement un peu plus logique
qui est de bypass ce fameux OOBE
et donc
invité de commande Shift plus F10
Shift F10
et c'est la commande OOBE
slash bypass Nero
et ça permet en fait
de rendre la connexion internet optionnelle
en fait c'est ça qu'on cherche à
dire à Windows c'est non mais
je n'ai pas obligatoirement besoin
d'une connexion internet
et en fait ça relance le process d'installation
en mode je n'ai pas internet
édition installation
limitée et ça fonctionne
mais ce n'est pas ma méthode préférée
puisque la méthode préférée
et pfff c'est vraiment incroyable
ça permet de garder internet en fait
la dernière méthode
et en fait c'est d'utiliser
un FOMAIL
en fait il y a des FOMAILS
que tu peux utiliser
lors de ta connexion à ton compte
le plus connu c'est A
A.com
c'est celui que vous retrouverez à peu près
tous les tutos mais de ce que j'ai vu
alors je n'ai pas tout essayé
mais il y a testatest.com
fakeatfake.com
un at1.com
et le mot préféré je crois que c'est celui là
qui m'avait donné
noatsegnq.com
en fait c'est des emails
qui sont pas valides
mais vous le mettez
en mot de passe
vous mettez n'importe quoi
vous écraser votre clavier
ça provoque un petit message d'erreur
je ne vous le cache pas mais que vous pouvez bypass
il n'y a aucun souci
et du coup après vous passez sur le process
de création d'un compte local
et pas d'un compte microsoft
en fait il faut pas s'étonner
il y a plein de éditions limitées
tout le wording microsoft
et de vous empêcher à le faire
ça marche sur 99% des gens
mais en fait il vous empêche pas
je sais pas s'il y a une obligation milégale
mais il vous empêche pas actuellement de le faire
et donc tous ces petits tricks
c'est pour dire à Windows
non mais je sais, laisse moi tranquille
c'est quand même dingue
parce que en gros c'est
la moindre petite problème
en réalité il te laisse créer ton compte
c'est juste de base
t'as pas le putain de bouton
il te dira
qu'est ce qu'il se passe les microsoft pour aller à ça
dans toutes les techniques que je vous ai expliquées
il te dira quasiment à chaque fois
quelque chose c'est mal passé
qui fait un peu faire peur et tu te dis je vais réessayer
au lieu de passer
et voilà, et c'est une procédure que vous pouvez faire aussi
ça je n'ai pas détaillé
parce que la rien n'est exceptionnelle
mais c'est disponible sur l'article
que peut-être si je vous a montré
c'est possible de le faire une fois que vous êtes déjà connecté
à votre pc
vous êtes connecté avec votre compte
vous pouvez passer
alors c'est un autre article
vous pouvez passer sur un compte local
voilà, vous tapez Tech Republic
oui il y en a plein sur internet
pour faire ce genre de choses
je reviens
à notre premier problème
ce qui est de
Windows nous espionne clairement
vous voulez installer n'importe quoi
et globalement on ne fait pas ce qu'on veut
de Windows, là on a essayé de bypass
tout ce qu'on pouvait à l'installation
mais ça ne va pas empêcher le spying
le fait que Windows envoie des requêtes
que vous n'avez pas sollicité
puis jusqu'à la prochaine mise à jour
ou de réglage
exactement, et alors
il y a plusieurs solutions pour bypass
éviter d'envoyer des requêtes non désirées
à des acteurs tiers
qui ne sont pas Microsoft
en solution plutôt simple
avec un logiciel et une interface
c'est toujours the PC Security Channel
ce qui est bien c'est qu'il a trouvé les problèmes
et qu'il a résolu lui-même
et c'est plutôt lui
le premier je crois avoir découvert le fait
d'avoir montré ces requêtes réseaux
à aller à d'autres et ça a été replié par tout le monde après
je m'égare
il conseille deux applis super complets
c'est ONO Shut Up 10
N Ultimate Windows Tweaker
c'est toujours des logiciels un peu particuliers
mais globalement pour vous les décrire
c'est pas une autre configuration mais mieux fait
c'est à dire que tout ce que vous pouvez cocher
comme
désactiver Cortana
supprimer les appels à des applis tiers
empêcher les données de telemetrie
qui s'appellent dans l'application
désactiver Windows Defender
c'est quelque chose qu'on peut faire à droite à gauche dans les configs de Google
ou alors en ligne de commande
là il y a une interface et il y a toutes les cases à cocher
et vous pouvez faire ça sur toutes vos applis
et donc on va dire que c'est rassemblé
en une seule et même interface
là pour le coup il y a en une seule et deux interface
il y a deux logiciels
c'est... oui
c'est jamais rassurant de fou ces outils
c'est jamais rassurant de fou
ce qu'ils vont faire ça va aller directement supprimer
genre des fichiers système
aller se hoover sur des changées de revivre
des appels privés de Windows etc
mais bon
ça marche en fait ça déplace la confiance
il faut faire confiance à l'outil qu'on utilise
et si vous n'avez pas confiance c'est forcément la bonne solution
mais du coup il y a une autre solution
dans laquelle vous pouvez être complètement confiant
c'est-à-dire
Overwide le DNS
donc c'est-à-dire écrire par-dessus la linuaire DNS
mettre un ad-block pour ton Windows quoi
globalement mais toi ça te paraît évident
mais pour les gens ça ne paraît pas forcément évident
globalement
tous les sites que Windows contacte
en zoom zoom
on va leur changer leur adresse IP de destination
donc par exemple le site
onetrust.com
il y a associé à INIP sur le logiciel Wireshark
on va prendre ce domaine
onetrust.com
ou le domaine plus spécifique qui contacte
parce que potentiellement on a besoin d'aller sur le vrai site
et on va lui dire
l'adresse IP que tu avais jusqu'ici
que la nuire DNS t'a donnée donc vraiment le
botein de l'internet
tu vas la remplacer par l'adresse IP de mon ordinateur
et donc ça crée une boucle IP
le fameux fichier host
c'est le fameux fichier host alors si vous voulez
que tous les gens qui ont déjà bien hâté un logiciel
ont déjà utilisé s'en peut-être comprendre exactement
ce qui se passait
et bien j'allais venir c'est quand vous piratez un logiciel
pour empêcher les accès serveurs par exemple
il faut craquer adobe
pour empêcher les serveurs de contacter adobe
et bien ça modifie ce fichier host
en créant
une loupe IP
pour éviter que ça puisse contacter les serveurs
d'adobe et un truc aussi bête que ça
empêche la télémetrie
alors il faut le... là c'est très manuel
donc il faut récupérer
on va dire faut avoir
avoir à jour tous les domaines
potentiellement qui sont contactés par windows
donc il faut potentiellement
soit même un wire shark
récupérer un par un soit faire confiance à des gens
qui le font chez eux et voilà windows contact
si ces domaines là
vous pouvez les blacklister entre guillemets
vous pouvez faire ça au niveau du router aussi
vous n'êtes pas obligé de faire ça au niveau du pc
mais là je vous fais la version très simple
parce que c'est modifié un fichier
c'est très bien expliqué mais globalement c'est modifié un fichier
avec une liste à couper et coller
et ça marche super bien
voilà
simple
efficace
mais ça ne verra plus de données
à ce site
apparemment tu as des ripos
qui track déjà l'ensemble de ces domaines
qui permettent de la télémetrie
et donc a priori
simplement à se rendre sur
des projets communautaires
comme ça existe tout souvent évidemment
et à remplacer votre fichier host
pour vous débarrasser
mais moi c'est le fait qu'il y a le côté me fait inspirationner
il y a même le côté psychologique de me dire
là mon ordi
on dirait qu'il ne fait rien
et en réalité il envoie des requêtes
partout mais en même psychologiquement
on peut dire arrêter tout ça
avoir un peu de sérénité
repasser sur mon idonis
c'est tellement traite on te dit c'est de la télémetrie
c'est juste pour mieux comprendre comment tu utilises ton ordi
les mots qui sont utilisés, personnalisation
suggestion et tout tout ça c'est
pour améliorer l'expérience
et globalement on lance un wire shark sur une machine moderne
ça fait un peu peur et d'ailleurs quand vous ferez
cette procédure de créer une boucle lippée
sur cette domaine là ça va pas les supprimer
de wire shark vous les verrez toujours
jusqu'en fait ils y auront nulle part vu qu'ils resteront
sur votre pc
mais il ne faut pas s'étonner de ne pas les voir disparaître
d'une alternative dont on parle le chat c'est
Pyhole qui est effectivement un projet
que tu peux installer sur un raspberry
par exemple sur ton réseau
et qui fait ce genre de blocage
et qui fait un peu de date bloc on va dire à l'échelle de ton réseau
le problème de ça c'est que
à partir de là où tu quites ta maison
tu changes de routeur
et bien ton trafic réseau ne passe plus
par ton date blocker
et donc voilà c'est quand même le problème de ces solutions
mais très stylé
si vous avez l'opportunité de... mais en fait ça demande
un tout petit peu plus de compétences techniques faux
se dire ok je vais me prendre un raspberry
installer un Pyhole ou avoir... c'est possible de le mettre sur un nas
Pyhole ? probablement
en tout cas sur des nas un peu stylés
et c'est encore mieux si tu peux faire
de la blocking
non franchement Pyhole trop trop...
c'est une bonne occasion d'apprendre franchement
franchement c'est super de installer Pyhole
faites le, vous allez kiffer
et du coup pour finir avec la citation de notre chair
je n'ai pas cité en plus Daniel
Alexanderssen donc c'est celui qui a trouvé
l'astuce
de Europe World
et Europe...
c'était quoi le... non c'était pas Europe
World
et...
English pardon
English World et Europe
il termine son billet de bog
vous voulez pas de blocware de service d'abonnement préinstallé sur votre ordinateur
pensez à installer Linux au lieu de
Windows la prochaine fois que vous réinstallez votre ordinateur
ou macOS
il avait la même conclusion que toi
Rémi
et le dernier truc dont t'as pas parlé
c'est les OS custom
mais oui mais alors j'ai un peu
cherché et mais si
si tu... non mais alors on en parlera peut-être une autre fois
mais il y a une dernière catégorie
qui est là on va dire
que c'est des solutions qui sont très pratiques à partir du moment où
vous avez un ordinateur déjà installé
que vous n'avez probablement pas envie de passer
par des processus d'installation extrêmement long etc
et de faire des réinstalles de votre
ordinateur mais si c'est le cas où que vous venez d'avoir
un ordinateur tout neuf et bien
vous avez le choix d'installer
des versions modifiées de Windows en fait
donc ça
quand il y a une version on va dire officielle
déployée par Microsoft
ou par les fabricants donc
un fichier ISO tout simplement
qui s'installe sur une clé USB
ou directement sur le disque dur pour une installation
et bien des gens s'amusent
à modifier ce fichier ISO
pour créer des versions alternatives
de Windows qui sont beaucoup plus
light et compressées et donc le objectif
c'est de se balader dans ce fichier
d'installation qui est vraiment une image
au disque quoi pour repérer tout ce qui
pourrait être fracultatif et être
enlevée finalement et ta version
vraiment pour tous les goûts donc ta Windows
ils vont déjà t'enlever tout le bloatware
mais te faire quelque chose
de très ressemblant à l'expérience de base
t'en as qui vont aller vraiment très très loin
et leur objectif c'est de pouvoir faire tourner
Windows 11 mais genre sur une brique tu vois
donc actuellement t'aurai besoin
de 8 giga-drammes minimum conseillés
par le constructeur eux ils arrivent
à te le faire tourner sur 2 giga-drammes
sans aucun problème juste parce qu'ils t'enlèvent
Windows Defender ils t'enlèvent Cortana
à la recherche ils te débloquent
comme on dit
ton OS au point où
il n'y a quasiment plus rien la fin
et quand on y réfléchit
c'est autant utiliser
un vieil OS comme Windows XP
mais là tu as des problèmes de compatibilité en général
et de mise à jour en de sécu
et donc en gros si tu veux le meilleur
de demande comme un truc
qui ressemble à un vieil OS qui est très très
lite et limité aussi en termes
de fonctionnalité mais du coup
légers et performants et que t'aimerais
aussi la modernité d'un Windows 11
et bien tu as ce truc entre les deux
qui est un peu le meilleur des deux mondes
et qui est des versions ultra-lèges
de Windows et il y en a plein
un des soucis quand même de ces
projets de sécurité exactement c'est la confiance
parce qu'on ne sait pas exactement
en général ce qui font à l'intérieur
comme de base Windows est
un logiciel propriétaire
c'est impossible de vérifier
alors peut-être qu'il y a des histoires
donc tu pourrais potentiellement vérifier
au moins que les fichiers
systèmes n'ont pas été modifiés
mais globalement
voilà vous avez tout de suite vu le problème
c'est que tu déplaces comme tu déles la confiance
de Microsoft un acteur un peu collé
mais bon ils étaient tous
frileux sur le chat
non c'est clair, il y en a un qui demande pour les mises à jour
ça fonctionne ? je crois
oui je crois que ça fonctionne sans
problème effectivement
on est d'accord que c'est pas du tout idéal
que probablement
que les
partir d'une installation clean
et après avoir des outils open source qui te la nettoient
ça reste un truc immédiat
plus legit
mais je trouve ça marrant de voir l'énergie
qui est mise en place et la communauté
exactement et vraiment c'est hyper communautaire
il y a énormément de versions
il y en a vraiment pour tous les goûts qui sortent
ils se battent les uns les autres pour grappiller
genre 10 méga de rames supplémentaires
ou te réduire vraiment ton fichier d'installation
un giga
et oui ça c'est marrant à suivre
donc à vos risques et périodes faites quand même bien attention
c'est très très compliqué de vérifier ce qui s'y passe
il y a le minimum effect quand même tu peux
tu peux voir s'il y a des requêtes qui partent vers l'extérieur
des choses comme ça
mais tu peux jamais avoir la garantie
à 100% que la personne
qui feront dit cette version custom de Windows
a pas caché un système
genre qui se réveille au bout d'un mois par exemple
et qui te shift tes documents
donc voilà faites gaffe
mais ça pète une autre solution
à côté du
des bloatings, des host
et de débrancher internet
et d'utiliser Linux
qui est évidemment la solution ultime
à tous vos problèmes
qui vous en créent quelques autres
parfois Windows il y a des blocs
oui parfois il y a pas de choix quand même
juste il y a des gens dans le chat qui déjà demandaient tout à l'heure
c'était quoi les 2
softwares qui permettaient de nettoyer
ton Windows
moi j'ai lu
Shut Up 10
ONO
Shut Up 10
et Ultimate Windows
exactement c'est ça
tu peux checker Atlas West
parce que je le connais pas celui-là
et
et ça m'a
piqué ma curiosité
avant qu'on passe à l'est
c'est joli
proposition du chat
ah mais c'est
ah oui alors c'est
c'est une interface graphique de Windows
il y a un focus pour gamer
privacy c'est noté
mais ça m'a l'air
alors la com est incroyable
la London Bank je donne envie
parce que c'est un autre aspect qu'on n'a pas traité
il y a évidemment la question de la
des données privées
savoir le fait d'avoir des requêtes qui partent non stop
sur les données de usage etc
mais un gros argument
pour modifier
c'est les perches
sur la com on peut le voir
si ton os par défaut il a
10% d'utilisation
et 2 gigaid mid-rame
ça casse les pires
pour toi qui a envie d'utiliser
le moindre pour cent de ton hardware
que tu as durement acheté
un autre très bon argument pour utiliser un os modifié
du coup c'est
par exemple Atlas West que je n'ai pas essayé
personnellement mais s'il y en a qui l'ont
qui l'ont utilisé
n'hésitez pas à nous faire vos retours
en commentaire c'est un des plus connus
et euh...
c'était dit par l'outchat ou ?
ouais c'était partagé par l'outchat
trop bien
et euh...
et dernier commentaire effectivement que j'avais vu passer
c'est que ta beau avoir ta version custom d'os
ça ne régle pas
les éventuels portes
portes dérobées
ou spyware que tu pourrais avoir
dans ton bios
qui vient en général
avec ton fabricant
et c'est pour ça qu'il y a des projets alternatifs
genre corbout ou
ouais il y a des bios alternatifs
qui servirait justement à éviter ce problème
mais bon c'est pour une autre histoire
oh ouais une chronique sur les bios alternatifs
on va faire d'infos de gens
il sort d'un lit il y a du tour mais quel régal
si je peux me permettre
y a reactOS aussi
c'est le moment où il y a tous les vieux projets qui sont sortis
vous connaissez reactOS ?
ouais ça ça me...
j'aurais jamais entendu parler tu vois mais
si tu me dis si je me trompe mais il me semble que c'est une version
rétro ingénierie
de windows en open source
mais je me demande si on en a pas parlé dans l'émission il y a très longtemps
c'est possible
en gros ils essaient de répliquer
entièrement les apais system etc
pour qu'un binaire
développé sur windows
tourne avec leur
leur OS leur carnet
c'est des gens qui ont beaucoup de temps
globalement
il y a beaucoup de skills aussi
c'est assez dingue
mais bon c'est illusoire
d'espérer une version
complètement fonctionnelle
c'est le genre de truc que tu as envie de mettre sur un podium
et d'applaudir très fort
après j'en reviens
mais c'est incroyable
il y a énormément de projets dont on parle
c'est ça
ok
cool
attendu code os, tiens dis donc
nous avons un travail
euh
on va perdre des jours à parler de l'internative bios
les gars vous avez pas compris quel audience vous avez
si justement nous avons compris
mais pas vous
mais c'est parce que sur twitch nous avons la crème de la crème
exactement sur twitch nous avons
les plus grosses servos
et ce sera que t'a montage
et on va tourner après le live
un truc sur youtube c'est vraiment les bests
en podcast vraiment ijère
tout sera édité
sans plus tarder je vous propose de passer
à notre sujet suivant
on va parler de gpt4
et de l'impression
vrai ou fausse qu'il devient con
c'est parti
je n'ai pas mon orillette
pour mon assistent virtuel
qui serait
pour qui est ce que je serai
une orillette mathy
il y a quand même p'tit
je parle direct dans le live
il y a pas ce problème
sans plus attendre
alors tu veux peut-être qu'on m'able
à tout moment
non il y a pas de problème
c'est ma petite chronique
il y a
un truc qui est très très très très
traditionnel
c'est pas longtemps que je voulais en parler
et il n'est pas trop à te passer
c'est pas si évident comme sujet
je suis pas jossé
je serai curieux d'avoir aussi
à la fois vos avis et celui du chat
parce que ça va m'intéresser
je vous propose de commencer
avec un tweet
si tu le arrives à le chopper
c'est le tout premier
ça fait quelques temps
ça fait quelques temps que
sur twitter des gens commencent à se plaindre
d'un phénomène assez étrange
il semblerait que chat gpt
en particulier gpt4
soit en train de devenir débile
même plus précisément que ça
soit en train de devenir paresseux
alors ne me faites pas dire
ce que j'ai pas dit si vous l'utilisez
une fois de temps en temps tous les 2 mois
vous allez vous détecter a priori
aucun changement c'est à dire que ça reste
un très bon insistant
ne crachons pas dans la soupe
il y a 2 ans on aurait complètement halluciné de voir ce genre de trucs
donc voilà
ça reste un très bon chat
mais des gens qui l'utilisent très souvent
et moi personnellement je vais vous le dire
j'ai fait cette observation
on a l'impression que le modèle est moins bon
qu'il y a 6 mois ou il y a un an
alors ça pose pas mal de questions
c'est est ce que déjà c'est vraiment le cas
est ce qu'on a des observations
objective on va dire
qu'il pourrait nous laisser penser que oui
ou est ce que c'est simplement des questions psychologiques
ou on a l'impression qu'il est moins bon
mais en fait c'est plus compliqué que ça
si c'est le cas qu'est ce qui pourrait
justifier ça
c'est à dire qu'est ce qu'il y a de bonnes raisons
de penser est ce que c'est conspit
en gros ou est ce qu'il y a des bonnes raisons
de penser que un modèle puisse être moins bon
avec le temps
non mais... exactement
sur le lien il faut beaucoup se méfier
parce qu'il y a beaucoup de choses qui sont dites
et on va voir que c'est très compliqué
la réponse est très compliquée
et au même temps
vous allez être étonné parce que
en fait il y a potentiellement des vraiment
très bonnes raisons qui expliquerait que
ça soit vraiment plus nul
enfin que les versions récentes soient moins
bonnes que ça le dit à 6 mois non
mais n'allons pas trop vite
regardons déjà les premiers exemples
qu'il a partagé
alors ça va être vraiment try petit
si tu te descends un tout un petit peu
sur les
trucs plus bas
voilà, lui ce qui est précis c'est que
c'est pas tellement une question
de devenir stupide c'est à dire de ne plus
arriver à résoudre des tâches
mais c'est de manière générale une question
de comportement c'est à dire que
là où il y a peut-être 6 mois, 1 an
on pouvait lui demander de lui
de rédiger un script complet
je vais prendre un exemple avec le développement
parce que c'est assez parlant
tu lui demandes un script piton qui te
fait une tâche extrêmement complexe
moi je me souviens à l'époque
j'étais en train d'apprendre Swift
et je lui demandais de
faire des tâches vraiment très complexes
sur le GPU du Mac
et il me pondait des scripts
en Swift et il me générait des shaders
et tout ça
produisait à la fin
du code long
complet
et vraiment
il manquait rien quoi
et il semblerait qu'on soit passé
de ça
à actuellement
ou si on regarde dans quelques exemples
on voit qu'il est constamment
en train de nous demander de faire le travail
j'ai remarqué ça un peu
un peu la flemme tu lui demandes de faire un code
avant avec le faisait maintenant il t'explique
comment tu peux y arriver et de mes petits extrêmes
et ça a toi d'assembler le truc
exactement et il passe son temps à faire des
je t'ai fait un brouillon rapide
mais évidemment l'implémentation
demanderait plus de travail
et on a l'impression
collectivement qu'il faisait moins ça avant
ou il va te générer ton code
Python et il va te dire
ici il faudrait implémenter t'es le truc
c'est quoi ce genre
t'avais un stagiaire
tu lui demandes tu peux faire ça en Python
et là tu lui dis quoi et il dit
alors là cette partie il faudrait implémenter
une connexion à la base de données
tu peux me faire un gâteau ou un chien
voici les ingrédients
un peu comme si tu étais au G
tu voulais te faire une conversation
quand tu veux faire un truc tu fais ok
mais si je veux vraiment le faire
tu as 5-6 messages alors qu'il y a quelques mois
tu mettais ta requête
c'était pas une conversation c'était un message
une réponse et c'était bon
exactement et il y a des gens qui ont fait des tests entre
GPT4 par exemple et d'autres modèles
typiquement des modèles open source
moi j'en ai vu notamment avec Mixtral
donc les tout derniers modèles open source
qui rivalisent de qualité avec GPT 3.5 etc
donc il est censé y avoir quand même un gap
d'intelligence mais quand tu regardais
du point de vue de la
de la paresse
effectivement la distinction était frappante
d'un côté tu avais Mixtral
qui te donnait ton
par exemple tu lui demandais de coder un bot discord
donc voilà on sait que c'est
une tâche qui est relativement complexe
mais quand même suffisamment abordable
pour que un LLM soit en mesure
d'en le faire, bon bah Mixtral d'un côté
tu codes ton bot discord en entier
te donnent des pistes pour résoudre ton problème
des perspectives
de modifications hyper précises
des noms de librairie spécifiques
en Python, des choses comme ça et à côté
tu vois GPT4
qui te fait un bout de script
tout nul avec du blabla
et des généralités en mode
oui il est complexe de générer des
assistants
avec du code, il faudrait apprendre la programmation
en Python pour ça, je ne t'ai pas demandé
de me faire une lecture en fait
je t'ai demandé de générer du p'tain de code
et effectivement
comme tu te dis Mathieu
c'est pas
c'est pas un problème qu'on ne peut pas résoudre
il suffit de le repromper, de lui demander
non non mais j'aimerais bien le code en entier
non mais implémenter telle ou telle partie toi-même
et tu finis par y arriver, donc comme tu le disais
justement
c'est comme si il avait un désir
de raccourcir ses réponses pour être dans un mode
plus conversational et à la fin
des fins tu finis par obtenir
ce que tu veux
si on redescend un peu dans le thread
il y avait
quelques takes intéressantes
moi du coup
j'ai une hypothèse
qui me vient, t'as t'as prêt ?
oui, pardon
voilà, donc la première
hypothèse qui a été émise
c'est que c'est plutôt un changement
de comportement qu'un changement de compétence
et qu'en fait on attribue
cette perte de performance
à un fait qui ne devient plus débile
en fait c'est pas qu'il devient plus débile
c'est juste que il a changé
et notamment
ça pourrait être justifié par l'apparition
des nouveaux GPT's
donc ça fait ces assistants
qui sont pas du tout des fin-tunes
mais qui sont des versions un peu
augmentées de GPT4
ou les utilisateurs comme vous et moi
peuvent lui rajouter
des instructions spécifiques dans le système
ou des fichiers qu'il aura à disposition
comme un PDF ou une feuille Excel
avec votre base de données
et qui pourra vous aider
à répondre à vos questions
peut-être que les versions actuelles de GPT4
ont été plutôt
guidées pour suivre
mieux les promptes systèmes
on pourrait s'imaginer qu'un LLM
il a plusieurs types de compétences
il pourrait avoir une compétence de
je sais pas de créativité par exemple
une compétence de générer du code valide
il pourrait avoir une compétence de suivre
des instructions à la lettre
et c'est pas forcément intuitif
mais c'est pas nécessairement
les mêmes compétences à arrêter
c'est-à-dire que tu peux être pas super malin
c'est-à-dire ne pas avoir une capacité
de raisonnement et de réflexion développée
mais avoir une capacité de suivre
à la lettre des instructions
vous voyez ce que je veux dire ?
oui et ça me fait penser à
il y a des parents qui jouent à jeu
ou tu demandes à un enfant
de te dire
vas-y dis-moi comment je mange
un yaward et tu dois me dérire toutes les étapes
et en fait tu décris jamais toutes les étapes
un peu comme s'il était devenu
trop précis et que l'humain
est en fait par nature imprécis
et que du coup il y a un décalage qui s'est créé entre gpt
d'intrigueur, d'intrigueur,
d'intrigueur versus
qui suivrait la lettre
et en tout cas peut-être
par exemple si tu oublies de dire
ou vous le frigo
bah ça c'est belle parce que inconsciemment
on le fait et ça me fait penser à ça
je pense que c'est une bonne analogie
pour décrire
une piste d'explication
qui serait que
un modèle qui est super
efficace à suivre des instructions précises
et ben c'est objectivement
très utile, c'est à dire que tu prends
certains gpt par exemple ceux qui peuvent
se connecter à internet
ou exécuter du piton dans
une leçon de box et ben
cela effectivement
avec des bonnes raisons de pousser
leur capacité à suivre des instructions
à la lettre mais si ça se trouve
on est un peu perdu au change
en gros dans leur autonomie
et leur capacité
à se débrouiller, à faire
des très longues générations valides avec un petit prompt
donc on peut
une autre analogie c'est à dire
à suivre très efficacement
des très longs prompts
c'est pas impossible que
on y ait perdu avec des prompts plus courts
et qui t'aurait demandé
un peu plus d'intuition
donc ça c'est la première piste
ce qui n'est pas une mauvaise nouvelle parce que
du coup peut-être qu'on peut compenser légèrement
en essayant d'être un peu plus précis dans ce qu'on lui dit
si jamais c'est
un vrai dique, une piste de solution
c'est effectivement d'avoir de se créer des prompts systèmes
qui vont
guider la manière dont
notre assistant se comporte
donc effectivement je vois pas mal
se partager sur twitter
si vous en avez d'ailleurs n'hésitez pas à nous les partager aussi
mais des prompts systèmes de gens qui disent
ok ben la version actuelle
de
la manière dont tu t'exprimes ne me plaît pas
et donc moi même je vais devoir
écrire la main et tu dois t'exprimer
de manière détaillée
cut the crap, arrête de me raconter de la merde
du code en entier et donc c'est effectivement
un moyen de contourner le souci
surtout que
les gens se sont rendus compte que
suivant
l'intermédiaire qu'ils utilisait avec les serveurs
d'open AI, ça se comportait pas forcément de la même chose
il y a des gens qui ont essayé
sur la version
ordite de chahjpT
versus la version mobile
et ils ont pas du tout obtenu les mêmes résultats
si vous ne le saviez pas
en fait la version mobile
de chahjpT a un prompt système
différent
en gros, ce qui est en haut du chat
qu'on ne voit pas et modifié
suivant le
le device qu'on utilise
waaaaaa
à vous je savais pas, j'étais passé à côté de ça
et en gros, sur l'appli chahjpT
il semblerait que open AI guy est
demandé volontairement
à gpT4 de faire
des réponses plus courtes
et j'imagine que la réflexion c'est
les gens sont sur mobile et donc ils veulent de l'info
plus dense, oui, une info peut-être rapide
oui, puis c'est peut-être mais
c'est comme ça dans la rue tu vois
en disant sur ton téléphone
je pense qu'il y a une autre explication
et valide
c'est une histoire de coup, notamment sur
les versions mobile de open AI
je sais pas si vous avez vu mais il y a des
il y a des modèles de discussion
donc en fait, ils ont intégré whisper
donc pour comprendre
les instructions vocales
et leur nouveau modèle de génération texte
de texte au speech
c'est très probable que tout ça leur coûte
assez cher, mais de rien
et que du coup réduire la output
réduire la taille des messages générés
par gpT, ça leur fait économiser
de la génération vocale en fait
tu veux dire qu'il y a un financier, un jour
qui s'est pointé dans les bureaux et qui a fait bon
les gars, je sais que vous vous amusez bien
mais voici les chiffres
pas de quelque chose
il y a un moment, faut quand même pas déconner
ça ce sont des explications
qui permettraient d'expliquer
pourquoi on a le ressenti
que la qualité
baisse
mais qu'en fait elle ne baisserait pas vraiment
mais en fait
il est possible que même au niveau de la qualité
c'est à dire que même au niveau du modèle
donc c'est à dire le fichier
qui tourne sur le serveur de Peneye
celui la même qui on le sait
et modifiait régulièrement à des versions
mises à jour tous les mois etc
il est possible qu'il y ait des drops
en qualité
pour ça, je vais vous parler
d'un autre modèle qui existe qui est très connu
qui est celui d'entropique
donc Claude que vous connaissez peut-être
qui est actuellement, on va dire, ce qui se rapproche
plus d'une concurrence à peu près potable
de GPT4
et ben si tu veux, alors j'aimerais bien
retrouver le leaderboard, le problème c'est que je t'ai pas mis le lien
merde
comment je vais le retrouver
en fait il faudrait chercher
le leaderboard
je crois de Huggingface
mais pas celui qui est basé sur
des votes humains
en gros il y a un système
je vous en avais parlé d'ailleurs
un système via elo
qui permet
les benchmarks c'est assez
limité comme manière de noter les
lm lm
et donc un autre type de leaderboard
de classement qui a été
qui a été mis en place c'est
un système de elo comme aux échecs
ou des utilisateurs votent quel est notre truc
qui préfère
et ben justement je vais vous montrer un truc
peut-être dans le chat si vous avez la bonne requête google
ça nous dève
je crois que les liens sont pas très aimés
mais si vous nous aidez à retrouver le lien
avec des espaces
ça m'aiderait énormément
et alors moi du coup j'ai
une hypothèse qui me vient quand tu me dis ok
c'est ça ?
le beau gosse
bien joué
du coup j'ai un truc à vous montrer
à propos de ce lm clod
si vous regardez ce leaderboard donc ils montrent
les plus gros modèles donc les propriétaires sont tout en haut
évidemment parce que pour l'instant ils ont quand même un avantage
sur les modèles open source mais on peut voir tout en bas
qu'il y a i34b, tu lus
il y a quand même
ça commence à se défendre un mixtral qui est un peu plus haut
mais si vous regardez les tout tout meilleurs
est-ce que vous observez
quelque chose d'un peu étrange ?
il y a plusieurs versions de gp t4
alors oui
pourquoi ?
c'est pas grave
pourquoi en fait elles correspondent
à différentes versions
à un temps donné c'est à dire que gp t4 03
14 c'est la version qui date
de mars 2023
06
c'est la version qui date de juin 2023
et donc on peut voir
déjà la première chose c'est que
elles ne sont pas ordonnées
par ordre chronologique
tout à fait
et après sur les seuls de Claude
ah oui pas ouai ok
Claude 2 est en dessous de Claude 1
Claude 2
est en dessous de Claude 1
et Claude 2.1 est en dessous des deux autres
alors peut-être une autre hypothèse est-ce que ça va
avec la censure des modèles et des choses comme ça ?
exactement alors
je vais venir dessus parce que
il a dit le mot
on va venir mais
c'est quand même assez dingue
pour expliciter
ça veut dire que les gens ont en moyenne
trouvé des modèles propriétaires récents
comme étant moins qualitatifs
que des anciens je sais pas si vous vous rendez compte
de ce que ça veut dire quand même ça recrute à des
équipes qui ont
des milliers de dollars de financement
des centaines de personnes qui bossent sur des modèles
ils passent des mois et des mois à créer
des nouvelles versions qui sont moins
bien notées que des trucs sortis
il y a un an et demi
et c'est sur tous les USK
il se passe seulement le code c'est de manière générale ?
c'est de manière générale
une appréciation humaine
c'est humain là ?
exactement là c'est une appréciation humaine
c'est un elo
il faut mettre un petit bémol c'est que les humains
sont pas forcément bons à détecter
des réponses de qualité
tu peux avoir une réponse qui visuellement
te plaît dans le style etc
mais en fait dans les données
de manière objective
ce serait moins bien mais quand même
ça veut dire que en un an et demi
en tropique OpenAI
on est régressés
c'est quand même dingue
quand on y réfléchit
comment c'est possible ?
factuellement
ça c'est vrai
je trouve que c'est quand même une preuve
relativement objective
je vous l'ai dit avec un petit bémol
relativement objective
c'est pas une hallucination
on est pas
si vous avez eu cette impression
vous n'êtes pas seul
collectivement on est tous d'accord
et est-ce que si on prend des benchmarks logiciels
cette fois-ci pas humains ?
c'est plus compliqué
mais non mais c'est intéressant quand même question
parce que le problème des benchmarks logiciels
c'est qu'on en a parlé effectivement
dans la dernière chronique sur Mistral
ils sont intrinsèquement
faillibles
parce qu'il y a toujours des problèmes de contamination
du fait que un benchmark
va se retrouver dans une trainement
et globalement on se rend compte
que tu peux avoir le meilleur modèle
qui va performer le mieux sur les benchmarks
si ça se trouve sur le serveur
d'une vraie boîte qui en a besoin
pour son appli
en fait il va être éclaté au sol
à comparer un modèle qui performe moins bien
c'est pour ça que si tu commences
à entraîner ton modèle pour que ce soit bon dans les benchmarks
c'est la fin du monde
exactement
et donc
qu'est-ce qui expliquerait
ça
cette régression sur un an et demi
parce que quand tu regardes la courbe de progression
sur l'année d'avant
t'as l'impression qu'on va atteindre l'intelligence générale
l'année d'après
on est au bord du gouffre
et en fait
c'est pas du tout ça qui se passe
et on a plutôt une régression sur un an
moi si jamais j'ai une hypothèse
en open source c'est pas le cas du tout évidemment
ne faites pas dire ce que j'ai pas dit
et si ça se trouve ce que je vais dire va être invalidé
dans les deux mois qui suivent quand
GPT 4.5 pourrait sortir
mais est-ce que tu as une hypothèse
enfin c'est pas une hypothèse c'est juste un constat
je me dis qu'est-ce qui a changé entre
chat GPT il y a un an
et chat GPT maintenant
et je me dis en fait il se nourrit
des retours qu'on lui fait nous
et est-ce que en fait
vraiment j'en sais rien du tout
c'est pas nous qui l'entraînons
mal par nos évaluations
des réponses qu'on fait sur chat GPT
je sais pas comment Claude je sais qu'il
prenne des feedbacks sur comment on a trouvé la réponse
nos conversations avec
si ça se trouve c'est juste nous on est trop mauvais
pour interagir avec chat GPT
et en fait il était un peu
pur à sa sortie et du coup
il était vachement efficace
et il est devenu
influencé par l'humain
et du coup c'est devenu une merde humaine
alors non mais écoute moi bien ça
c'est une des théories les plus solides
qui sont avancées par les gens
je suis refait pour expliquer ça
alors
je vais revenir dessus en gros
il y a trois grandes théories
qui pourraient expliquer ça
donc la première c'est celle dont a parlé
à savoir si vous avez remarqué
sur l'interface de chat GPT
une fois sur 20 à peu près
on va vous demander de noter
la réponse de OpenAI
vous avez une interface avec
deux réponses possibles et vous devez dire
laquelle vous préférez
effectivement il y a des
bonnes chances que ces données là soient utilisées
à des fins d'entraînement
pour améliorer, pour rapprocher
l'IA théoriquement de ce que
l'humain, l'utilisateur final voudrait
ça serait logique il le fasse en tout cas
ça serait logique, ça paraît comme une excellente idée
mais effectivement il y a pas mal de gens qui disent que
si ça se trouve ça a participé
à le baisser
à lui faire baisser sa qualité
puisque nous humains
on serait des
mauvais
profs en fait, on serait pas en mesure
d'identifier objectivement
quelles sont les réponses les plus informatives
les plus utiles
et donc ces élections là en petit à petit
fait dévier chat GPT
de son intelligence
originelle on va dire
pour arriver à ça aujourd'hui
la deuxième explication
possible et sa rejance que tu disais Rémi
je me demandais est ce que c'est pas OpenAI
qu'a changé ses objectifs parce que nous on évalue
sur certains critères mais c'est quoi la réalité
que je suis OpenAI, c'est quoi leur objectif
si ils continuent à mettre à jour ils ont leur propre
moi je pense quand même que de manière générale
faire des réponses utiles
et pas paraître seuse
ça devrait être leur objectif, mais c'est pas le cas je sais pas ce qui se passe
je sais pas, ils sont dans tellement de
enfin ils ont plein de problèmes en ce moment
de pas citer des articles
de presse parce que malheureusement même si c'est
d'excellente donnée, bah ils ont des problèmes de droit avec
ils sont dans plein de soucis
juridiques
ou ils sont dans la sauce à chaque fois
pour des sorties
ils sont obligés de compenser
moi je pense que ce serait
il y a un décalage dans le timing
et que ces acteurs
d'été récentes sont trop tardifs
par rapport à ce qu'on observe en qualité
je trouve
pour que ce soit une bonne explication
mais la deuxième possibilité
c'est
de savoir la lobotomisation
des modèles propriétaires
un truc
que les gens savent c'est que
si on demande à Chagapéter de faire des trucs
illégaux, mais pas que il est l'égo
justement, qui ne serait-ce
que par une certaine interprétation
à tout petit peu
borderline et qui pourrait
éventuellement vexer
un roumain
à l'autre bout de la planète
pour je ne sais quelle raison
et bien il va vous dire je ne peux pas le faire
car je suis un modèle diar responsable
il est devenu très puritain
je sais pas si c'est le mot pognia mais
je pense que c'est un bon mot
effectivement et ceci existait
dès le début c'est à dire que c'est
ce qu'on appelle le RLHF
Ray Enforcement
par Human Feedback
comment tu m'entraînes ?
Human Learning Human Feedback
comment tu traduyerais ça ?
du réenforcement d'apprentissage
par feedback humain
super visé par l'humain ?
et c'est la technique qui a un peu
débloqué les modèles de langage
donc faut pas cracher dessus parce que c'est vraiment
le truc qui a permis
à 4 GPT 3.5
notamment d'avoir
un monté en gamme aussi important entre
la GPT 3 et la version GPT 3.5
donc c'est vraiment un truc
qui est positif, on utilise des
cohortes de gens pour évaluer
via un processus extrêmement
codifié
les réponses de
de châtes GPT
il y a un petit côté crash test aussi je sais que
quand châtes GPT a été réalise il y avait quasiment aucun
filtre, tu pouvais demander comment fabriquer
une bombe luclair, c'est pas souci
voici les ingrédients on t'a besoin et tout et on sait
que très rapidement on se fait des mises à jour et que c'était
plus en plus dur de trouver des façons de contourner
ces restrictions etc donc on sait qu'ils
c'est ça justement
et ce que je... là où j'en venais c'est que
sur les premières versions
de châtes GPT il y avait déjà
un système de feedback humain
qui lui faisait
refuser certaines requêtes etc mais
ce qui est probable, la théorie qui a été
mise et qui se vérifie
honnêtement assez facilement
c'est que petit à petit
à chaque fois que
globalement quelqu'un arrivait à
demander à châtes GPT à lui faire
générer un output
qui ne lui plaisait pas
probablement qu'il allait goller
quelque part sur Twitter ou quelque chose comme ça
et que OpenAI petit à petit
a dû mettre de plus en plus
à jour son système de renforcement
de feedback humain
pour intégrer chaque
petite gulante
faite par chaque personne qui
n'était pas contente et au petit à petit
ce...
c'est...
en anglais ils appellent ça
des safeguard rails
guard rails
j'ai reçu
des garde-fous
ouais bien joué
petit à petit
ils ont dû rajouter des garde-fous
et des garde-fous dans leur modèle
de filtrage
et que
ça ait participé lentement mais sûrement
à une lobotomisation
d'une certaine manière du modèle
parce qu'un truc qu'il faut réaliser
c'est que c'est pas un audence
on pourrait se dire oui mais on rend
juste le modèle plus safe
finalement c'est bien d'être safe n'est-ce pas
et ben en fait il faut réaliser qu'il y a un vrai trade-off
entre la sécurité
et la performance
et ça s'observe dans absolument
tous les benchmarks c'est à dire que si tu prends
tous les modèles open source en général
ce qu'il se passe c'est que sort une version
officielle par exemple Meta quand ils ont sorti
Lyama ils ont sorti une version que s'appelait
Lyama Chat avec donc c'est
le modèle de base
le modèle de fondation comme on dit
sur lequel ils ont
entraîné le côté chat assistant
Lyama fait ça
Mistral pareil alors est-ce qu'ils l'ont fait
je ne suis plus sûr si dès le début
il y avait une version instructe ou chat
en général ça s'appelle comme ça
mais ce qui se passe à chaque fois
c'est que la version officielle donc
safe
se fait instantanément exploser
par toutes les versions non censurées
donc tous les
dans la communauté open source on s'est rendu compte
de ça assez rapidement et donc
des dataset non censurés ont été créés
ou globalement ils ont enlevé
toutes les réponses en tant qu'une
IA responsable je ne peux pas
vous faire une bombe
ils ont enlevé tout ça ils ont créé
des dataset crines non censurés et vraiment
ça n'y coupe pas à chaque
fois ça explose le modèle
officiel censuré
donc c'est une explication
qui n'est pas au mode
complotiste de genre pas content parce qu'on leur laisse pas
créer des trucs horribles c'est pas ça c'est
globalement il y a de très bonnes
raisons de croire que de manière
générale les performances sont dégradées
dès que tu mets des filtres trop
importants ça doit être un challenge énorme
sur open air on sait que à l'époque où
Sam Altman s'est fait virer et puis est revenu
ils avaient notamment des débats sur
c'est quoi l'objectif de l'IA, est-ce qu'il faut qu'elle soit performante
et qu'on pousse à fond pour que ça se vend
enfin est-ce que c'est un objectif
financier ou est-ce qu'ils veulent la jouer safe
il y avait une grosse partie de l'équipe qui était là en mode non mais la priorité
c'est d'avoir des modèles bien safe qui
donnent des données justes et qui sont
pas dangereuses et ben c'est là
où justement en gros les différentes boîtes
pourraient avoir différents objectifs
et vous risquez d'être intéressés par
différents modèles
suivant vos objectifs
et en fait
pour moi
la vie le plus raisonnable
là dessus c'est ce que fait Mistral
ou en gros
quand tu publie des modèles
Open Source
enfin je veux dire ce que fait Mistral mais
c'est ce qui se passe actuellement dans la communauté
Open Source, à savoir
les entreprises genre Meta, Mistral etc
ils mettent à disposition
des poids
qui ne sont pas censurés
parce que leurs audiences ce sont des développeurs
et en gros ils mettent la charge de la responsabilité
sur à la fin les développeurs
de faire en sorte que leurs utilisateurs
ne leur demande pas des trucs
illégaux ou parfaitement émoraux
et en fait il y a une confiance
qui est mise
dans les utilisateurs avertis
pour les laisser
eux-mêmes gérer leur sécurité
ce que ne fait pas du tout Open AI
et c'est extrêmement énervant
et pour le coup
leur cote pourrait être extrêmement
plus élevée qu'elle n'est actuellement
si jamais il ne mettait pas ça en place
en gros il se donne eux-mêmes
le rôle moral
de vérifier que globalement
tout le monde est gentil, tout le monde dit il est beau
et ce qui se passe à l'inverse
dans les communautés open source
c'est plutôt de dire, on offre en dit des modèles
et la seule garantie qu'on vous fait
c'est que c'est les plus performants possible
sur la question
de la morale et de la sécurité
on vous laisse vous débrouiller
après vous avec vos utilisateurs
et ce qui correspond
au mission d'une certaine manière
d'Open AI
mais eux ils mettent en place un produit public
et donc c'est normal qu'ils soient safe
sauf que
ils le font de leur API
c'est à dire que en gros
cette lobotomisation entre guillemets
elle est effective dans la API
un truc qui n'est pas utilisé du tout par les développeurs
c'est intéressant parce que je me souviens
au début de tout ça
il y a beaucoup d'Arknacker
qui utilisait justement Ponyri
pour faire des botes et des choses comme ça
qui disait passer par l'API
parce qu'elle n'a pas les mêmes restrictions
que la version web
en gros la différence entre la version d'API
et la version web
c'est le prompt system
donc pour le coup
sur la version d'API
tu n'as pas de prompt system
et donc le modèle est un peu moins guidé
un peu moins orienté à te faire des réponses milleuse
mais
globalement le modèle de base
ne change pas vraiment
la différence est que tu peux accéder à des modèles plus anciens
tu peux remonter comme on l'a vu dans les benchmarks
à des chadjp'ts
de version Mars etc
qui sont probablement meilleures que les récents
mais a priori
c'est la seule différence malheureusement
et
ce qui fait que
avant de parler de ça
un autre exemple qui est hyper frappant
dont on s'est rendu compte au bureau
et que je t'ai montré Rémi je sais pas si t'en souviens
ça concerne pas le chadjp'ts mais ça concerne Dali
donc Dali évidemment
qui a une API à disposition pour les développeurs
pour faire de la génération d'image
moi ça m'intéressait énormément parce que
mid-journée qui est un des concurrents les plus sérieux
n'a pas d'API
donc ne permet pas au développeur
d'interagir avec son truc
je sais pas pourquoi c'est rageant
mais c'est comme ça
donc Dali 3 est une des seules actuellement
plateformes de génération d'image
qui est un niveau extrêmement
acceptable et qui soit utilisable via API
je vous mets évidemment tous les modèles open source
qui sont aussi très bien
mais voilà
et bah je me suis rendu compte d'un truc
c'est que si tu envoies
une requête à Dali 3
pour te générer une image
déjà le truc que beaucoup de gens ne savent pas
c'est qu'il y a une étape
intermédiaire
c'est pas tu dis j'aimerais
un hacker à capuche
et lui il envoie directement
à la génération d'image pour te faire un hacker
à capuche
au milieu il semblerait
mais alors c'est documenté par Openair
qu'il y ait
GPT4
qui passe
pour reformuler
ce que toi-même t'as écrit
donc il y a une explication à ça
attention c'est pas juste pour faire chier
l'humain c'est pas parler
l'explication c'est qu'ils ont entraîné leur modèle
sur des promptes très longs
pour qu'ils soient hyper forts
à comprendre des scènes détaillées etc
et donc ils ont imaginé ce système
en deux étapes où tu donnes ta génération d'image
moi c'est malin
puis, chacé pété te la complète avec une scène distincte
donc au lieu d'écrire je veux un hacker à capuche
il va te mettre
dans une pièce sombre avec des spots lumineux
un hacker avec un laptop
qui ressemble à ça
qui est en train de
travailler de manière
très mysterious
en gros il va te complexifier
et t'inventer plein de détails pour que ton image
à la fin soit potable
sauf que
j'étais en train de faire mes générations
je générais plein d'images et plein de trucs
donc je me dis je fais un hacker
qui fait je sais pas quoi
et je trouvais quand même que dans mes images
il me fournissait
des résultats particulièrement originaux
notamment
une fois sur deux j'avais une accuse par exemple
j'avais un hacker, un hacker, un hacker
après
dans des scènes
parfois je demandais j'aimerais un hacker
qui rentre
qui arrive à bypasser l'entrée
la sécurité d'une entreprise
et je commence à avoir des nouveaux personnages
qui apparaissent dans ma scène
je vais pas demander, j'ai demandé juste un hacker qui est en train d'un endroit
et je vois des nouvelles personnes
par exemple
je vois une madame d'Afrique du Nord
en Hygia
ou après je vois un indien
ou un
très spécifique
un chinois et je fais plein plein de générations
et je n'ai pas demandé
des affiches de l'ONU
je veux juste
générer une scène simple
et en fait, ce que j'ai découvert
parce que tu peux avoir accès au
vrai prompt
donc au prompt que lui il crée en bout de chaîne
il te le renvoie en réponse
je sais pas si ils ont eu raison de faire ça
parce que du coup c'est comme ça que j'ai vu le truc
mais en gros il te modifie ton prompt original
et sans te demander ton avis
il te rajoute dans ton prompt
des attributs sur le genre
la nationalité
etc
tu vois sur toi tu es en train de générer ton image au calme
et en fait
tu as des
bout de phrases complets
ça peut faire une demi phrase vraiment complète
ton prompt il peut quadrupler
juste parce que
partout où il peut
il te rajoute des attributs comme ça
je sais pas si ça a continué
je sais pas si ça se trouve ils l'ont testé une semaine
il y a plein de gens comme moi
ça a des conséquences ça c'est pas juste
ça me fait chier parce qu'il suit pas mon prompt
c'est juste que moi j'étais pas en train
d'être sur une interface publique
à générer des images
pour mes réseaux sociaux c'est pas ça
je suis en train de créer une application en tant que développeur
pour un objectif très précis
où j'avais besoin de maîtriser
parfaitement mes prompts
et d'avoir mon interaction avec
mon tata de tes frères
ça me faisait tout exploser
parce que
comme ça tout seul
t'avais pas moyen de le bypass avec un prompt
en mode n'invente rien
j'ai utilisé le truc recommandé par OpenAI
pour ne rien inventer
il te donne la solution et te lise
il te donne un pré prompt que tu n'aies
aucune altération de ton prompt
bah elle galait ça
j'avais mes petits potes de chez OpenAI
je me demande si c'est parce que
ils ont pas fait un data set
ils se sont dit ok nos data sets sont vraiment
trop biaisés et au lieu de
d'améliorer leurs data sets parce que peut-être c'est compliqué
on fait un patch
avec un prème prompt
j'ai une réponse à ça
c'était à l'époque de Dali 1 ou 2
les premières versions tout de suite quand ça sortit
les gens ont dit effectivement on retrouve les mêmes biais
de représentation il n'y a pas assez diversité
des choses comme ça et le premier patch
qui ont appliqué c'était littéralement à la fin de ton prompt
rajouter des mots clés
femme, homme etc
parce que les personnes ont trouvé une astuce qui est géniale
ils ont écrit
photo d'une femme
avec un panneau où il est marqué
et comme
OpenAI rajoutait au bout du prompt
des mots, ça générait un panneau
où les mots étaient liqué sur le panneau
donc si tu écris photo d'une personne tenant un panneau
où il était écrit tu devrais rien avoir
et parfois tu avais des panneaux si t'es écrit
bien ou même
et donc on a su
que ça était leur patch pour
éviter d'avoir des biais et essayer de
faire des choses qui changent leurs dates
enfin qui améliorent leurs dates 7
normalement comme ça qu'on fait
exactement c'est à dire que la question
c'est pas de dire c'est très très chiant
qui est une représentation
dans les IAS c'est pas ça
il rajoute du biais en fait
ou exactement je suis un putain de développeur
donc à partir du contrôle
laisse moi faire ce que je veux
j'imagine tu racontes l'histoire précise
d'une personne qui est connu
qui mesure à mettre 80, qui a des cheveux noirs etc
tu veux mettre des photos qui correspondent
précédemment
et là tu as des personnages qui apparaissent
à un moment j'ai cru devenir fou
mais imagine tu fais ton appli
ou de la cinquième fois je te rends de vie
mais d'où viennent ces gens
comment c'est possible
alors c'est une question très bête mais pourquoi tu t'es pas dit que tu allais faire ça avec ce table
du fusionne
parce que actuellement je trouve qu'en termes de qualité
et de suivi du prompt
et de génération notamment de bout de texte etc
ah oui si tu veux générer du texte c'est mort
dali 3 les avantages qui sont vraiment assez incroyables
ils sont vraiment forts d'ailleurs bon
mais c'est les seuls à être forts sur le texte
oui dali 3
la version 6 c'est un peu meilleur
aujourd'hui on ne parle pas de d'images
on parle de ça
tout ça pour vous dire la conclusion c'est
c'est pas
absurde du tout cette explication
du fait que
certains modèles
perdent en qualité
c'est raisonnable de
d'imaginer que tout ce qui est
barrière de sécurité
garde fou de sécurité
il y a vraiment eu un impact sur l'épêve
mais il y a une autre explication
une autre explication qui est même
encore plus séduisante
et plausible de mon point de vue
qui a que
le problème qu'a OpenAI actuellement
et que non pas tous les modèles open source
qui cartonnent et qui marchent très bien
c'est qu'ils ont beaucoup d'utilisateurs
mais genre vraiment
beaucoup beaucoup d'utilisateurs
qui ont eu très rapidement
alors on sait qu'ils ont eu
énormément de fonds de microsoft
toute une infrastructure pour déployer ça
mais de manière générale
on sait qu'un des gros problèmes de OpenAI
c'est d'être rentable
et c'est d'arriver à financer
le coût hardware monumental
que représente ces fermes de GPU
qui servent ChargedGPT 3 et 4
à la planète entière
une des
bonnes raisons qu'on a de croire que
c'est très très cher de faire ça
c'est que
depuis un an et demi il n'y a pas eu
beaucoup d'autres GPT 4 minorais
donc
la théorie
comme quoi GPT 4
coûte un putain de bras
à faire tourner
et que OpenAI serait complètement
à perte mais genre bien
encore plus que l'on se l'imaginerait
et plausible c'est pas impossible
un type que ce soit vraiment très très
très cher
et du coup
qu'est ce que tu fais quand t'as un produit
qui est extrêmement coûteux
utilisé par des millions de gens avec des pics
grands comme ça c'est que tu cherches
les solutions que t'as à ta disposition
pour baisser
le coût de tes inférences
donc en gros pour faire en sorte que ton ordinateur
il y a besoin de moins de puissance de calcul
pour générer un certain nombre de tokens
et répondre à ton chat
parce que
la problématique c'est toujours de maximiser
combien d'utilisateurs en simultané
vont pouvoir interroger
GPT 4 qui tourne sur une ferme de serveur
vas-y avant que je...
non, excusez, on parle que de GPT 4
ou aussi de GPT 3 à 3.5
on parle de tous les modèles
propriétaires qui ont
suffisamment de
d'exposition pour avoir des gros problèmes
de délivrabilité
et d'arriver
à correctement servir leurs millions
et dizaines de millions d'utilisateurs
je vais dire c'est dommage de payer pour
un truc qui marche moins bien
du coup ça concerne tous les...
ça concerne tous
et donc actuellement
ce que tu peux faire pour augmenter les performances
de ton serveur c'est
utiliser du code plus efficient
des meilleurs modèles actuellement par exemple
la plupart des serveurs
qui fournissent des chats bot
ils utilisent VLLM
c'est le projet
par excellence qui permet de
servir avec la meilleure
efficacité possible beaucoup
d'utilisateurs. Bon mais ça c'est bon on va dire
l'état de l'art il est ce qu'il est
tu peux pas faire mieux que
ce qui existe actuellement a priori
une autre technique qui est possible
c'est de réduire la taille
des modèles. Donc c'est à dire que tu prends
ton modèle de base que t'as entraîné
donc faut s'imaginer que c'est une grande
matrice de nombre
et tu vas réduire
ta taille. Alors tu peux te dire bah non mais c'est
con genre si tu divises par deux la taille
de GPT4 par exemple
j'imagine qu'il deviendrait 2 fois plus bête
ou enfin intuitivement
on se dirait ça. Mais en fait
pas du tout parce que
faut s'imaginer que ces modèles là
donc c'est grande matrice de nombre
en fait c'est des matrices
de nombre flottant. Donc
en général c'est des flottes 32
ou des flottes 64
suivant le style entraînement ou l'inférence
etc. Ça dépend un peu
des architectures mais faut se dire que
ce sont des
nombres à virgule où il y a vraiment
beaucoup beaucoup beaucoup de virgule pour une très
très grande précision. Si je vous
rappelais vos cours de maths de collège ou de lycée
mais l'écriture scientifique
à savoir le fait d'écrire un nombre sous la forme
1
virgule, plein de virgule
fois dispusion c'est quelque chose
et ben en fait
c'est comme ça qu'on stocke les nombres sur un ordinateur
les nombres flottant juste en
je rentre pas dans plus de détails
la seule chose à comprendre c'est que
cette matrice de nombre si on veut
diviser ça taille par 2
on peut par exemple
lui enlever de la précision
donc au lieu que tes
nombres à virgule isaient genre
32 chiffres après la virgule
et ben tu vas passer à 16 par exemple
et du coup
tu n'es pas en train de diviser par 2
ton modèle tu vois c'est pas ça
c'est juste que tu réduis sa précision
et
globalement ce qu'on observe
c'est que ça change quasiment pas
ses performances surtout si tu réduis
par exemple de
32 bits à
seulement 16 là on observe
des changements qui sont en fait assez limités
ce processus
on appelle ça de la quantisation
et c'est un truc dont le grand public
et moi aussi autant du parler avec
les arrivées des modèles open source
c'est qu'en gros si tu peux avoir un modèle
de 32
milliards de paramètres
peut-être que normalement il devrait faire
une trentaine de gigas par exemple
mais grâce à de la quantisation
tu vas pouvoir résuer la précision
de ses poids et passer par exemple
en fp16 ou
en q8
ou en q4
ou q3, q2, q1 etc.
en gros c'est juste des
nommants clatures qui ont été créés
pour décrire à quel point
tu fais des concessions sur la précision
de tes poids.
Justement, l'impact est limité, il n'y a pas
un peu un côté
théorie du chaos
ou un peu de manque de précision, plus simplement de précision à la fin
ça s'accueule ?
Eh ben exactement, en gros
à un moment on
pensait que c'était quand même assez limité
mais en fait c'est possible que
ce soit quand même un trade-off, un trade-off qui serait pas
genre catastrophique, mais qui existerait quand même.
En fait
déjà on fait des tests
sur le niveau de perplexité des modèles
alors sur rentrer dans le détail c'est juste une manière
de savoir si un
modèle est performant et
si
jamais il s'est prédire
de manière correcte la suite d'un texte
et ce qu'on fait les gens
c'est qu'ils ont créé des courbes
pour comparer les différentes versions quantisées
pour savoir si
si mon modèle
qui fait 30 GB
je le passe en 24 GB
ou en 18 GB
à quel point l'impact est sévère
au niveau de la qualité
et en gros ce qu'on observe c'est que
si tu utilises
une représentation sur 8 bits
eh ben t'es très très proche
de la qualité originale
si tu passes en 4 pour le coup
ça va être largement dégradé, à 2 ça va être bien pire que ça
etc. Donc on a
une idée vague
de l'impact de la quantisation
sur les performances
mais ce qui est à peu près certain pour le coup
c'est qu'en niveau de la performance
t'as des gains qui sont
vraiment incroyables, c'est à dire qu'en
nombre de tokens générés par seconde
et en quantité de mémoire nécessaire
c'est génial, toi avec
ton GPU par exemple si t'as une
4090 avec 24 GB
de mémoire vive sur le GPU
tu vas pouvoir faire tourner
des modèles qui font 70
ou 34
de manière plus réaliste
34 milliards de paramètres
sans problème grâce à la quantisation
donc en fait c'est génial
c'est vraiment trop trop bien
c'est bien mieux de prendre un gros modèle quantisé
exactement, mais
qu'un plus petit modèle
avec moins de paramètres mais qui n'est pas quantisé
exactement, c'est vraiment ça
et dans tous les benchmarks ça s'observe
dans les versions de récentes de
chal GPT, je sais qui ont sorti GPT4
Turbo etc, est-ce que c'est ce genre
d'optimisation qui est derrière ?
et ben le truc c'est que on ne sait pas
dans les faits
personne ne sait de quelle manière
comment l'architecture
le back end de Open Air
fonctionne et qu'est-ce qu'ils ont fait avec leur modèle etc
mais c'est une théorie très solide
que effectivement les versions
Turbo, les versions récentes etc
pour pouvoir les déployer et les servir
à énormément de gens, il passerait peut-être
par de la quantisation
alors attention
c'est pas pour ça que
tu ne peux pas faire un modèle à la fois performant
et précis
il y a des gens qui vont imaginer des stratégies
pour réduire la précision
par exemple de certaines couches du modèle
mais pas de toutes, on va pas rentrer dans
l'architecture de l'IAMA parce que c'est quand même un peu compliqué
c'est des histoires de transformeurs et tout ça
mais en gros, il y a des certaines
tu peux avoir certains d'ailleurs, certaines breaks
que tu vas garder à leur précision
complète mais d'autres
que tu vas quantiser et réduire en précision
et tout ça te permet
de globalement avoir le meilleur
des deux mondes à savoir de la super performance
et en même temps, quelque chose de relativement précis
mais
ce qui est à peu près sûr
c'est que quantisation égale perte de précision
égale perte de performance
et c'est hyper trait parce que
tu peux garder le même nom, tu vois c'est
si ça se trouve OpenAI
ils te disent que ils te donnent GPT4
mais en fait dans la version web
par exemple, c'est pas vraiment
GPT4, c'est la version quantisée
à mort qui est hyper rapide
et qui marche genre
5% moins bien ou 8% moins bien
tu vois ça peut être de 7 heures là
pas assez pour que
ce soit démontrable vraiment
mais suffisamment pour qu'on
se rende compte et on se dise c'est quand même bizarre
qu'ils sont en un moment qui est pas bien réveillé
tu vois
et voilà, il y a une dernière explication qui est un peu troll
et que je vous gardais pour la fin
qui est que, on pense que
GPT4 et de manière générale
les LLM sont sensibles à des facteurs externes
donc par exemple, si dans le prompt
système y a écrit on est au mois de janvier
eh ben il y a des chances
enfin ça a été mesuré dans certains papiers
qui performent moins bien que
si tu lui dis que t'es en mai par exemple
ou un autre période de l'année
ou peut-être que de manière
générale les gens sont plus motivés
travaillent mieux
et peter un devant le soleil
il a appris de nous
exactement
c'est une autre théorie qui permet de l'expliquer
honnêtement
c'est plutôt pour la vanne parce que
j'ai pas l'impression que ça a été démontré
sur des très très grandes bases de données
et que ce soit vraiment très très fiable comme résultat
mais c'est une des dernières explications
donc voilà
toutes les possibilités qui pourraient expliquer
que globalement si vous avez l'impression chez vous
que GPT4 devient moins bon
ça a fait des super articles
si vous avez eu cette impression derrière votre interface
vous n'êtes pas fou
il peut y avoir de très bonnes raisons
que effectivement ce soit moins bien
mais est-ce que si on reprend l'exemple
on est obligé de faire parler
chah de GPT plus qu'avant
non mais je veux vraiment que tu me répondais tout
ça pourrait venir de la quantisation
c'est compliqué de savoir en fait
c'est compliqué de savoir exactement quel est l'impact
ce que tu peux observer
toi chez toi c'est que si tu prends un modèle
avec
précision complète
et que juste après tu lances une version
extrêmement quantisée ou vraiment
tu as réduit les dents reprénércules au maximum du maximum
ce que tu veux observer comme comportement
c'est juste que
d'un côté t'as l'impression de parler
à une personne en seconde
et de l'autre à un enfant de 8 ans tu vois
à ce point là
en gros c'est que tu constates
qu'il devient incapable
et juste qu'il répond à côté de la plaque
c'est un peu la même sensation étrange
que tu as entre GPT4 et GPT3
tu vois
tu as une certaine quantité d'informations qu'il a appris
forcément tu le soques dans un modèle qui fait 4GB
ou qui fait 2GB parce que tu as réduit
il y a un moment où il faut bien que l'information
elle disparaissent et voilà il faut qu'elle parte quelque part
c'est très perturbant parce que c'est pas du tout linéaire
tu peux diviser par deux
en gigas la taille de ton modèle
et avoir quasiment aucune perte
ce qui laisserait penser
qu'il y a beaucoup de données perdues peut-être
dans les versions non quantisées
mais ce que le plus fascinant
dans tout ça c'est à quel point
on n'y comprend rien
c'est à dire que c'est un domaine de recherche actuellement
il y a des papiers qui se penchent la tue
justement sur voilà à quel point
on maximise vraiment
ces modèles là
un modèle qui fait 100GB
à quel point on utilise vraiment chaque partie
de chaque couche à son plein potentiel
et globalement la réponse
pour l'instant c'est
franchement c'est pas trop
en fait c'est un peu un domaine où on est obligé
de rétro-engineery
ce que les gens trouvent en IA
et c'est pas un truc qu'on avait l'habitude de faire en informatique
mais dans d'autres secteurs en biologie
on essaye de nous analyser en permanence
mais là en fait on fait ça avec EZIA
le code c'est nous qui l'écrivons donc on a pas besoin de le faire
et en fait du coup maintenant ils sont obligés de faire ça
mais la conclusion
qui
qui me laisse
à la fois rêveur et frustré
c'est que
actuellement on sait que
le meilleur des meilleurs des modèles
il existe probablement
mais personne n'y a accès
vous n'y avez pas accès je n'y ai pas accès
ça m'alpène peut-être
exactement non mais il existe
une version de GPT4
qui est la version de base
donc le modèle de fondation
puisque c'est comme c'est toujours comme ça que ça marche
tu crées un modèle de fondation
et après de suite entraîne
le concept
du chat de l'assistant
il souhaite GPT
et donc
il ne l'ont jamais sorti
il n'y a aucune version actuellement de GPT3.5 Turbo
ah quoi que je crois que c'est l'onté de sortie ça là
il n'y a aucune version de GPT4
du modèle de base qui a été sorti
et l'explication
de tout le monde c'est que
c'est juste, ça serait trop dangereux
depuis c'est pas leur moussel
c'est ça, ils n'ont pas
à implémenter leur couche
de sécurité etc
probablement que c'est trop dangereux
tellement c'est le meilleur modèle
de la planète
invaincu depuis un an et demi
ce qui est quand même fou quand on y réfléchit
qui est bien en de choses sur le serveur
d'openhaya et qu'on peut pas utiliser
c'est pour ça qu'ils sont si bons en fait, ils ont un joker en interne
il y a un incroyable qui garde juste pour eux
non mais c'est vrai je peux
c'est pour ça que je dis que à la fois
on fait un an et demi, mais je crois
je pense qu'on est pas loin
oui c'est si
non ils ont fait un an il y a un ou deux mois
ah oui ok c'était 3,5 ans et un an et demi
ah mais quand même
allez vite carrément
donc, c'est pour ça que je disais
c'est un peu déprimant
parce qu'on n'y aura jamais accès probablement
et un des trucs que j'espère c'est
si jamais openhaya y crash par exemple
ou ils bancroutent
ou ça malte man, il se fait encore virer
j'espère qu'il y a quelqu'un qui va
juste en soum soum prendre le modèle
sur une discursure
et le mettre en torrène
s'il vous plaît
c'est possible techniquement ?
bah c'est-à-dire
il doit être très gros non ?
bah probablement, oui
les rumeurs disent que
il ferait, ce sera un modèle MOE
donc comme l'extralle
et si je dis pas de connerie
ce serait genre 8 fois
100 milliards de paramètres
je crois que c'est comme ça
il me semble que c'était de cette heure là
la récente estimation
d'après un leak
ce serait un truc qui ferait
8 fois 100, à peu près 100 milliards de paramètres
donc c'est le plus gros qui existe
probablement dans le monde
mais
ça tient
sur la discursure
si on parle pas avec un discursure
je pense pas
ok
si on revient sur 3.5 turbo
il est sorti en open source ?
non
c'est fake news, un faux chat
on est d'accord qu'il n'y a aucun modèle d'open source
aucun modèle de chat non ?
ben whisper
ah oui, bien sûr
mais ça évolue, peut-être pas chez Open Air
mais typiquement le premier Yama
on y a eu accès parce qu'il a leak, on sait pas trop
non non, il a mis un open source
un accès limité
je crois que t'avais accès
mais il fallait être chercheur
c'était très limité
j'ai pété 1 et 2 oui
c'était pour une catégorie de gens
et je pense que eux-mêmes
savaient
qu'on parlait quel modèle
le premier Yama
avait un accès très limité
et le deuxième a été très assumé open source
ça a été comme tu le dis
il le savait et tout
ma chance était prévue
où ça a été vraiment une grosse boulette
et ils ont changé de
allez on passe tout le temps au J-Croix moyen
j'y crois moyen, ils sont trop intelligents
pour croire que donner accès à un modèle à 2000 personnes
ne voulait pas dire le donner accès à la planète entière
genre c'est
ah parce que la suite c'est direct
en fait c'est suite
c'est juste qu'il fallait remplir un formulaire
pour
pardon j'avais pas bien compris
sans plus attendre, vous voulez faire une petite pause ?
je suis chaud de aller aux toilettes
3 minutes
3 minutes
je vais speedrun
petite pause
et juste après on vous parle
de Mathieu est ce que tu veux te disait le
sujet
il a oublié son sujet
on va parler d'une question
qui vous tarotte depuis
des années finalement
il y a beaucoup de théories, beaucoup de trucs fumeux
mais aujourd'hui on vient avec du neuf
vraiment intéressant
à savoir est ce que oui ou non
nos téléphones nous écoutent
salut, si vous appréciez Ender's Core
vous pouvez nous aider de ouf en mettant 5 étoiles
sur Apple Podcast, en mettant une idée d'invité
que vous aimeriez qu'on reçoive, ça permet de faire remonter
Ender's Core, voilà, telle une fusée
en cette troisième partie nous allons quitter
le domaine de l'IA pour
parler un petit peu d'un sujet
je crois que la première fois que je l'ai vu passer
moi c'était sur la chaîne
de Le Gros Gidé
mais évidemment c'est un sujet qui en fait remonte
à la nuit des temps
à savoir
l'espionnage et les écoutent
c'est potentiellement
une des questions les plus controversées qui revient le plus
c'est est ce que nos téléphones
nous écoutent
là j'ai mon téléphone, vous avez votre téléphone
est ce qu'il y a une probabilité que là
à cet instant
notre système d'exploitation
ou des applications qui tourneraient sur notre iPhone
ou notre Android soit en train
de nous écouter
et le micro activé
enregistre des données et les envoie
sur le serveur de quelqu'un
alors que ce soit le constructeur, que ce soit
des méchants publicitaires
ou que ce soit la NSA elle-même
la question se pose
depuis longtemps et il y a beaucoup de gens
qui ont fait des tests, il y a beaucoup
d'expériences plus ou moins bancalles
qui sont menées, il y a beaucoup de trucs totalement fous
qui sont dit sur ce sujet
et moi je pensais avoir tout savoir
dessus, je vais pas vous mentir
avant qu'on aborde la question
j'avais l'impression d'avoir une compréhension totale
du truc à savoir mais non pas du tout
c'est un truc de fake news
mais c'est juste que le tracking
qui marche super bien
et bien en fait
il se trouve qu'on a découvert des trucs
enfin Mathieu je vais nous faire découvrir des trucs
qui vont peut-être remettre en cause
le
remettre en cause
mais exactement
les certitudes que j'avais
sur l'implosibilité
du fait d'être écouté non stop
par des devices qu'on possèderait
et j'avais les mêmes certitudes que toi
vraiment j'étais sur la même longueur d'onde
plutôt convaincu par les arguments
sur lesquels on va revenir sur la priori
non, nos smartphones
nous écoutent pas parce qu'ils en ont pas besoin
mais pareil j'ai découvert
des choses qui
en fait qui ont mis du grain de sable
dans mes croyances et qui sont venus un peu perturbés
et je voulais vous les partager
aussi à voir votre avis
parce que vous allez voir
il y a des choses pas si simples
un peu croustillantes
on va pas vous démontrer que nos téléphones
nous écoutent non plus
mais c'est quand même étrange ce qui s'est passé
en plus sur un timing
il y a eu 2 news coup sur coup
d'un jour à l'autre sur des boîtes
qui potentiellement seraient capables de nous écouter
je vais vous reparler tout ça
mais avant ça je vais commencer
par vous raconter l'histoire
de Robert Rive
qui en a fait un thread twitter
et en fait tout simplement
il a passé une semaine
chez sa mère
et voilà qu'à son retour il reçoit des pubs
pour un dentifrice
mais pas n'importe quel dentifrice
le dentifrice qui l'utilisait
quand il était chez sa mère
pendant une semaine
et il est absolument sûr d'une chose
on va le croire sur parole
il a parlé de cette marque avec sa mère
mais il ne l'a jamais cherché sur google
ou sur son téléphone
il en est sûr
surtout qu'une marque de dentifrice
quand même je te rappelle
donc la question qui vient derrière
est-ce que mon téléphone m'écoute
pour m'avoir proposé une pub
sur ce dentifrice que je n'ai juste
utilisé chez ma mère
et pour en parler
on va évoquer
toutes quels sont en gros
toutes les possibilités
qu'ont les marques
les gaffames et les constructeurs de téléphone
d'apprendre des choses sur nous
et potentiellement est-ce que ça veut dire
que ce monsieur Robert Rive
il s'est fait écouter via son téléphone
ou plutôt ça serait d'autres méthodes
et je sais, oui dis-moi
pour bien comprendre là ce qu'il expliquait
c'est que...
non mais en fait il a fait
il est arrivé en week-end chez sa mère
il se souvient avoir parlé
de son dentifrice
de sa marque de dentifrice et de l'avoir utilisé
il ne l'avait jamais lui-même
cherché avant sur internet
il ne l'a pas acheté
via son smartphone etc
et pourtant il s'est pris des pubs
juste après c'est ça ?
c'est ça, j'avais peut-être oublié une phrase
il se souvient qu'il en a parlé avec sa mère
mais il n'a jamais fait aucune recherche
juste qu'il a parlé de dentifrice avec sa mère
quand il était en semaine de vacances
ou de pas de vacances d'ailleurs je sais pas
chez sa mère et une fois qu'il est revenu chez lui
il a eu dans son feed
twitter d'ailleurs on voit la pub
à un moment
j'espère qu'il a mis quelque part
en tout cas, voilà et c'est celle-là
il y a quelqu'un qui l'a retrouvé il a dit
j'ai celle-là aussi sur mon compte twitter
c'est celle-là ! j'en peux plus de ce dentifrice
et du coup il s'est posé la question
en plus il est un peu dans le game
de la vie privée etc c'est quelqu'un qui travaille
dans la tech, il s'est dit est-ce que mon téléphone
m'écoute ? et avant d'arriver
au conclusion qui dit dans le srl ?
oui parce qu'en fait
du coup effectivement
on a
l'explication un peu simple
qui peut faire un peu qu'on spissait
évidemment tu t'es fait écouter
et bah
un truc qui est intéressant de regarder
rémite un peu fait des recherches là-dessus
mais c'est
avant d'explorer cette hypothèse là
on va le faire mais
la question c'est est-ce que ça aurait été possible
d'avoir ce niveau là
de compréhension et de connaissance
flippant
de tes sujets
pour faire cette suggestion
de pub en gros est-ce que l'hypothèse
ce gars a été écouté
à son insu
a une hypothèse concurrente
qui serait plausible ? auquel cas
normalement
on devrait plutôt se fier à celle-là
la réponse
est rémite qu'il a
justement j'ai voulu faire
quelques petites recherches et avant de lancer mes recherches
j'ai lancé un petit outil
pour faire une expérience moi-même de mon côté
j'ai lancé un outil qui s'appelle Linebeam
Lightbeam
qui est une extension pour navigateur
qui en fait va faire le travail de tous les sites que tu visites
c'est-à-dire répertorier tous les sites où tu as les
et trouver les correlations entre les sites que tu as visité
comment tu peux aller lier
essayer de faire un graph de ce que tu as visité
et comment on peut te retrouver
j'ai lancé ça en fond, cet outil sur Firefox
pour le coup
et j'ai commencé à faire mes recherches sur
comment fonctionnait le tracking sur internet, qu'est-ce qu'on pouvait vraiment retrouver
et je vous montrerai
ah donc t'as utilisé le navigateur, tu l'as utilisé en fond et t'as utilisé
ok, comment c'est mon expérience, je l'ai lancé
et j'ai commencé à faire mes recherches pendant 2 heures à peu près
petit tuto
sur quelle est la façon idéale de pister quelqu'un sur internet
parce que le but en fait
c'est de retrouver la personne
et corréler tout là
c'est de corréler les données, c'est savoir par quel site
t'es passé, parce qu'un site te voit
mais comment tu fais le pont entre les deux
pour ça il y a un petit site qui est très sympa
qui s'appelle amaiunique.org
qui permet de checker en fait
qu'est-ce qui est unique sur ton navigateur
qu'est-ce qui fait que tu es différentiable de toutes les autres personnes
sur internet et qu'est-ce qui fait que dans une foule
des logos avec la capuche rouge là
qui fait qu'on peut pas passer à côté de toi, on peut te retrouver
sur mon navigateur
j'ai trouvé un tas de finger print
donc de traces laissées par mon ordinateur
alors il y a les infos de base de
mon OS CMAG
j'utilise Chrome, j'ai telle langue d'installer
donc déjà ça restera pas mal le scope
donc là le pourcentage ça veut dire
ça veut dire que là
sur tu vois alors je crois qu'on est à 2 millions
de personnes, je suis unique
c'est-à-dire que les caractéristiques de mon ordi
même si c'est un ordi acheté en grande surface
il y a suffisamment de choses assez uniques
sur mon ordinateur pour qu'un site
s'il me voit et qu'un autre site me voit
ils peuvent comparer l'ordinateur
qui s'est connecté au site et dire c'est exactement la même personne
donc là ça veut dire que
il y a 9% des gens qui comme moi
ont un Mac
42% qui comme moi ont cette version
de Chrome mais combiné
tu crois toutes ces infos là
ça devient très très unique
et là je pense qu'ils me mettent les 4 principaux
mais en fait si on a plein d'autres...
justement il y a des catégories bien plus intéressantes que simplement ton navigateur
ton OS, typiquement le langage que tu as sur ton ordinateur
les polices d'écriture
installées
la résolution de l'écran
si tu as acheté un écran un peu bizarre gaming ou quoi
tu es dans les 1%
tu achetais exactement le même écran que toi
mais d'ailleurs c'est marrant parce que Tor
c'est le navigateur Tor
il te conseille de réduire
de changer la taille de ta fenêtre
oui mais jamais être en plein écran sinon tu liques la résolution de ton écran
et tu as des infos sur toi
plus vicieux les appareils connectés à ton ordinateur
si tu as un casque d'une certaine marque
et un microphone à côté
tu le viens encore plus unique
même le fuseau horaire, enfin plus on avance
de les options plus on multiplie
tout ce qui peut être collecté sur toi
et croisé pour te rendre unique sur internet
t'as les codecs qui sont disponibles
et t'as vraiment tout
et j'ajoute qu'il y a exactement la même chose
sur nos téléphones et on peut faire une empreinte
de nos téléphones et il y a des développeurs
d'applications qui quand Apple a déployé sa mise à jour
qui demande à chaque fois qu'on lance
une nouvelle application est-ce que vous autorisez à nous traquer
qui t'est bien embêté parce qu'il ne pouvait plus
tracer les utilisateurs via des techniques
plus classiques de cookie ou etc
et ben ils se sont mis à utiliser
les empreintes de nos téléphones
parfois ils se sont faits chopper par Apple
parce que je crois que c'est interdit par les conditions d'utilisation
mais du coup ils se sont dit comment on fait pour traquer nos utilisateurs
c'est pas on va arrêter de l'écraser
parce que c'est leur business model, sinon ils s'écroulaient
et ils se sont dit ok on va utiliser l'empreinte des téléphones
et c'est la même chose
sauf que c'est pas un navigateur
ils sont capables de faire ça aussi sur nos téléphones
pas pour refaire flipper
donc ça c'est la première partie ok
chaque site est capable de retrouver une personne
mais maintenant comment est-ce qu'on connecte toutes les données
et comment est-ce que les sites vont communiquer entre eux
et centraliser ? il n'y a pas un contrat
où tous les éditeurs signe un contrat
avec tous les autres sites pour se mettre d'accord
et se refier les infos et les revendre individuellement
avec les dames
il n'y a pas un pacte secret
comment ?
on n'est pas dans ce niveau de complot
non il y a des solutions très simples
on prend les deux géants de la pub
et des réseaux sociaux etc
Google et Facebook
ils sont indirectement présents sur tous les sites
Facebook simplement en ayant par exemple
un bouton like sur une page
a une trace de Facebook sur le site
et donc va pouvoir récolter des informations
sur ton navigateur
ils fournissent également beaucoup d'outils
si vous avez des sites internet que vous voulez suivre
des analytics pour savoir
le pixel ?
le pixel facebook
et les analytics google
et je sais pas si vous vous rendez compte de la présence
de ces deux là
mais sur le top 75 000
les sites les plus populaires
sur internet
86% ont des éléments provenant de google
et 34% provenant de facebook
c'est gigantesque
le gars qui a inventé google analytics
il réalisait pas
une pile à les rapporter
et le pixel facebook aussi
il fait un comparme
mais c'est dingue
ils sont présents partout
et du coup je vais vous donner une façon sympa
de le visualiser en ayant fait mes recherches
voilà ce que moi j'ai obtenu avec mon extension
petit disclaimer
c'est une extension qui est plus très à jour
donc j'ai pas eu accès à tout le détail des sites
mais ce qu'on voit je connais que les sites que j'ai visité
donc dans mon exercice
j'ai pris que dog dog go
j'ai essayé de prendre des sites, respectuer la vie privée
j'ai visité quelques pages d'articles de presse
et des choses comme ça
et pourtant dans le graphique des sites que l'on était détectés
par mon extension
on retrouve facebook avec plusieurs domaines
il y a plusieurs petits f qui traînent
on retrouve google
alors que je n'ai absolument pas navigué
sur google
et on retrouve alors je me souviens plus
ah oui il y a AdSense, il y a des petits logos
en bas qui viennent justement des services de google
on dirait la logo monero
et la taille des bulles reflète le nombre de connexions
donc on voit qu'en fait les sites que j'ai visité
c'est minoritaire et tout ce que google c'est pas juste
il y a un ou deux appels qui sont passés en google
en sous-sous-d'enfant
c'est vraiment la majorité de mes connexions en fait
on était interconnectés avec ces services-là
donc en fait, dans l'historique
il faut vraiment placer des yeux
pour le voir
c'est trop marrant
c'est effacé au milieu de tout le trafic
qui est lié au tracking et tout ce qui remonte chez facebook
il faut dire que les articles de presse
les sites de presse c'est un peu les pires
parce que...
t'as l'impression aussi que t'es pas vulnérable
tu dis que tant que je suis pas sur google
on sait que vous voulez connecter beaucoup de choses sur facebook
mais ce que tu ne te rends pas compte c'est que
sans être sur ces sites là en fait
t'es quand même connecté à 100 ans de compte
donc c'est pas seulement ton comportement
c'est normal, même si tu refuses parfois les cookies
t'as quand même plein de choses qui partent avant ta coche
et donc ça, c'était le tuto
c'était le tuto sur quelle est la meilleure façon
de
de récolter des données
et derrière il y a pas mal de
dix à deux modèles, c'est beaucoup plus compliqué
de trouver des informations mais c'est sûr
comment google va essayer de
corréler tout ce qui l'a remonté
une des problématiques principales c'est comment
mettre des utilisateurs par catégories
et les liens entre eux
peut-être que toi tu n'as pas
directement cherché cette marque de nanti frise ou quoi
mais peut-être que t'as d'autres personnes qui ont fait
dans ta famille qui sont allées en racheter
et en fait le principe des publicités c'est pas mal
de regrouper les personnes par centre d'intérêt
et de se dire tiens si cette personne là
ça a l'air d'être quelqu'un qui prend soin de sa santé
ou quoi et il est susceptible d'acheter
les mêmes choses que ces autres personnes qui se comportent
de la même façon sur internet et donc tu vas lui proposer
les mêmes produits et j'avais paralysé aussi
la façon dont tu peux
lier des personnes entre elles on se dit ok peut-être
qu'elles seront à la même adresse, elles ont la même
localisation, il y a probablement un lien
mais juste je sais pas sur amazon
si tu mets la même adresse de livraison de quelqu'un
du coup tu vas pouvoir
lier deux profils alors que c'est une info
innocente que tu as mis en droit
j'avoue c'est clair, tu fais que
deux sites et fait livrer
quoi que ce soit
au même endroit et ils ont
un lien entre
les deux personnes directement
ou tu vas, tu rentres chez tes parents
donc tu auras la même adresse IP
tu peux forcément lier des choses
ça c'est un truc que j'ai découvert effectivement
j'incomptais que j'avais fait une
interview d'un gars qui
avait travaillé dans un passé
révolu dans le marché
très chaîdie du retargeting
donc qui est concrètement toute
l'industrie autour du fait
de suivre les gens, de les traquer
dans leur déplacement et de leur proposer
un produit
à un endroit qu'ils ont cherché
un autre etc le truc qui nous fait tout chier
cette industrie ça s'appelle le retargeting
et
d'ailleurs ils ont beaucoup de soucis à cause de google
parce qu'ils sont en train
de manger tout
parce qu'en fait google
ils sont en train de tuer le retargeting
en tuant les coups quittières
mais eux ils s'en foutent parce que eux personnellement
n'en ont pas besoin
ils ont fait des mises à jour à tuer
très intéressant
mais ce sera pour une autre fois
ce gars que j'avais interviewé
à l'époque, j'ai choqué la vidéo
ça s'appelle
j'ai invité
un gros hacker je crois
je l'avais appelé comme ça
à l'époque ce terme n'était
très peu connu et moi
tu l'appellerais plus comme ça aujourd'hui
mais concrètement c'était un ancien gars
qui a un peu un repenti
on va dire de l'industrie du
tracking
et il m'expliquait que si t'as 2 appareils
qui sont sur le même réseau local
donc un truc hyper
rénocent et sur le même wifi que
ta famille t'épanse etc
c'était très probablement pris en compte
dans le nuage de points
dans le petit fichier
qui fait ton profil
c'est hyper fort parce que
c'est très compliqué à prouver
c'est à dire que comme c'est beaucoup de modèles
de deep learning etc
en gros on te
on te récolte une quantité de données
et après on fait du matching
pour t'associer à des cours
c'est très dur d'être 100% sûr
de prouver que
quelque chose est vraiment advenu
mais ce qui me disait c'est que
le réseau sur lequel tu te trouves
peut permettre de se faire des corrélations
entre toi ce que t'as fait comme recherche
toi tes habitudes et celle potentiellement
de ta famille etc
ce qui me fait me dire
que cette personne sur son twitter
une potentielle explication
moi j'ai pas vu la suite donc tu vas nous en parler
mais une potentielle explication
ça pourrait être qu'en fait on ne l'a pas écouté
c'est à dire qu'il a peut-être
verbalement prononcé le nom du dentifrice
mais
par exemple sa maman
qui était là dans la maison
qui elle l'a acheté il y a 10 jours
il y a un mois
et il y a une détection
de proximité
qui appartiennent
aux mêmes groupes familiales
et bam il s'est fait
ritargéter
par récauchère
via ses similitudes
et c'est
brunifec parce que tu te dis attendez
il n'y a pas d'autre explication qu'un microphone
mais en vrai
quand tu connais
les capacités
de ciblage
quand c'est géant
eh bah c'est peut-être pas la seule solution
complètement il y a d'autres
il y a d'autres façons de faire que d'écouter
les gens et qui sont en fait bien plus
paradoxalement bien plus probables
techniquement qu'ils aient fait
et donc c'est ces choses de ritargéting
et en fait ce Robert Rives il arrive
aux mêmes conclusions que vous
c'est à dire que
en fait lui et sa mère
chacun de leur côté sont extrêmement
suivis que ce soit par les médias
sociaux, le pcl facebook
analytics sont à parler, les applications
tous les identifiants uniques
vous parlez euh
moi ça m'a fait quand vous parlez des identifiants uniques
ça m'a fait penser quand on donne
son mail ou son téléphone
à une supérette pour une carte fidélité
ça paraît anodin tu fais une carte fidélité
ça va t'apporter des choses et tout
mais en fait ce numéro et ce mail c'est des identifiants uniques
qui si quelqu'un achète des données
si une supérette ou carrefour
achète un l'autre donné publicitaire
peut-être que vous êtes dedans ils font le lien avec votre compte
et en fait ils ont plein d'infos
sur vos recherches internet
donc en fait tout ça va très vite
et tu l'as dit
le fait que les groupes
d'ailleurs il y a une enquête qui est absolument
passionnante
ça s'appelle The Privacy Project
je crois que c'est une enquête du New York Times
qui en fait
prouve par A plus B
qu'on peut suivre des gens grâce
aux données internet
je vais pas m'étendre sur le sujet
ça pourra en faire l'objet
d'une chronique mais on est en capacité
juste avec des données internet
sans écouter
les gens de traquer des gens
de savoir où ils vont et de
savoir qui ils sont
et en fait comme tu l'as dit
avec des téléphones à proximité l'un de l'autre
que ça soit par des réseaux wifi
potentiellement du bluetooth tout ça
ce sont des suppositions mais
on voit bien ce qu'ils arrivent à faire
que ce soit des coordonnées GPS
on arrive à reconstituer le réseau de personnes
en contact
avec une autre
personne et donc du coup
il suffit de croiser ces informations
j'en viens à la conclusion
de cette affaire de Robert Reeve et de Nantifrice
il conclut en disant ça
donc il connaissent le dentifrice de ma mère
il savent que j'étais chez ma mère parce que nos téléphones
étaient au même endroit il connaissent mon twitter
parce que tout ça il s'en est relié à son compte
évidemment maintenant je reçois des publicités
sur twitter pour le dentifrice de ma mère
tout ça
c'est bien plus probable techniquement
que je me suis fait écouter
mon téléphone
à écouter les conversations que j'avais avec ma mère
et c'est quelqu'un qui s'y connait
ce qui est intéressant c'est un expert
du sujet qui parlait là même s'il ne bosse pas
chez un gaffe un peu comme un hacker qui se fait haquer
il va très bien savoir comment
comment ça fonctionne
parce que si on s'arrête en fait 2 secondes
sur la faisabilité technique
d'écouter à très très grande échelle
des micros
depuis récemment on commence à avoir des modèles
de speech to text qui commencent à être
très performants
qui pourraient même tourner en fait en local
sur l'os
et bon ça commence à devenir un peu plus probable
mais en tout cas sur les 10 dernières années
processé
de l'audio
de tous les appareils du monde
en simultané sur des serveurs
les traduire en texte
en sortir des informations sémantiques
dans la masse de tout ce que vous faites
dans votre journée
sur des habitudes, sur des caractéristiques
commerciales intéressantes
c'est totalement impossible
en fait c'est même pas dans la sphère
du possible en terme de puissance de calcul
et en terme de rentabilité tout simplement
c'est même pas que c'est pas juste pas faisable
c'est juste que s'il y a une autre solution
qui marche plutôt pas mal
et il y en a
ce serait totalement absurde
en fait de faire de l'écoute à grande échelle
je me dis aussi que si ton téléphone envoie
que ce soit du texte qu'il a analysé
ou directement les audios
il aurait forcément quelqu'un qui aurait analysé
le trafic qui sort de son téléphone
et qui aurait dit les gars il y a un truc comme vous sucepez
et ça serait parti en turbo procès
parce que c'est pas du tout un truc qui était censé faire
d'ailleurs ça a été fait il y a plein de gens
qui ont analysé les requêtes qui sortaient
d'un téléphone ou d'un appareil pour savoir s'ils l'écoutaient
et ils n'ont jamais réussi à trouver
que
qu'un appareil les écoutait
alors qu'ils devaient pas les écouter
parce que parfois quand on fait
on donne une instruction à Syrie on a envie que
ça soit écouté et on sait que la requête part
mais c'est quand même important de le dire
mais du coup on en est donc à ce point là
où globalement
les téléphones n'ont pas la nécessité
de nous écouter parce qu'ils ont
d'autres manières
très efficaces de le faire comme tu le disais
2e techniquement
c'est très complexe de traiter autant de data
comme tu le disais
et en plus ça serait beaucoup trop cher
même si potentiellement ils savaient le faire
donc on en vient
même si ça n'a jamais été
prouvé d'une main
de faire de Dieu
non personne ne vous écoute via vos téléphones
on en vient quand même
à la conclusion
de gens qui connaissent un tout petit peu
comment fonctionnent les téléphones
a priori vos téléphones ne vous écoutent pas
quand vous ne le dérisiez
quand vous ne le désirez pas
quand vous ne le désirez pas
tout petit
à partay il y a eu
des bugs avec Tiffany mais vous inquiétez pas
pourquoi les bugs avec Tiffany
je sais pas mais il est-il sur le coup
je ne peux rien faire l'ordi de rendu
parfois pète les plombs et nous sort
les rendus de l'émission il y a 2 semaines
je n'ai pas d'explication
mais du coup ça fait 3 fois que les gens voient Tiffany passer
ça a bien la preuve que c'était une redif
bonjour
je ne sais pas ce qui se passe
je n'ai rien fait
c'est quoi ce bordel
est-ce que c'est grave ou on a les rush
on a les rush des caméras
on dirait que c'est une des caméras
c'est que la caméra surtout en plan série
on a une caméra qui est hantée
dans le studio
mais parfois elle revient normal
c'est tellement bizarre
profitez de votre poterie
j'ai plus de Tiffany
Tiffany, Pierreade, Le Laid
ah oui
Tiffany elle est pas là
tu es en train de parler
si ça se trouve tu as un plan d'écoute
j'en ai vu plein
depuis tout à l'heure je suis trigger
non parce que juste avant on devait parler
toi
tu as le même haut
c'est toi
c'est tellement bizarre
c'est tellement bien
Tiffany rend le live
c'est tellement bizarre
je suis pas revenu
je pensais que c'était l'ancien décor
je me tais
je parlais plus
donc j'emmenais à cette conclusion
a priori les téléphones
ne nous écoutent pas
et c'est ce qu'on pensait globalement
dans l'équipe on est plutôt convaincus
par cette version
jusqu'à il y a quelques semaines
où je suis tombé sur deux articles
de journalistes qui ont enquêté
des journalistes de 404 médias
et ils ont sorti deux articles
qui vraiment
ont semé la paillaye dans mes croyances
et dans ce que vraiment je pensais
au plus profond de mon être sur ce sujet
ils ont fait un article
sur une société qui s'appelle CMG
c'est une société
de marketing qui appartient à un très grand groupe
cox média groupe
donc c'est un groupe
qui rassemble en même temps des médias
en même temps des régipubes et en même temps
qui collectent des data pour pouvoir
avoir toute la chaîne de valeur
et donc vendre de la publicité
à des médias
et en fait ils sont tombés
sur une page web et un document
ils ont fait un archive
parce que depuis il a été supprimé
qui disent noir sur blanc
oui, vos téléphones
vous écoutent mais en fait ils en font
un argument marketing pour leurs clients
en mode oui oui vos téléphones nous écoutent
nous avons accès à ces data
et nous pouvons vous les vendre
et ils ont appelé ça le active listening
en nom marketing
ils ont même une section sur le document
peut-être qu'on va pouvoir voir
ils demandent est-ce que c'est légal
ils disent oui c'est tout à fait légal
vous avez signé des conditions d'utilisation
qui nous autorisent à le faire
sur vos téléphones
en fait c'est un
limite un document
un aveu et ultra vendeur
c'est quasiment
une page de vende
et dans leur
si on peut revenir sur l'article
en groupe
à quoi ça servirait
de nous écouter ils prennent des exemples
d'utilisation et ils disent bah voilà
par exemple le contrat de location de la voiture
se termine dans un mois
nous avons besoin d'un nouveau plan de location
si quelqu'un dit ça
ce groupe CMG est en capacité
de le savoir et donc du coup
d'aller prévenir
cibler une pub et d'aller prévenir quelqu'un
pareil pour
ils prennent l'exemple de une mini
pourgonnette serait parfaite pour nous
ils imaginent des conversations
on va déménager demain
je vois de la moisissure au plafond
là vraiment je vous cite ce qu'ils disent
dans leur papier
tous les moments où dans ta vie tous les jours
tu pourrais émettre des besoins
t'aurais une pub associée
sauf que c'est très mal écrit
nous avons besoin d'un meilleur taux hypothécaire
personne ne dit ça dans la vie
si j'ai traduit de l'anglais
mais quand même ce qui est
encore plus étrange c'est que
CMG a des partenaires et parmi ces partenaires
il y a Google, Amazon et Microsoft
et donc du coup les journalistes sont dis
on va aller demander
à ces trois sociétés ce qu'ils en pensent
de cet article qui depuis a été
plus en ligne c'est disponible sur web-archive
Microsoft n'a pas commenté
pourquoi pas
Google a déclaré
depuis des années Android empêche
des applications de collecter des données audio
lorsqu'elles ne sont pas utilisées activement
et chaque fois qu'une application active
le microphone d'un appareil
une icône est visible dans la barre d'état
sauf qu'en fait ils n'ont pas vraiment répondu
à la question est-ce que
vous êtes bien en partenariat
c'est bien des données ou alors on vous fournit
des données à CMG
ils ont juste répondu que non mais vous inquiétez pas
il y a une icône sur Android
et Amazon pour le coup a été plutôt clair
le produit publicitaire d'écrit ne serait pas possible
avec les appareils icônes
c'est un peu les seuls à avoir vraiment
démenti
depuis CMG a déclaré
que oui mais en fait non
on écoute pas vraiment
les conversations mais on agrège
un ensemble de données et dans ces données
il y a de la voix
mais c'est des tiers qui les récupèrent
ils ont un peu beauté en touche
alors que vraiment dans leurs documents
il y a vraiment marqué noir sublime
oui les téléphones
ils vous écoutent
après ils ont un peu
les pages ont disparu et puis ils ont fait un communiqué
pour ils disent les données publicitaires basées
sur la voix
et d'autres données se collectées
par des plateformes et appareils qui ne nous appartiennent pas
globalement je pars à phrase un peu ce qu'il dit
parce que c'est en anglais
mais tu te dis bon ok
d'accord très bien à ce moment là en fait
moi je me suis dit bon c'est peut-être
un commercial ou un marketeux
qui s'est plus antipété
il a mis en ligne un nouveau service
et c'est un petit peu bidon
honnêtement c'est pas la première fois qu'on le voit
on dirait presque un troll en fait
moi j'aurais fait cet article
pas vécu dans la marre
si je voulais semer un vin de panique
surtout qu'il y a un terrain
ça fait des années que les gens sont fondés théories
en mode peut-être qu'on les écoute
et là c'est l'article parfait je se profite
exactement et ce qui est un peu bizarre c'est la réponse
des microstopes et google
qui n'est pas sub...
c'est important tu démons directement
tout de suite un peu comme la fait amazon d'ailleurs
mais bon honnêtement
à ce moment là je n'étais pas vraiment convaincu
mais en fait je ne suis toujours pas convaincu
mais mon doute
est mis été
j'ai plutôt confiance en le journaliste de 404 médias
donc quand même j'avais un doute
et c'était pas très grand
et en fait un ou deux jours après d'ailleurs
c'est très rapidement
les mêmes journalistes publient
un nouvel article
mais sur une entreprise complètement différente
et qui n'a rien à voir avec cmg
ça s'appelle MinSift
et ce qui est
chouette c'est que c'est une société
complètement antinomique à cmg
c'est-à-dire que c'est une toute petite société
c'est une start-up qui se lance
ils ont aucun lien de base avec un média ou un grand groupe
donc ils récolte pas déjà
des billions de données sur les gens
c'est vraiment le...
la petite boîte
et eux pareil exactement le même truc
ils affirment depuis tant blanc
utiliser les données du microphone
des smartphones mais vraiment cache quoi
euh... je cite
et est-ce que vous...
alors je cite c'est une interview
d'un des mecs de
de MinSift dans un podcast
qui est vu par 50 personnes
vraiment encore aujourd'hui les vidéos youtube sont dispos
et c'est vu par 40 à 50 personnes
est-ce que vous avez déjà
parlé de quelque chose
et vu une publicité donc là il imagine que l'éversation
et est-ce que vous avez déjà parlé de quelque chose dans la rue
et vous avez vu une publicité pour ça
et ben c'est nous les gars qui faisons ça
nous distribuons la technologie
la technologie existe depuis un certain bout
un certain temps mais on a passé le flambeau
à une entre-entreprise
un mec un peu marketing
dans sa façon de parler qui parle bien
qui dit je vais révolutionner le monde
si je vous fais le profil psychologique
de la personne
ça c'est en interview sur le site web
pareil même affirmation
je cite oui
vos appareils vous écoutent avec un smiley
et à quel but pour mieux comprendre le comportement
et les intentions du consommateur
ça c'est toujours la même excuse
mais globalement il se taque
de pouvoir savoir
quand quelqu'un est
sur le marché pour un produit
ou pour quelque chose
par exemple je sais qu'à un moment
il prend une exemple, lui dit si tu dis
suffisamment proche de ton téléphone que mon toit
et bah nous
chez nous ça crée une opportunité de vente
et on va pouvoir créer une publicité facebook
ou un stade derrière
ça il l'a dit dans son podcast
et d'ailleurs du coup
les gens de 404 médias
ont contacté facebook
qui n'a pas souhaité répondre à cette question
moi ce qui m'a encore foutu
alors ça c'est voilà ils sont passés dans ce postcast
exactement
sur leur page web il y avait des témoignages
de clients et parmi les kismions
il y avait quand même BMW
Hotel.com, appartements.com
donc ça je connais pas
et des associations et des entreprises américaines
un peu moins connues
Mosaure Against Drunk Driving
donc j'imagine que quelque chose qui lutte contre l'alcoolisme au volant
petit bémol quand même
ils étaient clients en tant que
ils étaient cités en tant que clients de cette boîte
Mindshift
je sais pas comment on dit d'ailleurs
Mindshift je pense
mais on sait pas si c'est parce qu'ils utilisait ce service
ou si c'était une autre collecte
de données
on sait qu'ils sont fourbes
on sait qu'ils bossent avec des gens qui écoutent les téléphones
beaucoup d'éléments commerciaux
et ça pour le coup
avec des clients qui peuvent être intéressés par ce genre de données
Hotel.com t'es intéressé si tu veux prendre
un hôtel
là c'est plus d'équilibre
c'est plus d'équilibre

et donc oui du coup
il y a ce fameux podcast
il parle sans aucun filtre
depuis
les podcasts n'ont pas été supprimés
mais les infos le site web
ont été supprimés
et globalement
les journalistes de 404 médias
ils ont contacté tous les entreprises
citées que ce soit dans le podcast
ou sur le site web etc
toutes les grosses entreprises qu'on connaît
donc les gaffes, mais aussi hotel.com etc
et ils ont eu
aucune réponse
donc
oui ils ont eu aucune réponse
et moi
ce qui me perturbe un tout petit peu
alors ça fait deux exemples en très peu de temps
d'agences marketing
globalement c'est ça, c'est des agences marketing
qui collèquent des données et qui cherchent
à targetter
à cibler merci de la pub
et moi je me dis que sur un sujet aussi sensible
quand il y a des journalistes qui te contactent
alors que tu as toujours voulu pour ton business
ne jamais dire que tu écoutes les gens
non je sais pas pourquoi
moi je me dis que tu devrais démentir
normalement ce genre d'informations
et ils sont personne
ou alors tout le monde s'est mis d'accord en mode
non on démarre rien du tout
on préfère ne rien dire plutôt que
que démentir
ça en est fini pour la révélation
mais du coup moi ma conclusion
je vois deux possibilités
soit c'est vraiment des commerciaux
qui ne savent vraiment pas
ce qu'ils vendent
et du coup qui racontent un peu n'importe quoi
ils ont fait la plus grosse connerie du siècle
ils ont fait la plus grosse connerie du siècle
mais du coup ils l'ont fait deux fois
sur a priori deux entreprises qui n'ont rien à voir
soit
et c'est ce que certains évoquent
les capacités techniques ont évolué
depuis notamment grâce à l'IA
il y en a qui disent que
potentiellement on peut détecter
les mots intéressants et process
uniquement
ce qu'on trouve opportun
évidemment qu'on ne va pas tout analyser
sur des
milliards d'enregistrements audio
mais potentiellement la capacité technique
serait différente qu'il y a quelques années
et du coup ça serait entre guillemets devenu possible
d'inclure
dans des dataset
destinés à la publicité
d'inclure des données de voix
je pense qu'il n'y a aucun monde où c'est généralisé
à tous les devices ça évidemment que non on le saurait
mais
juste que c'est très étrange
juste avant d'où elle d'apprendre que
que deux sociétés qui n'ont aucun lien
disent
voir sur blanc vos téléphones nous écoutent
avec une insolence pareille
mais franchement sur la spécifique
je trouve ça plausible
parce que
depuis récemment
ce qu'on se disait c'est que les modèles
pour faire la transformation d'audio
en texte directement
en local sur des devices
ils sont en train de devenir vraiment tout petits
et très très précis
donc actuellement
on parlait de whisper qui est un des plus connus
whisper a décliné en plusieurs versions
donc les versions larges
qu'il a pour le coup demande un peu de puissance auto-calculer etc
et c'est décliné en version
medium petit etc
tu prends une version medium ou petite
mais spécialisée en anglais par exemple
et vraiment ça pèse rien
ça coûte quasiment rien sur le cpu
et c'est ultra efficace pour faire
de la transcription
d'heures
complètes d'audio
complètement local et parait tu peux imaginer
si c'est pas le cas
peut-être que je vais donner des idées
je vais m'en servir ma gueule mais pareil
en fait des modèles de NLP
alors que ce soit des modèles récents de LLM
mais même d'autres en réalité
qui seraient capables dans cette masse d'informations
de toute votre journée de tout ce que vous avez dit
aller détecter les passages
qui sont intéressants sémantiquement
et qui peuvent se rapporter
avec une intention d'achat
ou un problème
un problème
c'est deux exemples souvent qui sont pris
et bien paradoxalement
cette question
et cette question un peu
conspite depuis 10 ans
et serait peut-être en passe
de devenir de moins en moins conspite
car de plus en plus faisable
d'un point de vue technique avec les évolutions récentes de LLM
et tu parles des whisper
et juste pour bien
que tout le monde comprenne
le traitement peut être fait en local
et les données peut être envoyées comme du texte
pas comme de la voix donc
on n'enverrait pas votre voix
à ces services-là
mais on enverrait le contenu de votre voix en texte
donc ça reviendrait à se faire écouter
et ça
si un modèle comme tu l'as disait est capable de tourner en local
bon je pense que quand même ça se verrait
sur un téléphone qui est ciblé
un whisper entre guillemets tourne
mais on ne sait pas dans quelques mois
peut-être que ça ne se verrait plus trop ouais
il y a peut-être juste case qui ne sont pas forcément local
tu parles à un assistant vocal
ça va être envoyé sur le serveur pour être processé
et t'attends que ton LLM te répond ou quoi
mais t'as envoyé de l'audio et du texte
et t'as parlé de trucs à ton assistant
tu t'es sur une appli
ou tu te filmes
la TikTok ou quoi, la vidéo est partie
et les processés donc même si tu ne le veux pas
il y a quand même quelques cas
où t'es écouté mais c'est volontairement
mais c'est pas forcément ce qu'il y a derrière
et ça je trouve ça intéressant quand même d'en parler
parce qu'effectivement là on parle du cas où
tu dis pas au K-Google
tu ne dis pas au Beep Google
tu ne te fais pas
ou tu n'as pas conscience d'être écouté
ça effectivement c'est le côté le plus flippant
mais il y a une autre variante de ça
qui est, comme tu le disais
que t'es un
ton message vocal que tu veux envoyer
sur ton appli de messagerie
ou alors ta vidéo que tu viens d'applauder
sur TikTok ou un truc comme ça
jusqu'à présent en vrai
la plupart des chercheurs etc
étaient d'accord pour dire que c'était
assez improbable qu'il soit
analysé en temps réel
pour des histoires techniques, pour des questions techniques
que ça demanderait trop de puissance
des calculs etc, la NSA
même elle
même elle !
à priori ne pourrait pas le faire mais
ce qui est dingue c'est que c'est en train de changer
c'est à dire que aujourd'hui si tu fais le calcul
c'est de moins en moins improbable
d'avoir une connaissance à la fois textuelle
bon ça on sait qu'ils le font depuis 2013
mais bientôt
de tout ce qui est audio-visuel
à savoir média, audio-vidéo
c'est un truc dont on ne parle pas du tout dans les récentes évolutions
de l'IA et des nouveautés
mais qui est bien réel à savoir
les capacités de surveillance vont être décuplées
ça vaut pour les...
on parlait de vidéos sur TikTok etc
ça vaut aussi en termes de vidéos surveillance
ou j'ai vu des démonstrations
d'outils de vidéos surveillance qui étaient un peu archailles
qui en fait quand on s'imagine
la vidéo surveillance d'il y a encore quelques années
ou tu as un début de reconnaissance faciale
ou tu commences à savoir des trucs vraiment sympas quand même
en Chine etc
ou même sur des boîtes de sécurité américaine
il y a des résultats intéressants
mais ce n'est rien à côté
des outils actuels et futurs
qui vont intégrer
notamment des IA de multimodales
donc comme les nouveaux GPT-4
qui peuvent avoir une compréhension super fine
de ce qui est en train de se passer dans une vidéo
qu'est-ce qui rentre, qu'est-ce qui sort
au quai machin qui a telle identité
vient d'effectuer telle action
il porte telle vêtement, telle sac
il se rend de tel à tel endroit
on imagine qu'il est probablement en train de aller prendre l'avion
il y a des applications
pardon, il y a des applications
qui tu le montres un vêtement et tu peux lui dire
avec quoi tu me conseilles de porter ça
alors c'est trop bien mais ça te donne
un nombre d'informations sur toi
je rebondis pardon mais
mais là-dessus
tout ça pour dire que
si vous trouvez ça
encore
si vous trouvez ça encore un peu ridicule
de se poser des questions
sur la surveillance de masse etc
mais non mais ça c'est encore des petits rigolos
de lanceurs d'alerte
qui s'inquiètent de ça
en fait on s'en fout complètement
c'est pas le cas
les prochaines années vont être
très étranges
surtout si on te fait rire
on parlait des optis qui sont possibles
même les téléphones évoluent et de plus en plus
dans les cpu de ton téléphone
t'as les parties qui sont optimisées pour les IAT
tu consommes moins, tu peux faire tourner des modèles plus lourds
c'est sûr qu'on aura des LNM qui vont tourner
sur nos téléphones
et moi je me souviens
il y a déjà quelques années
où on pouvait aller sur le dashboard google
je pense que c'est toujours le cas
et on avait les enregistrements
quand on prononce le fameux mot
mais rien que ça c'était
un peu flippant
de savoir que sur votre compte google
sur les serveurs de google il y a toutes vos voix
quand vous vous donnez une action
et en fait le plus probable
c'est que de plus en plus
le fameux Robert Reeve
disait dans son site on a lâché
sur la vie privée on a lâché le combat
et qu'en fait
on va nous écouter avec nos semi-consentements
donc c'est à dire avec des conditions
d'utilisation qu'on va de plus en plus accepter
qu'on va de plus en plus rogner
sans jamais trop franchir
la ligne de on vous écoute
sans que vous le sachiez jamais
parce que ça je pense que c'est beaucoup trop impopulaire
sans doute qu'il y en a qui vont faire une bêtise
et qui potentiellement vont être condamnés
mais potentiellement c'est de ces entreprises
mais par contre
la frontière de
on se fait écouter avec notre semi-accord
et c'est vraiment utilisé pour des pubs
ça je pense que
c'est ce que m'a fait réaliser ces deux articles
c'est une chose c'est bien ça
c'est très très proche
hautement probable imagine le truc
tu viens de poser ton tiktok
un peu plus tard tu reçois un petit mail
ou une petite pub
on dirait que votre pull est un peu usé
là
vous voulez pas en acheter un autre ?
mais c'est sûr mais évidemment qu'on va avoir d'autres trucs comme ça
ou ça va pas être ça
ça va pas être vous voulez pas en acheter un autre
ça va être hop petite pub affichée sur Amazon
dans un pull bizarrement qui ressemble pas mal
ça va être ça et du coup
toi tu te dis pas je me suis fait avoir
tu dis je le change
ou alors
vous avez pris un peu de poids quand même
ça
depuis un an on a remarqué que sur tiktok
vous avez pris un peu des joues non ?
les fêtes hein
un petit régime quand même
ça donne des frissons
je voulais rebondir sur un truc qui est venu dans le chat
et qui est un argument classique
les gens demandent justement le fameux bipoukwoll
comment est-ce que ça fonctionne ?
puisque si tu veux le déclencher n'importe quand
faut aussi que ton téléphone fonctionne en permanence
pour expliquer celui-là
le principe en fait c'est que t'as des
des modèles
très léger qui tentent sur ton téléphone
et uniquement sur ton téléphone qui vont essayer de détecter
ce fameux mot-clé
et c'est seulement quand il pense que t'as dit ça
qu'il va commencer à effectivement enregistrer et envoyer à Google pas
avant et d'ailleurs la détection
est pas parfaite ce qui fait que ce que tu disais
c'est que tu te rends compte sur le site
parfois sur Google je peux avoir tous les enregistrements
des commandes que tu aurais envoyé
et parfois t'en as qui ne sont pas des commandes que tu as envoyé
parce que ton téléphone a pensé que t'as dit le mot-clé
et juste à une conversation qui n'a rien à faire là
qui est partie toute seule
et c'est à partir du moment où j'ai découvert cette page
c'était il y a quelques années et tout
j'ai désactivé le fameux mot-clé
à la voix
on peut décider de l'activer
juste en appuyant soit sur un bouton physique
soit sur un bref
mais ça c'est la même polémique qu'il y avait eu
sur l'appli de photo de l'iPhone
c'était quoi ça ?
sur l'analyse des contenus
non mais sur le fait que tu sais quand tu prends une photo
sur iPhone en fait ça prend une vidéo
ah des instants
mais c'est une vidéo des deux secondes d'avant
et des deux secondes d'après
du coup t'avais des gens qui t'envoient
attend mais quoi mais ça veut dire quand
il nous suit, il nous regarde tout le temps
c'est ça l'explication
et comme tu l'as dit c'est vraiment
juste le concept du buffer
finalement
c'est vraiment juste ça
je peux comprendre que ça fait pip
ouais je suis d'accord que
si effectivement
tu sais pas trop comment ça marche
tu peux te faire effrayer mais vraiment
c'est juste qu'il y a deux secondes
constante de vidéos qui sont gardées
un peu comme un replay à la télé
c'est vraiment le même concept
mais en fait ce qui est différent avec le
c'est ça l'OBS aussi
c'est qu'il pouvait mal détecter
et du coup t'avais des enregistrements
qui se retrouvaient pas dans ton buffer
mais bien sur ton compte google
alors que sur la photo a priori si tu cliques pas
sur la photo ton buffer il est pas utilisé
pas si c'est clair ce que je raconte
mais voilà
moi bien
j'espère qu'en tout cas vous y voyez un petit peu plus clair
moi franchement c'est
blog post
ça aurait été publié
si tu as un contrôle
ça m'aurait pas étonné
mais j'ai toujours un peu de mal à y croire
mais pareil
mais tu vois le podcast
où il y a 50 vues
le journal est retrouvé ça
et la discussion elle est lunaire
alors je comprends pourquoi ça a
100 ans de vue mais non
en plus c'est bien produit et tout
mais tu te dis en fait il a vu ça en ligne
et il a retrouvé
quelques jours après le podcast
c'est fascinant
bravo en vrai
en fait ils ont fait une petite série
du coup j'attends de voir un peu le fin
mot de l'histoire
je suppose que ces boîtes là ont pas spécialement communiqué
ils ont fait du marketing sur le produit
qui existe vrai mais pas du tout sur la solution
qu'à derrière
non c'est le
c'est le problème
enfin ils ont communiqué
ils ont pas essayé de glisser des mots clés
une petite pièce ou tout non c'est vraiment
non à part d'y aller des partenaires
avec qui ils travaillaient
et globalement
ils disaient on rassemble toutes les données
sur des choses qu'on propose
à nos clients et ils se trouvent que maintenant
en plus des données que vous avez l'habitude
il faut prendre en compte la voie c'est l'avenir
ok
j'ai une info de chat qui est attention à prendre
avec des gigapin 7 mais je la trouve
fascinante c'est un père de famille
était banni de google car il avait pris
en photo ses enfants dans le bain nu
et le serveur on croit que c'était des images
pédocrine
genre la backup sur drive
je sais pas si c'est sur
ma sim mais moi ça m'étonnerait pas
parce que je sais
j'ai fait des recherches
pour la vidéo sur les disques durs
où j'avais parlé un peu de forensic
et je sais qu'il existe
pas mal de projets
de détection
d'accord bon bah c'est de New York Times
a priori
j'ai chance de croire que c'est vrai
on avait parlé justement
de ces systèmes
qui sont utilisés
pour faire des scans de libraire
les photos et pour vérifier
il compare ça
avec des bases de données connues
des services de police etc
que t'as pas des images illégales
et c'est concret même c'est apple qui avait essayé de faire ça
il prenait des empreintes des images
il expliquait que ça comparait localement
mais ça avait fait un énorme bruit
mais je sais que c'est Microsoft
à publier pour le coup qu'on peut utiliser
si vous êtes développeur et que vous avez besoin de ce genre de trucs
Microsoft c'est un très bon Oudy qu'ils ont publié
parce qu'on appelle tu peux pas l'utiliser je crois
leur outil et ils avaient documenté
c'était super intéressant ils expliquaient
comment ils faisaient justement
j'ai oublié le nom mais je me demande si on n'a pas déjà parlé ça
c'est de cette outil de
par la vidéo en question
c'était sur ondorsco ou c'était sur
c'est photo d'INI
et on en a parlé quand on a fait la vidéo
sur les disques durs
mais ok
parce que j'ai l'impression de moi d'en avoir parlé
mais ah parce qu'on avait dû en parler
bref ok
oui mais je pense que c'est peut-être
dans... il y a une interview de l'aldo toit
à la fin c'est peut-être ça
bon bref
sans plus attendre
nous arrivons à la fin de cette émission
j'espère que vous êtes bien installés
j'espère qu'on a bien fait de la fer et que vous êtes content
que malgré le silence
de mort qu'il y a sur twitch cette semaine
vous avez eu une petite émission
et nous on se retrouve
dans deux semaines
mercredi à 19h
et nous on va aller mouffer des pizzas
ah oui c'est vrai
en fait je pense que je suis malade
un peu
ça s'est senti sur le renouvelant juste à la fin
je pense que je suis malade
mais ça me semble parce que j'étais déjà malade
je crois il y a genre deux semaines
juste avant les vacances et après c'est bien
je vais tenter de perdre ma maladie
de me confiner
socialement
c'est toujours comme ça
et pour rattraper un truc
bon je vais me remettre
d'ici la prochaine fois
en tout cas très bonne soirée n'hésitez pas à follow cette chaine twitch
et à dans de ce coup
allez les bisous
salut

un petit peu

un petit peu
un petit peu
un petit peu

Episode suivant:

Windows 11 est un spyware…

Les infos glanées

un an après

Micode

Acast

404 Média

Ackanir

Matthieu Lambda

Michaël

un an après

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨

Partenariats: underscore@micorp.fr

---

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere