Korben - Upgrade your mind

Lien affilié – 🍒🍕🥝🍔🥑🥗 ~ 10 € offerts sur vos prochaines courses de bouffe avec JOW avec le code 2LE2QR ~ 🍒🍕🥝🍔🥑🥗

Mikerosoft – Oups la boulette chez Microsoft

@Korben — 19 avril 2024

Imaginez le bazar si quelqu’un ajoutait par erreur tous les Jean-Michel de votre entreprise dans une conversation de groupe ! C’est un peu ce qui est arrivé chez Microsoft cette semaine. De nombreux employés prénommés Mike ou Michael ont eu la surprise de se retrouver sans le vouloir dans une boucle d’échanges par mail.

Michael Schechter, le VP de Bing, raconte s’être réveillé avec une quantité inhabituelle d’emails non lus. Sur le coup, il a cru à un gros plantage en prod pendant la nuit, mais non, en fait c’est juste une personne qui s’est amusée à créer un groupe avec beaucoup de gens qui s’appellent Mike ou Michael chez Microsoft. Et pas de bol pour eux, ils sont nombreux !

Face à cette situation ubuesque, Michael a eu le réflexe de demander à Copilot (l’assistant d’IA de krosoft) de résumer le fil de discussion et croyez-moi, ça vaut son pesant de cacahuètes ! D’après Copilot, les participants ont commencé par demander des explications sur le but de ce groupe, tout en notant avec amusement qu’ils avaient le même prénom. Évidemment, ça n’a pas manqué de partir en vrille et chacun y est allé de sa petite blague, de jeux de mots rigolos comme renommer le groupe en « Mikerosoft« . Certains se sont même demandé avec humour si ce n’était pas un piège pour les virer !

Le plus drôle dans l’histoire, c’est que malgré les nombreux messages, personne n’a compris qui avait créé ce groupe ni pourquoi. Un beau mystère ! En attendant, les participants en ont profité pour faire connaissance. Si ça se trouve, il y en a même qui en ont profité pour corriger des bugs… roooh.

Ça rappelle quand même qu’il faut toujours faire attention avec les emails de groupe ou les mises en copie. Une erreur est vite arrivée et on a vite fait d’envoyer des conneries et de les regretter après ! Une histoire similaire a d’ailleurs eu lieu dans les années 90 selon Eric Lippert. Un type voulait contacter « Mike de Microsoft » qu’il avait rencontré à une conf sauf qu’il a réussi à chopper les adresses des 600 Mike de la boîte. La presse avait titré à l’époque « Heureusement qu’ils ne cherchaient pas Bill » !

L’histoire ne dit pas s’il vont s’organiser un barbecue ou séminaire entre Mike, mais je troue que « Mikerosoft », ça sonne quand même mieux que Microsoft, non ?

Source

Société

Mateusz Jurczyk – L’expert en sécurité qui a exploré la base de registre Windows pour y trouver des failles

@Korben — 19 avril 2024

Mateusz Jurczyk, un nom qui ne vous dit peut-être rien, mais retenez-le bien, car le bonhomme est fort. Ce chercheur en sécurité bien intentionné bosse pour Google Project Zero, une équipe de choc qui traque les failles dans tous les recoins depuis des années déjà. Et pendant quasi 2 ans, de mai 2022 à décembre 2023, il s’est lancé le défi d’ausculter un des organes les plus vitaux de Windows : sa base de registre.

Pour ceux qui débarquent, le registre, c’est un peu le cerveau de Windows. Une méga base de données qui stocke tous les réglages, options et préférences du système et des applis, organisés de manière hiérarchique avec des clés, des sous-clés et des valeurs. Bref, un truc super sensible et stratégique. Si un pirate arrive à mettre ses mains là dedans, bonjour les dégâts !

Mais notre Mateusz, c’est pas le genre à se dégonfler. Armé de ses outils et de ses connaissances en reverse engineering, il a plongé dans les millions de lignes de code de ce monolithe vieux de 30 ans et croyez-moi, il a frappé fort : pas moins de 50 failles critiques déterrées, dont 39 qui permettent une élévation de privilèges ! En gros, la totale pour passer de simple clampin à admin suprême sur une machine.

La force de son taf, c’est d’avoir exploré des endroits de la base de registres que personne n’avait vu avant. Des trucs bien planqués comme la récupération des transactions avortées, le chargement de ruches extraites ou les bails de virtualisation du registre (une fonctionnalité qui permet aux vieilles applis de tourner sans broncher sur les Windows récents). Bref, un vrai boulot de fourmi avec une grosse dose de persévérance.

Et le plus flippant, c’est que la moitié de ces failles seraient plutôt faciles à exploiter notamment via des techniques de corruption de mémoire ou de cassage des garanties de sécurité comme les ACL (les listes qui contrôlent qui a le droit de faire quoi dans le registre). Pour vous donner une idée, Mateusz a même créé des exploits de démo pour deux vulnérabilités, montrant comment détourner le registre à son avantage.

Heureusement, c’est un White Hat avec un grand cœur et toutes ses trouvailles ont été balancées en temps et en heure à Microsoft via le programme de divulgation responsable de Project Zero. Les ingés de Redmond ont évidemment remédié au boxon en patchant, avec des délais moyens de correction de 80 jours. Vous pouvez donc souffler !

Mais l’histoire est loin d’être finie. Il a tellement kiffé son voyage dans les méandres du registre, qu’il prévoit d’en faire une série de posts de blog pour partager son savoir. Au menu, des analyses bien poussées des bugs, des techniques d’exploit et plein de tips pour mieux protéger nos bécanes, comme :

Toujours avoir une sauvegarde du registre avant d’installer un nouveau soft : regedit.exe /e sauvegarde.reg
Scanner régulièrement le registre avec des outils comme CCleaner Registry Cleaner, Wise Registry Cleaner ou Glarysoft Registry Repair.
Se méfier des applis louches qui veulent mettre leur nez dans le registre et les virer en cas de doute.
Garder son Windows et ses drivers à jour pour bénéficier des derniers patchs de sécurité.
Utiliser les outils de monitoring comme l’Observateur d’événements ou les Performances Windows pour garder un œil sur l’activité du registre.

J’ai hâte de dévorer tout ça !

Source + Source

Sécurité

PyTorch dévoile Torchtune pour fine-tuner les LLM

@Korben — 19 avril 2024

PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.

Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.

Son secret ?

Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.

Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.

Alors comment on met les mains dans le cambouis avec Torchtune ?

Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit

pip install torchtune

Et voilà, vous êtes prêt à en découdre avec les LLM !

Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.

En gros, ça se passe en 4 étapes :

Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.

Facile, non ? 😄

Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.

Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.

Source

Intelligence artificielle

Explorez les secrets des dépôts Git avec Grep.app

@Korben — 19 avril 2024

Vous êtes-vous déjà demandé ce qui se cache dans les profondeurs obscures des dépôts Git publics ? Eh bien, figurez-vous qu’il y a un outil en ligne qui permet de dénicher des trucs de dingue ! Ça s’appelle Grep.app et c’est un moteur de recherche qui va vous faire halluciner.

Concrètement, vous balancez votre recherche dans la barre et hop, ça vous sort tous les résultats où votre mot-clé apparaît dans les repos Git publics. Genre, vous tapez une adresse email et vous tombez sur tous les endroits où elle est mentionnée. Mais attention, hein… Y a pas que des trucs anodins qui traînent dans ces dépôts. Si vous cherchez un peu, vous pouvez même tomber sur des clés d’API AWS ou Google !

Bon, après faut pas déconner non plus. Si vous tombez sur des clés dans un dépôt public, considérez-les comme grillées direct. Même si le dépôt est supprimé par la suite, y a plein de petits malins qui font ce genre de recherches régulièrement. Donc méfiance !

Cela dit, Github a quand même mis en place un système d’alerte pour les clés, mots de passe, etc qui se retrouvent dans le code. Du coup, y a des chances que la plupart soient invalidées assez vite, soit par le développeur qui change sa clé, soit direct par le fournisseur. Mais on n’est jamais trop prudent…

En parlant de Github, ils ont aussi leur propre outil de recherche de code qui est plutôt balèze. Ça s’appelle Github Code Search. Ça indexe environ 45 millions de dépôts, ce qui est déjà pas mal !

En gros, ils utilisent un moteur de recherche maison qui indexe le contenu avec une technique appelée « sparse ngrams ». D’après eux, ça permet d’exécuter les recherches plus rapidement, tout en étant un index plus petit. Si vous voulez en savoir plus sur la technologie derrière, ils ont publié un article de blog super intéressant.

Maintenant, est-ce que Grep.app est à la hauteur face à Github Code Search ? Difficile à dire… Une chose est sûre, c’est que Grep.app a l’air de se concentrer uniquement sur le code en lui-même. Donc si vous cherchez des chaînes de texte dans de la prose qui se retrouve dans des recherches de code, vous risquez de passer à côté avec Grep.app. Genre pour chercher dans des fichiers texte ou Markdown.

Et ça, c’est un peu dommage. Parce que des fois, on a besoin de chercher du code avec plein de caractères spéciaux vicieux. Et là, la recherche de code actuelle de Github nous laisse tomber. Mais bon, on peut pas tout avoir non plus… En attendant, Grep.app reste quand même un outil bien pratique pour dénicher des infos cachées dans les entrailles de Git. Et puis c’est gratuit et open-source en plus !

Service web

Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles

@Korben — 18 avril 2024

Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg.

Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés, disons que c’est l’équivalent de leur QI 🧠), les Llama 3 atomisent littéralement la concurrence sur de nombreux benchmarks standards, que ce soit en termes de connaissances générales, de compréhension, de maths, de raisonnement ou de génération de code.

Mais qu’est-ce qui fait de Llama 3 un tel monstre par rapport à son petit frère Llama 2 ? Déjà, un entraînement de folie à base de 15 000 milliards de tokens (7 fois plus que Llama 2 !) pompé depuis le web (!!), avec beaucoup plus de code et de données non-anglaises pour préparer le terrain à une IA multilingue. Ajoutez à ça des techniques de parallélisation à gogo pendant la phase de pré-entraînement, et vous obtenez des lamas dopés qui apprennent à une vitesse supersonique.

Et ce n’est pas tout ! Les Llama 3 ont suivi un programme d’éducation complet, avec du fine-tuning à base de rejection sampling, de PPO et de DPO (si vous ne connaissez pas ces acronymes, ne vous inquiétez pas, moi non plus 😅). Résultat : des modèles ultra-fiables qui refusent rarement une tâche, font preuve d’un alignement exemplaire et sont capables de suivre des instructions complexes sans sourciller. Bref, ce sont des cracks en raisonnement et en génération de code !

Mais au fait, comment on met la main sur ces petites bêtes ? Facile, il suffit de se rendre sur le site de Meta AI et de les télécharger ! Enfin, quand je dis facile… Les Llama 3 sont bien « open source », mais sous une licence maison qui impose quelques restrictions, notamment pour les entreprises de plus de 700 millions d’utilisateurs mensuels (suivez mon regard vers Mountain View et Redmond 👀). Mais bon, rien ne vous empêche de vous amuser avec si vous n’êtes pas une multinationale !

Et en parlant de s’amuser, sachez que Meta a aussi concocté un chatbot maison (pas encore dispo en France) baptisé sobrement « Meta AI« , disponible sur le web (www.meta.ai) et directement intégré dans les barres de recherche de Facebook, Instagram, WhatsApp et Messenger. Sous le capot, c’est bien sûr du pur Llama 3, avec en prime un modèle de génération d’images nommé « Meta Imagine« .

Au programme, de la discussion, de la recherche web via Bing et Google, et bien sûr de la création d’images en un clin d’œil. Seul hic, pas encore de mode multi-modal façon ChatGPT pour uploader vos propres documents ou images, mais ça ne saurait tarder !

Alors, que penser de ce nouveau coup d’éclat de Meta dans la bataille des IA ?

Personnellement, je trouve ça plutôt chouette de voir un poids lourd du Net jouer le jeu de l’open source (ou approchant) et mettre à disposition de tous des modèles de cette qualité. Bien sûr, on peut toujours discuter des arrière-pensées de Zuck et sa volonté de garder un œil sur ce qu’on fabrique avec ses lamas. Mais au final, c’est toujours ça de pris sur les GAFAM et leurs vilains modèles propriétaires !

Allez, je vous laisse, j’ai un lama à aller dompter moi ! 🦙

Et n’oubliez pas, comme le dirait l’autre, « le monde appartient à ceux qui codent tôt ». Ou tard, c’est selon.

Source