Stable Diffusion et SDXL boostés grâce aux Modèles de Consistance Latente (LCM) et aux LoRAs

par Korben -

Vous connaissez sûrement Stable Diffusion et son grand frère SDXL, ces modèles de génération d’images par IA qui permettent de créer des imges à partir de simples descriptions textuelles. Mais saviez-vous qu’il est désormais possible d’accélérer considérablement leur pipeline d’inférence grâce aux Modèles de Consistance Latente (ou LCM) ?

Développés par une équipe chinoise, les LCM sont une technique de distillation qui permet de réduire drastiquement le nombre d’étapes nécessaires pour générer une image avec Stable Diffusion ou SDXL, tout en conservant une qualité optimale. Au lieu des 25 à 50 étapes habituelles, on peut descendre à seulement 4 à 8 étapes !

Concrètement, cela signifie des gains de vitesse d’un facteur 10 sur un Mac récent, ou la possibilité de générer des images en moins d’une seconde sur une RTX 3090. De quoi modifier les usages et les workflows, en rendant la génération d’images par IA accessible à tous, même sans matériel haut de gamme.

Mais le plus intéressant, c’est que grâce à une nouvelle méthode appelée LCM LoRA, il est possible d’appliquer cette optimisation à n’importe quel modèle SDXL ou Stable Diffusion fine-tuné, sans avoir à le distiller entièrement. Pour rappel, les LoRAs (pour Low-Rank Adaptation) sont des petits adaptateurs qui viennent se greffer au modèle pour lui donner des super-pouvoirs, un peu comme des plugins. Ils permettent ainsi de combiner les avantages des LCM (inférence ultra-rapide) avec la flexibilité du fine-tuning.

Et tout cela est parfaitement intégré dans la bibliothèque Diffusers de HuggingFace. Ainsi, avec seulement quelques lignes de code, vous pouvez charger un pipeline SDXL, lui appliquer un LCM LoRA, changer le scheduler et hop, vous voilà parés pour de l’inférence à la vitesse de l’éclair !

Cette accélération ouvre la voie à de nouveaux cas d’usage passionnants pour la génération d’images par IA :

  • Accessibilité : les outils génératifs deviennent utilisables par tous, même sans GPU dernier cri.
  • Itération rapide : les artistes et chercheurs peuvent tester plus d’idées et de variantes en un temps record.
  • Génération à la demande : on peut imaginer des services d’images personnalisées en quasi temps-réel.
  • Réduction des coûts : l’inférence ultra-rapide permet d’envisager des charges de travail en production, même sur CPU ou avec un budget limité.

Et pour plus d’info, voici quelques liens :

Prêts à générer des images à toute vitesse ?

À vous de jouer et encore merci à Lorenper pour l’info !