Docling - Pour convertir vos documents sans prise de tête
Un peu comme Gitingest dont je vous parlais la dernière fois, qui permet de prendre un dépot Git et d’en faire une version bouffable par les LLMs (IA), j’aimerai vous présenter aujourd’hui Docling.
Le concept est quasiment identique sauf que a permet de convertir des formats comme le PDF, Word, PowerPoint, Excel, images, HTML, AsciiDoc, Markdown…etc en HTML, Markdown ou JSON selon vos besoins. Et le plus fort, c’est qu’il conserve même les images, qu’elles soient intégrées ou référencées.
Maintenant, ce qui rend vraiment Docling spécial, c’est sa capacité à analyser intelligemment la structure des documents. Prenez un PDF par exemple : au lieu de vous balancer un bloc de texte brut sans queue ni tête, Docling détecte automatiquement :
- La mise en page et l’ordre de lecture
- La structure des tableaux
- Les titres et sous-titres
- Les métadonnées (auteurs, références, langue…)
- Les éléments distincts comme les en-têtes et pieds de page
Et si vous développez des applications à base d’IA, Docling saura s’intégrer parfaitement avec des frameworks populaires comme LangChain, LlamaIndex, Crew AI et Haystack. Plus besoin de bricoler pendant des heures pour connecter vos outils ! Y’a d’ailleurs de nombreux exemples concrets d’intégration dans la documentation officielle.
Et l’installation est un jeu d’enfant :
pip install docling
Et pour l’utilisation, c’est tout aussi simple :
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())
De plus, Docling ne se contente pas de convertir bêtement vos documents pusiqu’il embarque des fonctionnalités vraiment pratiques comme :
- La reconnaissance de texte (OCR) pour les PDFs scannés
- L’extraction des équations mathématiques
- La détection du code source
- Une interface en ligne de commande pour les utilisations rapides
- Le support multi-plateforme (Windows, Mac, Linux, x86_64 et arm64)
Développé par IBM, Docling est open source sous licence MIT et les mises à jour sont régulières et apportent constamment de nouvelles fonctionnalités.
N’hésitez pas à tester par vous-même car cet outil qui pourrait bien devenir indispensable dans votre boîte à outils de dev