MarkItDown - Convertissez tous vos documents en Markdown très facilement

par Korben -

Non, mais comment c’est relou de jongler avec différents formats de fichiers, surtout à l’heure de LLM où on se retrouve vite à devoir extraire manuellement le contenu de nos PDFs, présentations PowerPoint et autres documents Word afin de les donner à bouffer aux IA. Heureusement, Microsoft, sur qui on peut toujours compter vient de dévoiler un petit utilitaire qui devrait vous simplifier grandement la vie : MarkItDown !

Cette nouvelle bibliothèque open source fait exactement ce que son nom suggère : elle transforme vos fichiers en Markdown propre et structuré, idéal pour l’indexation et l’analyse de texte.

MarkItDown analyse donc vos fichiers et en extrait intelligemment le contenu pour le convertir en Markdown. À la clé : du texte parfaitement structuré, prêt à être exploité.

Les formats supportés sont nombreux :

  • Documents PDF - Présentations PowerPoint (.pptx)
  • Documents Word (.docx)
  • Feuilles Excel (.xlsx)
  • Images (avec extraction des métadonnées EXIF et reconnaissance de texte)
  • Fichiers audio (métadonnées et transcription)
  • Pages HTML (avec gestion spéciale pour Wikipédia)
  • Et divers formats texte (CSV, JSON, XML…)

L’utilisation de MarkItDown est d’une simplicité enfantine, vous allez voir, quelques lignes de code suffisent pour avoir un résultat immédiat :

from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("document.pdf")
print(result.text_content)

Et voilà ! Votre fichier est converti en Markdown structuré, prêt à être exploité.

Imaginez toutes les possibilités qu’offre un tel outil… Vous allez pouvoir convertir facilement vos docs existantes en Markdown pour les intégrer à votre wiki d’entreprise, extraire le contenu de milliers de documents pour faire du text mining ou de l’analyse sémantique, transformer vos anciens documents en format moderne et portable, stocker vos documents sous forme textuelle pour une recherche plus efficace ou encore intégrer leur conversion dans vos pipelines de traitement de documents.

Perso, je vais tout de suite l’intégrer dans mes outils.

MarkItDown ne se contente pas de convertir bêtement du texte puisqu’il embarque des fonctionnalités avancées comme de la reconnaissance optique de caractères (OCR) sur les images, de la transcription automatique des fichiers audio, du maintien de la structure et de la hiérarchie des documents, de la gestion intelligente des tableaux et des listes et comme je vous le disais, l’extraction des métadonnées

Pour ceux qui veulent tester tout de suite, pour voir ce que ça donne, il y a Matt Palmer qui a même fait un petit site capable de prendre en entrée tous ces fichiers et vous cracher du markdown. Jolie implémentation ! A vous de jouer !

Découvrez MarkItDown sur GitHub