markdown-converter

Par mkurman · zorai

Convertit des documents et fichiers en Markdown à l'aide de markitdown. À utiliser pour convertir des fichiers PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx, .xls), HTML, CSV, JSON, XML, images (avec EXIF/OCR), audio (avec transcription), archives ZIP, URLs YouTube ou EPubs au format Markdown, en vue d'un traitement par LLM ou d'une analyse textuelle.

npx skills add https://github.com/mkurman/zorai --skill markdown-converter

Convertisseur Markdown

Convertissez des fichiers en Markdown avec uvx markitdown — aucune installation requise.

Utilisation basique

# Convertir vers stdout
uvx markitdown input.pdf

# Enregistrer dans un fichier
uvx markitdown input.pdf -o output.md
uvx markitdown input.docx > output.md

# Depuis stdin
cat input.pdf | uvx markitdown

Formats supportés

  • Documents : PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx, .xls)
  • Web/Données : HTML, CSV, JSON, XML
  • Médias : Images (EXIF + OCR), Audio (EXIF + transcription)
  • Autres : ZIP (parcourt le contenu), URLs YouTube, EPub

Options

-o OUTPUT      # Fichier de sortie
-x EXTENSION   # Indication d'extension (pour stdin)
-m MIME_TYPE   # Indication de type MIME
-c CHARSET     # Indication d'encodage (p. ex., UTF-8)
-d             # Utiliser Azure Document Intelligence
-e ENDPOINT    # Point de terminaison Document Intelligence
--use-plugins  # Activer les plugins tiers
--list-plugins # Afficher les plugins installés

Exemples

# Convertir un document Word
uvx markitdown report.docx -o report.md

# Convertir une feuille de calcul Excel
uvx markitdown data.xlsx > data.md

# Convertir une présentation PowerPoint
uvx markitdown slides.pptx -o slides.md

# Convertir avec indication de type de fichier (pour stdin)
cat document | uvx markitdown -x .pdf > output.md

# Utiliser Azure Document Intelligence pour une meilleure extraction PDF
uvx markitdown scan.pdf -d -e "https://your-resource.cognitiveservices.azure.com/"

Notes

  • La sortie préserve la structure du document : titres, tableaux, listes, liens
  • La première exécution met en cache les dépendances ; les exécutions suivantes sont plus rapides
  • Pour les PDF complexes avec une extraction insuffisante, utilisez -d avec Azure Document Intelligence

Skills similaires