Convertisseur Markdown
Convertissez des fichiers en Markdown avec uvx markitdown — aucune installation requise.
Utilisation basique
# Convertir vers stdout
uvx markitdown input.pdf
# Enregistrer dans un fichier
uvx markitdown input.pdf -o output.md
uvx markitdown input.docx > output.md
# Depuis stdin
cat input.pdf | uvx markitdown
Formats supportés
- Documents : PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx, .xls)
- Web/Données : HTML, CSV, JSON, XML
- Médias : Images (EXIF + OCR), Audio (EXIF + transcription)
- Autres : ZIP (parcourt le contenu), URLs YouTube, EPub
Options
-o OUTPUT # Fichier de sortie
-x EXTENSION # Indication d'extension (pour stdin)
-m MIME_TYPE # Indication de type MIME
-c CHARSET # Indication d'encodage (p. ex., UTF-8)
-d # Utiliser Azure Document Intelligence
-e ENDPOINT # Point de terminaison Document Intelligence
--use-plugins # Activer les plugins tiers
--list-plugins # Afficher les plugins installés
Exemples
# Convertir un document Word
uvx markitdown report.docx -o report.md
# Convertir une feuille de calcul Excel
uvx markitdown data.xlsx > data.md
# Convertir une présentation PowerPoint
uvx markitdown slides.pptx -o slides.md
# Convertir avec indication de type de fichier (pour stdin)
cat document | uvx markitdown -x .pdf > output.md
# Utiliser Azure Document Intelligence pour une meilleure extraction PDF
uvx markitdown scan.pdf -d -e "https://your-resource.cognitiveservices.azure.com/"
Notes
- La sortie préserve la structure du document : titres, tableaux, listes, liens
- La première exécution met en cache les dépendances ; les exécutions suivantes sont plus rapides
- Pour les PDF complexes avec une extraction insuffisante, utilisez
-davec Azure Document Intelligence