Transcription audio multilingue avec OpenAI Whisper

Aperçu

OpenAI Whisper est un modèle de reconnaissance vocale généraliste prenant en charge la transcription multilingue, la traduction vers l'anglais et l'ASR indépendant du locuteur. Les modèles vont du tiny (39M params) au large (1,55B params). Robuste face au bruit, aux accents et au vocabulaire technique.

Installation

uv pip install openai-whisper
ffmpeg  # required for audio loading

Transcription basique

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

Multilingue et traduction

# Transcribe in original language
result = model.transcribe("french_audio.mp3", language="fr")

# Translate to English
result = model.transcribe("german_audio.mp3", task="translate")
print(result["text"])  # English output

Timestamps au niveau des mots

result = model.transcribe("lecture.mp3", word_timestamps=True)
for segment in result["segments"]:
    for word in segment["words"]:
        print(f"{word['word']}: {word['start']:.2f}-{word['end']:.2f}")

Sélection de la taille du modèle

# tiny (fast, less accurate) → base → small → medium → large (slow, most accurate)
sizes = ["tiny", "base", "small", "medium", "large"]
for s in sizes:
    m = whisper.load_model(s)
    # ~1GB VRAM for base, ~10GB for large
    result = m.transcribe("podcast.mp3")

whisper