Aperçu
OpenAI Whisper est un modèle de reconnaissance vocale généraliste prenant en charge la transcription multilingue, la traduction vers l'anglais et l'ASR indépendant du locuteur. Les modèles vont du tiny (39M params) au large (1,55B params). Robuste face au bruit, aux accents et au vocabulaire technique.
Installation
uv pip install openai-whisper
ffmpeg # required for audio loading
Transcription basique
import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])
Multilingue et traduction
# Transcribe in original language
result = model.transcribe("french_audio.mp3", language="fr")
# Translate to English
result = model.transcribe("german_audio.mp3", task="translate")
print(result["text"]) # English output
Timestamps au niveau des mots
result = model.transcribe("lecture.mp3", word_timestamps=True)
for segment in result["segments"]:
for word in segment["words"]:
print(f"{word['word']}: {word['start']:.2f}-{word['end']:.2f}")
Sélection de la taille du modèle
# tiny (fast, less accurate) → base → small → medium → large (slow, most accurate)
sizes = ["tiny", "base", "small", "medium", "large"]
for s in sizes:
m = whisper.load_model(s)
# ~1GB VRAM for base, ~10GB for large
result = m.transcribe("podcast.mp3")