Aperçu
SpeechBrain est une boîte à outils open-source de traitement de la parole basée sur PyTorch couvrant la reconnaissance vocale (speech-to-text), la reconnaissance du locuteur, la séparation de sources vocales, la diarisation, l'amélioration audio, l'identification de langue, la reconnaissance d'émotions et la synthèse vocale. Fournit des modèles préentraînés et un entraînement basé sur des recettes.
Installation
uv pip install speechbrain
Reconnaissance vocale
from speechbrain.inference.ASR import EncoderDecoderASR
asr_model = EncoderDecoderASR.from_hparams(
source="speechbrain/asr-crdnn-rnnlm-librispeech",
savedir="pretrained_models/asr")
transcript = asr_model.transcribe_file("audio.wav")
print(f"Transcript: {transcript}")
Vérification du locuteur
from speechbrain.inference.speaker import SpeakerRecognition
verification = SpeakerRecognition.from_hparams(
source="speechbrain/spkrec-ecapa-voxceleb",
savedir="pretrained_models/spkrec")
score, prediction = verification.verify_files("speaker1.wav", "speaker2.wav")
print(f"Same speaker: {prediction} (score: {score:.3f})")