speechbrain

Par mkurman · zorai

SpeechBrain — Boîte à outils vocale PyTorch. ASR, reconnaissance du locuteur, séparation de la parole, diarisation, amélioration, identification de la langue et TTS. Entraînement basé sur des recettes avec un zoo de modèles pré-entraînés.

npx skills add https://github.com/mkurman/zorai --skill speechbrain

Aperçu

SpeechBrain est une boîte à outils open-source de traitement de la parole basée sur PyTorch couvrant la reconnaissance vocale (speech-to-text), la reconnaissance du locuteur, la séparation de sources vocales, la diarisation, l'amélioration audio, l'identification de langue, la reconnaissance d'émotions et la synthèse vocale. Fournit des modèles préentraînés et un entraînement basé sur des recettes.

Installation

uv pip install speechbrain

Reconnaissance vocale

from speechbrain.inference.ASR import EncoderDecoderASR

asr_model = EncoderDecoderASR.from_hparams(
    source="speechbrain/asr-crdnn-rnnlm-librispeech",
    savedir="pretrained_models/asr")
transcript = asr_model.transcribe_file("audio.wav")
print(f"Transcript: {transcript}")

Vérification du locuteur

from speechbrain.inference.speaker import SpeakerRecognition

verification = SpeakerRecognition.from_hparams(
    source="speechbrain/spkrec-ecapa-voxceleb",
    savedir="pretrained_models/spkrec")
score, prediction = verification.verify_files("speaker1.wav", "speaker2.wav")
print(f"Same speaker: {prediction} (score: {score:.3f})")