Audio

Speech-to-text, voicelive, generation audio, transcription.

3 skills

# Skill Source Description Maj
1 speech-engine elevenlabs/skills Intégrer une interface vocale temps réel à un agent LLM via WebSocket ElevenLabs. 332 23j
2 video-audio-design mkurman/zorai Orchestrer une architecture audio 3 couches avec narration IA synchronisée pour vidéos Remotion. 312 1mo
3 azure-ai-voicelive-ts microsoft/skills Créer des assistants vocaux bidirectionnels en temps réel avec Azure AI. 2 548 1mo

À propos de cette sélection

Quand un agent doit transformer un enregistrement brut en transcript structuré, ou synthétiser une voix à partir d'un script de plusieurs pages, le pipeline audio devient vite le maillon le plus délicat du projet. Ces **skills audio** ciblent les devs backend Python qui intègrent de la voix dans leurs produits : transcrire une réunion, générer un épisode de podcast balisé, produire des effets sonores contextuels ou cloner une voix de présentation. Côté fournisseurs, l'écosystème est déjà bien structuré : ElevenLabs pousse fort sur la synthèse expressive, OpenAI couvre la transcription et la génération speech. Les skills disponibles ici adressent la majorité des cas d'usage courants, même si le tooling autour du mixing et de l'édition programmatique reste fragmenté.