Audio

Speech-to-text, voicelive, generation audio, transcription.

3 skills

#	Skill	Source	Description		Maj
1	speech-engine	elevenlabs/skills	Intégrer une interface vocale temps réel à un agent LLM via WebSocket ElevenLabs.	332	23j
2	video-audio-design	mkurman/zorai	Orchestrer une architecture audio 3 couches avec narration IA synchronisée pour vidéos Remotion.	312	1mo
3	azure-ai-voicelive-ts	microsoft/skills	Créer des assistants vocaux bidirectionnels en temps réel avec Azure AI.	2 548	1mo

À propos de cette sélection

Quand un agent doit transformer un enregistrement brut en transcript structuré, ou synthétiser une voix à partir d'un script de plusieurs pages, le pipeline audio devient vite le maillon le plus délicat du projet. Ces **skills audio** ciblent les devs backend Python qui intègrent de la voix dans leurs produits : transcrire une réunion, générer un épisode de podcast balisé, produire des effets sonores contextuels ou cloner une voix de présentation. Côté fournisseurs, l'écosystème est déjà bien structuré : ElevenLabs pousse fort sur la synthèse expressive, OpenAI couvre la transcription et la génération speech. Les skills disponibles ici adressent la majorité des cas d'usage courants, même si le tooling autour du mixing et de l'édition programmatique reste fragmenté.