Audio

Speech-to-text, voicelive, generation audio, transcription.

18 skills

#	Skill	Source	Description
1	resemble-detect	github/awesome-copilot	Détecter deepfakes, contenus synthétiques et vérifier l'authenticité de tout média.	37 302
2	speech	openai/skills	Générer des clips audio parlés, en mode simple ou batch, via un CLI dédié.	24 387
3	transcribe	openai/skills	Transcrire des fichiers audio avec identification optionnelle des locuteurs via OpenAI.	24 387
4	azure-ai-transcription-py	microsoft/skills	Transcrire de l'audio en texte via Azure AI, en temps réel ou par lot.	2 844
5	azure-ai-voicelive-ts	microsoft/skills	Créer des assistants vocaux bidirectionnels en temps réel avec Azure AI.	2 844
6	azure-speech-to-text-rest-py	microsoft/skills	Transcrire des fichiers audio courts en texte via l'API REST Azure Speech.	2 844
7	podcast-generation	microsoft/skills	Générer des narrations audio réalistes à partir de texte via l'API Azure OpenAI Realtime.	2 844
8	music	elevenlabs/skills	Générer de la musique originale à partir de texte, vidéos ou plans de composition détaillés.	401
9	sound-effects	elevenlabs/skills	Générer des effets sonores réalistes à partir de descriptions textuelles via ElevenLabs.	401
10	speech-engine	elevenlabs/skills	Intégrer une interface vocale temps réel à un agent LLM via WebSocket ElevenLabs.	401
11	speech-to-text	elevenlabs/skills	Transcrire de l'audio en texte avec détection de locuteurs et horodatage précis.	401
12	text-to-speech	elevenlabs/skills	Convertir du texte en parole naturelle multilingue via l'API ElevenLabs.	401
13	voice-changer	elevenlabs/skills	Transformer la voix d'un enregistrement audio en préservant émotion et intonation.	401
14	voice-isolator	elevenlabs/skills	Isoler des voix et supprimer le bruit de fond d'un fichier audio.	401
15	video-audio-design	mkurman/zorai	Orchestrer une architecture audio 3 couches avec narration IA synchronisée pour vidéos Remotion.	318
16	whisper	mkurman/zorai	Transcrire et traduire de l'audio multilingue avec horodatage précis.	318
17	rw-generate-audio	runwayml/skills	Générer audio via Runway API : voix, effets sonores, doublage et conversion vocale.	62
18	rw-integrate-audio	runwayml/skills	Intégrer la génération audio (voix, effets, doublage) via l'API RunwayML.	62

À propos de cette sélection

Quand un agent doit transformer un enregistrement brut en transcript structuré, ou synthétiser une voix à partir d'un script de plusieurs pages, le pipeline audio devient vite le maillon le plus délicat du projet. Ces **skills audio** ciblent les devs backend Python qui intègrent de la voix dans leurs produits : transcrire une réunion, générer un épisode de podcast balisé, produire des effets sonores contextuels ou cloner une voix de présentation. Côté fournisseurs, l'écosystème est déjà bien structuré : ElevenLabs pousse fort sur la synthèse expressive, OpenAI couvre la transcription et la génération speech. Les skills disponibles ici adressent la majorité des cas d'usage courants, même si le tooling autour du mixing et de l'édition programmatique reste fragmenté.