Audio

Speech-to-text, voicelive, generation audio, transcription.

19 skills

# Skill Source Description
1 resemble-detect github/awesome-copilot Détecter deepfakes, contenus synthétiques et vérifier l'authenticité de tout média. 35 126
2 speech openai/skills Générer des clips audio parlés, en mode simple ou batch, via un CLI dédié. 22 307
3 transcribe openai/skills Transcrire des fichiers audio avec identification optionnelle des locuteurs via OpenAI. 22 307
4 azure-ai-transcription-py microsoft/skills Transcrire de l'audio en texte via Azure AI, en temps réel ou par lot. 2 568
5 azure-ai-voicelive-java microsoft/skills Créer des conversations vocales bidirectionnelles en temps réel avec des assistants IA Azure. 2 568
6 azure-ai-voicelive-ts microsoft/skills Créer des assistants vocaux bidirectionnels en temps réel avec Azure AI. 2 568
7 podcast-generation microsoft/skills Générer des narrations audio réalistes à partir de texte via l'API Azure OpenAI Realtime. 2 568
8 elevenlabs-transcribe elevenlabs/skills Transcrire de l'audio en texte avec identification des locuteurs et streaming temps réel. 336
9 music elevenlabs/skills Générer de la musique originale à partir de texte, vidéos ou plans de composition détaillés. 336
10 sound-effects elevenlabs/skills Générer des effets sonores réalistes à partir de descriptions textuelles via ElevenLabs. 336
11 speech-engine elevenlabs/skills Intégrer une interface vocale temps réel à un agent LLM via WebSocket ElevenLabs. 336
12 speech-to-text elevenlabs/skills Transcrire de l'audio en texte avec détection de locuteurs et horodatage précis. 336
13 text-to-speech elevenlabs/skills Convertir du texte en parole naturelle multilingue via l'API ElevenLabs. 336
14 voice-changer elevenlabs/skills Transformer la voix d'un enregistrement audio en préservant émotion et intonation. 336
15 voice-isolator elevenlabs/skills Isoler des voix et supprimer le bruit de fond d'un fichier audio. 336
16 video-audio-design mkurman/zorai Orchestrer une architecture audio 3 couches avec narration IA synchronisée pour vidéos Remotion. 312
17 whisper mkurman/zorai Transcrire et traduire de l'audio multilingue avec horodatage précis. 312
18 rw-generate-audio runwayml/skills Générer audio via Runway API : voix, effets sonores, doublage et conversion vocale. 55
19 rw-integrate-audio runwayml/skills Intégrer la génération audio (voix, effets, doublage) via l'API RunwayML. 55

À propos de cette sélection

Quand un agent doit transformer un enregistrement brut en transcript structuré, ou synthétiser une voix à partir d'un script de plusieurs pages, le pipeline audio devient vite le maillon le plus délicat du projet. Ces **skills audio** ciblent les devs backend Python qui intègrent de la voix dans leurs produits : transcrire une réunion, générer un épisode de podcast balisé, produire des effets sonores contextuels ou cloner une voix de présentation. Côté fournisseurs, l'écosystème est déjà bien structuré : ElevenLabs pousse fort sur la synthèse expressive, OpenAI couvre la transcription et la génération speech. Les skills disponibles ici adressent la majorité des cas d'usage courants, même si le tooling autour du mixing et de l'édition programmatique reste fragmenté.