Zoom AI Services Scribe

Référence de fond pour Zoom AI Services Scribe couvrant :

la transcription synchrone d'un seul fichier (POST /aiservices/scribe/transcribe)
les tâches de batch asynchrones (/aiservices/scribe/jobs*)
le pseudo-streaming via microphone navigateur par uploads répétés de fichiers courts
les mises à jour de statut de batch pilotées par webhook
la génération JWT de la plateforme de build et la gestion des credentials

Documentation officielle :

Routing Guardrail

Si l'utilisateur a besoin de transcrire en texte des médias uploadés ou stockés, orientez ici en premier.
Si l'utilisateur a besoin de médias de réunion en direct sans upload de fichier/tâches batch, orientez vers ../rtms/SKILL.md.
Si l'utilisateur a besoin d'un inventaire REST API Zoom pour les chemins AI Services, chainez ../rest-api/SKILL.md.
Si l'utilisateur a besoin de modèles de signature webhook ou de renforcement générique du récepteur HMAC, chainez optionnellement ../webhooks/SKILL.md.

Obtenez les credentials de la plateforme de build et générez un JWT HS256.
Choisissez le mode rapide pour un fichier court ou le mode batch pour des archives stockées / grands ensembles.
Soumettez la requête de transcription.
Pour les tâches batch, interrogez l'état du job/fichier ou recevez des notifications webhook.
Persistez et post-traitez le JSON de transcript.

Les limites formelles de l'API en mode rapide sont 100 MB et 2 heures, mais les flux navigateur hébergés peuvent toujours expirer avant que la réponse amont ne revienne.
Observations d'échantillons déployés actuels :
- ~17,2 MB MP4 complété en environ 26s
- ~38,6 MB MP4 complété en environ 26-37s
- ~59,2 MB MP4 complété en environ 32-34s sur le backend
- certaines requêtes navigateur ~59,2 MB affichaient toujours 504 frontend alors que les logs backend montraient plus tard 200
Traitez 504 frontend plus 200 backend comme une course au timeout navigateur/edge, pas un échec de transcription automatique.
Pour les interfaces hébergées, préférez un wrapper de requête/polling asynchrone pour le mode rapide au lieu de garder le navigateur ouvert pour la réponse amont complète.
Pour les médias plus volumineux ou moins prévisibles, préférez le mode batch même si le fichier est toujours dans la limite formelle de taille du mode rapide.

scribe n'expose pas une surface API de streaming en temps réel documentée.
Si vous voulez une expérience microphone navigateur, utilisez le pseudo-streaming :
1. capturez l'audio du microphone en chunks courts
2. uploadez chaque chunk via le wrapper asynchrone du mode rapide
3. interrogez l'état de complétion
4. annexez les transcripts de chunks en séquence
Cadence de démarrage recommandée :
- taille de chunk : 5 secondes
- plage acceptable : 5-10 secondes
- requêtes en vol : 2-3
C'est un modèle UI pratique pour les mises à jour de transcript incrémentales, pas un substitut à rtms.
Traitez ceci comme un modèle de démo de secours, pas l'architecture de production préférée.
Cela ajoute une surcharge d'upload répétée, une dérive de limite de chunk, une variabilité de codec/conteneur navigateur, et une complexité d'assemblage de transcripts.
Si l'utilisateur demande une ingestion de flux en direct réelle, une compression basse latence continue, ou un transport de médias server-push, orientez vers ../rtms/SKILL.md à la place.

Mode	Méthode	Chemin	Utilisation
Fast	`POST`	`/aiservices/scribe/transcribe`	Transcription synchrone pour un fichier
Batch	`POST`	`/aiservices/scribe/jobs`	Soumettre une tâche batch asynchrone
Batch	`GET`	`/aiservices/scribe/jobs`	Lister les tâches
Batch	`GET`	`/aiservices/scribe/jobs/{jobId}`	Inspecter le résumé/état de la tâche
Batch	`DELETE`	`/aiservices/scribe/jobs/{jobId}`	Annuler une tâche en attente/traitement
Batch	`GET`	`/aiservices/scribe/jobs/{jobId}/files`	Inspecter les résultats par fichier

Transcription de clip à la demande après l'upload d'un enregistrement par un utilisateur.
Transcription batch des archives d'appels S3 stockées.
Pipeline ETL piloté par webhook qui écrit les transcripts dans votre base de données/index de recherche.
Re-transcription d'enregistrements gérés par Zoom après les avoir exportés dans votre propre stockage.
Flux de conformité ou QA hors ligne qui nécessitent des timestamps, une séparation de canal, et des indices de locuteur.