Zoom AI Services Scribe
Référence de fond pour Zoom AI Services Scribe couvrant :
- la transcription synchrone d'un seul fichier (
POST /aiservices/scribe/transcribe) - les tâches de batch asynchrones (
/aiservices/scribe/jobs*) - le pseudo-streaming via microphone navigateur par uploads répétés de fichiers courts
- les mises à jour de statut de batch pilotées par webhook
- la génération JWT de la plateforme de build et la gestion des credentials
Documentation officielle :
- https://developers.zoom.us/docs/ai-services/
- https://developers.zoom.us/docs/ai-services/scribe/
- https://developers.zoom.us/docs/api/ai-services/
- https://developers.zoom.us/api-hub/ai-services/methods/endpoints.json
- Exemple de démarrage rapide : https://github.com/zoom/scribe-quickstart/
Routing Guardrail
- Si l'utilisateur a besoin de transcrire en texte des médias uploadés ou stockés, orientez ici en premier.
- Si l'utilisateur a besoin de médias de réunion en direct sans upload de fichier/tâches batch, orientez vers ../rtms/SKILL.md.
- Si l'utilisateur a besoin d'un inventaire REST API Zoom pour les chemins AI Services, chainez ../rest-api/SKILL.md.
- Si l'utilisateur a besoin de modèles de signature webhook ou de renforcement générique du récepteur HMAC, chainez optionnellement ../webhooks/SKILL.md.
Liens rapides
- concepts/auth-and-processing-modes.md
- scenarios/high-level-scenarios.md
- examples/fast-mode-node.md
- examples/batch-webhook-pipeline.md
- references/api-reference.md
- references/environment-variables.md
- references/samples-validation.md
- references/versioning-and-drift.md
- troubleshooting/common-drift-and-breaks.md
- RUNBOOK.md
Flux de travail central
- Obtenez les credentials de la plateforme de build et générez un JWT HS256.
- Choisissez le mode rapide pour un fichier court ou le mode batch pour des archives stockées / grands ensembles.
- Soumettez la requête de transcription.
- Pour les tâches batch, interrogez l'état du job/fichier ou recevez des notifications webhook.
- Persistez et post-traitez le JSON de transcript.
Guardrail du mode rapide hébergé
- Les limites formelles de l'API en mode rapide sont
100 MBet2 heures, mais les flux navigateur hébergés peuvent toujours expirer avant que la réponse amont ne revienne. - Observations d'échantillons déployés actuels :
- ~17,2 MB MP4 complété en environ
26s - ~38,6 MB MP4 complété en environ
26-37s - ~59,2 MB MP4 complété en environ
32-34ssur le backend - certaines requêtes navigateur ~59,2 MB affichaient toujours
504frontend alors que les logs backend montraient plus tard200
- ~17,2 MB MP4 complété en environ
- Traitez
504frontend plus200backend comme une course au timeout navigateur/edge, pas un échec de transcription automatique. - Pour les interfaces hébergées, préférez un wrapper de requête/polling asynchrone pour le mode rapide au lieu de garder le navigateur ouvert pour la réponse amont complète.
- Pour les médias plus volumineux ou moins prévisibles, préférez le mode batch même si le fichier est toujours dans la limite formelle de taille du mode rapide.
Modèle de microphone navigateur
scriben'expose pas une surface API de streaming en temps réel documentée.- Si vous voulez une expérience microphone navigateur, utilisez le pseudo-streaming :
- capturez l'audio du microphone en chunks courts
- uploadez chaque chunk via le wrapper asynchrone du mode rapide
- interrogez l'état de complétion
- annexez les transcripts de chunks en séquence
- Cadence de démarrage recommandée :
- taille de chunk :
5 secondes - plage acceptable :
5-10 secondes - requêtes en vol :
2-3
- taille de chunk :
- C'est un modèle UI pratique pour les mises à jour de transcript incrémentales, pas un substitut à
rtms. - Traitez ceci comme un modèle de démo de secours, pas l'architecture de production préférée.
- Cela ajoute une surcharge d'upload répétée, une dérive de limite de chunk, une variabilité de codec/conteneur navigateur, et une complexité d'assemblage de transcripts.
- Si l'utilisateur demande une ingestion de flux en direct réelle, une compression basse latence continue, ou un transport de médias server-push, orientez vers ../rtms/SKILL.md à la place.
Surface d'endpoint
| Mode | Méthode | Chemin | Utilisation |
|---|---|---|---|
| Fast | POST |
/aiservices/scribe/transcribe |
Transcription synchrone pour un fichier |
| Batch | POST |
/aiservices/scribe/jobs |
Soumettre une tâche batch asynchrone |
| Batch | GET |
/aiservices/scribe/jobs |
Lister les tâches |
| Batch | GET |
/aiservices/scribe/jobs/{jobId} |
Inspecter le résumé/état de la tâche |
| Batch | DELETE |
/aiservices/scribe/jobs/{jobId} |
Annuler une tâche en attente/traitement |
| Batch | GET |
/aiservices/scribe/jobs/{jobId}/files |
Inspecter les résultats par fichier |
Scénarios de haut niveau
- Transcription de clip à la demande après l'upload d'un enregistrement par un utilisateur.
- Transcription batch des archives d'appels S3 stockées.
- Pipeline ETL piloté par webhook qui écrit les transcripts dans votre base de données/index de recherche.
- Re-transcription d'enregistrements gérés par Zoom après les avoir exportés dans votre propre stockage.
- Flux de conformité ou QA hors ligne qui nécessitent des timestamps, une séparation de canal, et des indices de locuteur.
Chaînage
- Enregistrements Zoom stockés -> ../rest-api/SKILL.md +
scribe - Renforcement de vérification webhook -> ../webhooks/SKILL.md
- Transcript/médias en direct en temps réel -> ../rtms/SKILL.md
- Routage multi-produits -> ../general/SKILL.md
Opérations
- RUNBOOK.md - Checklist de vérification préalable et débogage en 5 minutes.