scribe

Par anthropics · knowledge-work-plugins

Compétence de référence pour Zoom AI Services Scribe. À utiliser après routage vers un workflow de transcription lors du traitement de médias téléchargés ou stockés, d'une authentification JWT sur la plateforme Build, d'une transcription en mode rapide, de jobs en batch ou de la conception d'un pipeline de transcription.

npx skills add https://github.com/anthropics/knowledge-work-plugins --skill scribe

Zoom AI Services Scribe

Référence de fond pour Zoom AI Services Scribe couvrant :

  • la transcription synchrone d'un seul fichier (POST /aiservices/scribe/transcribe)
  • les tâches de batch asynchrones (/aiservices/scribe/jobs*)
  • le pseudo-streaming via microphone navigateur par uploads répétés de fichiers courts
  • les mises à jour de statut de batch pilotées par webhook
  • la génération JWT de la plateforme de build et la gestion des credentials

Documentation officielle :

Routing Guardrail

  • Si l'utilisateur a besoin de transcrire en texte des médias uploadés ou stockés, orientez ici en premier.
  • Si l'utilisateur a besoin de médias de réunion en direct sans upload de fichier/tâches batch, orientez vers ../rtms/SKILL.md.
  • Si l'utilisateur a besoin d'un inventaire REST API Zoom pour les chemins AI Services, chainez ../rest-api/SKILL.md.
  • Si l'utilisateur a besoin de modèles de signature webhook ou de renforcement générique du récepteur HMAC, chainez optionnellement ../webhooks/SKILL.md.

Liens rapides

  1. concepts/auth-and-processing-modes.md
  2. scenarios/high-level-scenarios.md
  3. examples/fast-mode-node.md
  4. examples/batch-webhook-pipeline.md
  5. references/api-reference.md
  6. references/environment-variables.md
  7. references/samples-validation.md
  8. references/versioning-and-drift.md
  9. troubleshooting/common-drift-and-breaks.md
  10. RUNBOOK.md

Flux de travail central

  1. Obtenez les credentials de la plateforme de build et générez un JWT HS256.
  2. Choisissez le mode rapide pour un fichier court ou le mode batch pour des archives stockées / grands ensembles.
  3. Soumettez la requête de transcription.
  4. Pour les tâches batch, interrogez l'état du job/fichier ou recevez des notifications webhook.
  5. Persistez et post-traitez le JSON de transcript.

Guardrail du mode rapide hébergé

  • Les limites formelles de l'API en mode rapide sont 100 MB et 2 heures, mais les flux navigateur hébergés peuvent toujours expirer avant que la réponse amont ne revienne.
  • Observations d'échantillons déployés actuels :
    • ~17,2 MB MP4 complété en environ 26s
    • ~38,6 MB MP4 complété en environ 26-37s
    • ~59,2 MB MP4 complété en environ 32-34s sur le backend
    • certaines requêtes navigateur ~59,2 MB affichaient toujours 504 frontend alors que les logs backend montraient plus tard 200
  • Traitez 504 frontend plus 200 backend comme une course au timeout navigateur/edge, pas un échec de transcription automatique.
  • Pour les interfaces hébergées, préférez un wrapper de requête/polling asynchrone pour le mode rapide au lieu de garder le navigateur ouvert pour la réponse amont complète.
  • Pour les médias plus volumineux ou moins prévisibles, préférez le mode batch même si le fichier est toujours dans la limite formelle de taille du mode rapide.

Modèle de microphone navigateur

  • scribe n'expose pas une surface API de streaming en temps réel documentée.
  • Si vous voulez une expérience microphone navigateur, utilisez le pseudo-streaming :
    1. capturez l'audio du microphone en chunks courts
    2. uploadez chaque chunk via le wrapper asynchrone du mode rapide
    3. interrogez l'état de complétion
    4. annexez les transcripts de chunks en séquence
  • Cadence de démarrage recommandée :
    • taille de chunk : 5 secondes
    • plage acceptable : 5-10 secondes
    • requêtes en vol : 2-3
  • C'est un modèle UI pratique pour les mises à jour de transcript incrémentales, pas un substitut à rtms.
  • Traitez ceci comme un modèle de démo de secours, pas l'architecture de production préférée.
  • Cela ajoute une surcharge d'upload répétée, une dérive de limite de chunk, une variabilité de codec/conteneur navigateur, et une complexité d'assemblage de transcripts.
  • Si l'utilisateur demande une ingestion de flux en direct réelle, une compression basse latence continue, ou un transport de médias server-push, orientez vers ../rtms/SKILL.md à la place.

Surface d'endpoint

Mode Méthode Chemin Utilisation
Fast POST /aiservices/scribe/transcribe Transcription synchrone pour un fichier
Batch POST /aiservices/scribe/jobs Soumettre une tâche batch asynchrone
Batch GET /aiservices/scribe/jobs Lister les tâches
Batch GET /aiservices/scribe/jobs/{jobId} Inspecter le résumé/état de la tâche
Batch DELETE /aiservices/scribe/jobs/{jobId} Annuler une tâche en attente/traitement
Batch GET /aiservices/scribe/jobs/{jobId}/files Inspecter les résultats par fichier

Scénarios de haut niveau

  • Transcription de clip à la demande après l'upload d'un enregistrement par un utilisateur.
  • Transcription batch des archives d'appels S3 stockées.
  • Pipeline ETL piloté par webhook qui écrit les transcripts dans votre base de données/index de recherche.
  • Re-transcription d'enregistrements gérés par Zoom après les avoir exportés dans votre propre stockage.
  • Flux de conformité ou QA hors ligne qui nécessitent des timestamps, une séparation de canal, et des indices de locuteur.

Chaînage

Opérations

  • RUNBOOK.md - Checklist de vérification préalable et débogage en 5 minutes.

Skills similaires