Vidéo QnA via VLM à travers l'Agent VSS

Utilisez cette skill quand vous avez besoin de détails sur la vidéo qui nécessitent que le VLM examine les images vidéo — par exemple l'agent n'a aucune réponse préalable utilisable et doit examiner en détail les pixels d'un clip spécifique.

Quand l'utiliser

L'utilisateur demande ce qui se passe dans la vidéo, quels objets / personnes / actions apparaissent, les couleurs, le timing, la sécurité, ou d'autres faits visuels qui nécessitent de regarder le clip.
L'utilisateur demande des détails qui ne peuvent pas être répondus à partir des messages existants, résumés, résultats Elasticsearch/MCP ou noms de fichiers seuls—vous avez besoin de l'inférence du modèle sur la vidéo.
Questions de suivi sur les détails du contenu après un résumé grossier ou après la génération d'un rapport.

N'utilisez pas cette skill quand une base de données / MCP / sortie d'outil précédente répond déjà à la question, sauf si l'utilisateur demande explicitement une vérification contre la vidéo.

Prérequis de déploiement

Cette skill nécessite un profil VSS qui servira l'outil video_understanding — généralement base (recommandé) ou lvs. Avant toute requête :

Testez l'agent VSS :

curl -sf --max-time 5 "http://${HOST_IP}:8000/docs" >/dev/null

Si le test échoue, demandez à l'utilisateur :

« Aucun profil VSS ne s'exécute sur $HOST_IP. Dois-je déployer base (recommandé pour la QnA VLM par clip) en utilisant la skill /deploy ? Si vous préférez lvs, dites-le. »
- Si oui → confiez à /deploy -p base (ou -p lvs si l'utilisateur préfère). Revenez ici une fois que c'est réussi.
- Si non → arrêtez.
(Si votre appelant vous a accordé une pré-autorisation explicite pour déployer de manière autonome — par exemple la requête dit « pré-autorisé à déployer les prérequis », ou vous exécutez dans un environnement d'évaluation non-interactif avec cette permission — ignorez la confirmation et invoquez /deploy -p base directement. Préférez base sauf si la requête nomme un autre profil.)
Si le test réussit, continuez.

Flux de travail de l'agent

Clip — Identifiez l'ID du capteur, le nom du fichier ou l'URL d'un segment vidéo. Si c'est ambiguë, demandez à l'utilisateur.
Appelez l'agent vss avec l'ID du capteur et demandez-lui d'appeler l'outil video_understanding pour répondre à la question de l'utilisateur. Le nom du capteur / fichier doit être inclus dans le message d'entrée à l'agent.
Retournez la réponse de l'agent vss à l'utilisateur.

Interroger l'agent VSS (`/generate`)

# Défini à partir du déploiement (compose / .env / hôte où vss-agent écoute)
export VSS_AGENT_BASE_URL="http://localhost:8000"

curl -s -X POST "${VSS_AGENT_BASE_URL}/generate" \
  -H "Content-Type: application/json" \
  -d '{"input_message": "Call video_understanding tool to answer the following question about <sensor-id>: <user query>"}' | jq .

Références croisées

vios — URLs de stockage/replay VST afin que VIDEO_URL soit valide pour le VLM.
report — rapports horodatés via l'agent VSS (/generate) ; cette skill est du VLM direct pour la QnA vidéo ad-hoc.

video-understanding

Vidéo QnA via VLM à travers l'Agent VSS

Quand l'utiliser

Prérequis de déploiement

Flux de travail de l'agent

Interroger l'agent VSS (`/generate`)

Références croisées

Skills similaires

Vidéo QnA via VLM à travers l'Agent VSS

Quand l'utiliser

Prérequis de déploiement

Flux de travail de l'agent

Interroger l'agent VSS (/generate)

Références croisées

Skills similaires

Interroger l'agent VSS (`/generate`)