Vidéo QnA via VLM à travers l'Agent VSS
Utilisez cette skill quand vous avez besoin de détails sur la vidéo qui nécessitent que le VLM examine les images vidéo — par exemple l'agent n'a aucune réponse préalable utilisable et doit examiner en détail les pixels d'un clip spécifique.
Quand l'utiliser
- L'utilisateur demande ce qui se passe dans la vidéo, quels objets / personnes / actions apparaissent, les couleurs, le timing, la sécurité, ou d'autres faits visuels qui nécessitent de regarder le clip.
- L'utilisateur demande des détails qui ne peuvent pas être répondus à partir des messages existants, résumés, résultats Elasticsearch/MCP ou noms de fichiers seuls—vous avez besoin de l'inférence du modèle sur la vidéo.
- Questions de suivi sur les détails du contenu après un résumé grossier ou après la génération d'un rapport.
N'utilisez pas cette skill quand une base de données / MCP / sortie d'outil précédente répond déjà à la question, sauf si l'utilisateur demande explicitement une vérification contre la vidéo.
Prérequis de déploiement
Cette skill nécessite un profil VSS qui servira l'outil video_understanding — généralement base (recommandé) ou lvs. Avant toute requête :
-
Testez l'agent VSS :
curl -sf --max-time 5 "http://${HOST_IP}:8000/docs" >/dev/null -
Si le test échoue, demandez à l'utilisateur :
« Aucun profil VSS ne s'exécute sur
$HOST_IP. Dois-je déployerbase(recommandé pour la QnA VLM par clip) en utilisant la skill/deploy? Si vous préférezlvs, dites-le. »- Si oui → confiez à
/deploy -p base(ou-p lvssi l'utilisateur préfère). Revenez ici une fois que c'est réussi. - Si non → arrêtez.
(Si votre appelant vous a accordé une pré-autorisation explicite pour déployer de manière autonome — par exemple la requête dit « pré-autorisé à déployer les prérequis », ou vous exécutez dans un environnement d'évaluation non-interactif avec cette permission — ignorez la confirmation et invoquez
/deploy -p basedirectement. Préférezbasesauf si la requête nomme un autre profil.) - Si oui → confiez à
-
Si le test réussit, continuez.
Flux de travail de l'agent
- Clip — Identifiez l'ID du capteur, le nom du fichier ou l'URL d'un segment vidéo. Si c'est ambiguë, demandez à l'utilisateur.
- Appelez l'agent vss avec l'ID du capteur et demandez-lui d'appeler l'outil video_understanding pour répondre à la question de l'utilisateur. Le nom du capteur / fichier doit être inclus dans le message d'entrée à l'agent.
- Retournez la réponse de l'agent vss à l'utilisateur.
Interroger l'agent VSS (/generate)
# Défini à partir du déploiement (compose / .env / hôte où vss-agent écoute)
export VSS_AGENT_BASE_URL="http://localhost:8000"
curl -s -X POST "${VSS_AGENT_BASE_URL}/generate" \
-H "Content-Type: application/json" \
-d '{"input_message": "Call video_understanding tool to answer the following question about <sensor-id>: <user query>"}' | jq .
Références croisées
- vios — URLs de stockage/replay VST afin que
VIDEO_URLsoit valide pour le VLM. - report — rapports horodatés via l'agent VSS (
/generate) ; cette skill est du VLM direct pour la QnA vidéo ad-hoc.