video-understanding

Par nvidia · skills

Appelle l'agent vss pour effectuer une analyse vidéo et répondre à une question textuelle. À utiliser lorsque l'utilisateur pose des questions sur le contenu d'une vidéo, ou sur des détails visuels ne pouvant pas être déterminés à partir de l'historique de conversation, des résultats de recherche ou des métadonnées seuls.

npx skills add https://github.com/nvidia/skills --skill video-understanding

Vidéo QnA via VLM à travers l'Agent VSS

Utilisez cette skill quand vous avez besoin de détails sur la vidéo qui nécessitent que le VLM examine les images vidéo — par exemple l'agent n'a aucune réponse préalable utilisable et doit examiner en détail les pixels d'un clip spécifique.


Quand l'utiliser

  • L'utilisateur demande ce qui se passe dans la vidéo, quels objets / personnes / actions apparaissent, les couleurs, le timing, la sécurité, ou d'autres faits visuels qui nécessitent de regarder le clip.
  • L'utilisateur demande des détails qui ne peuvent pas être répondus à partir des messages existants, résumés, résultats Elasticsearch/MCP ou noms de fichiers seuls—vous avez besoin de l'inférence du modèle sur la vidéo.
  • Questions de suivi sur les détails du contenu après un résumé grossier ou après la génération d'un rapport.

N'utilisez pas cette skill quand une base de données / MCP / sortie d'outil précédente répond déjà à la question, sauf si l'utilisateur demande explicitement une vérification contre la vidéo.


Prérequis de déploiement

Cette skill nécessite un profil VSS qui servira l'outil video_understanding — généralement base (recommandé) ou lvs. Avant toute requête :

  1. Testez l'agent VSS :

    curl -sf --max-time 5 "http://${HOST_IP}:8000/docs" >/dev/null
  2. Si le test échoue, demandez à l'utilisateur :

    « Aucun profil VSS ne s'exécute sur $HOST_IP. Dois-je déployer base (recommandé pour la QnA VLM par clip) en utilisant la skill /deploy ? Si vous préférez lvs, dites-le. »

    • Si oui → confiez à /deploy -p base (ou -p lvs si l'utilisateur préfère). Revenez ici une fois que c'est réussi.
    • Si non → arrêtez.

    (Si votre appelant vous a accordé une pré-autorisation explicite pour déployer de manière autonome — par exemple la requête dit « pré-autorisé à déployer les prérequis », ou vous exécutez dans un environnement d'évaluation non-interactif avec cette permission — ignorez la confirmation et invoquez /deploy -p base directement. Préférez base sauf si la requête nomme un autre profil.)

  3. Si le test réussit, continuez.


Flux de travail de l'agent

  1. Clip — Identifiez l'ID du capteur, le nom du fichier ou l'URL d'un segment vidéo. Si c'est ambiguë, demandez à l'utilisateur.
  2. Appelez l'agent vss avec l'ID du capteur et demandez-lui d'appeler l'outil video_understanding pour répondre à la question de l'utilisateur. Le nom du capteur / fichier doit être inclus dans le message d'entrée à l'agent.
  3. Retournez la réponse de l'agent vss à l'utilisateur.

Interroger l'agent VSS (/generate)

# Défini à partir du déploiement (compose / .env / hôte où vss-agent écoute)
export VSS_AGENT_BASE_URL="http://localhost:8000"

curl -s -X POST "${VSS_AGENT_BASE_URL}/generate" \
  -H "Content-Type: application/json" \
  -d '{"input_message": "Call video_understanding tool to answer the following question about <sensor-id>: <user query>"}' | jq .

Références croisées

  • vios — URLs de stockage/replay VST afin que VIDEO_URL soit valide pour le VLM.
  • reportrapports horodatés via l'agent VSS (/generate) ; cette skill est du VLM direct pour la QnA vidéo ad-hoc.

Skills similaires