Configuration et mise à l'échelle résiliente de l'infrastructure Physical AI
Skill canonical pour la pile d'infrastructure Physical AI. Utilisez-la pour composer les étapes cluster, inference, OSMO et workload dans un environnement Physical AI SDG reproductible, puis maintenez l'environnement observable et récupérable.
Règles d'exploitation
- Lisez uniquement les références de composant nécessaires pour la cible sélectionnée. Ne chargez pas tous les composants par défaut.
- Conservez le repo comme artefact durable. Corrigez la configuration ou les scripts validés, puis réexécutez. Ne récupérez pas une installation échouée avec des modifications ponctuelles non suivies.
- Exécutez les opérations mutantes cluster, OSMO, Helm, Terraform ou Azure via des scripts validés lorsqu'un script existe. Les diagnostics en lecture seule sont autorisés.
- Arrêtez-vous au premier portail rouge. Corrigez la couche propriétaire la plus basse dans cet ordre : config, script, puis guidance de skill.
- Dérivez les valeurs de l'environnement quand c'est possible. Demandez uniquement les valeurs qui ne peuvent pas être déduites, comme les clés API, le choix de cible ou les compromis de quota.
- Stockez les secrets dans
${REPO_ROOT}/.env. Les valeurs dérivées du cluster comme le stockage, la base de données, Redis et les noms de points de terminaison proviennent des sorties Terraform ou des requêtes de plateforme, pas de.env. - Preflight signifie pas d'état déployé : pas d'API cluster, sorties Terraform, releases Helm, pools OSMO ou état de workflow. Ceux-ci appartiennent aux portails deploy/verify.
- Ne jamais afficher, afficher ou coller les clés brutes dans les commandes, YAML, logs ou transcriptions. Préférez les handles d'informations d'identification, les
secretKeyRefKubernetes et l'injection de secrets au moment de l'exécution. Scannez les exports de transcription bruts avecscripts/scan_transcript_secrets.pyavant de partager. - Utilisez des chemins absolus. Dérivez la racine du repo avec
git rev-parse --show-toplevel.
Références de composant
Chaque composant réside dans cette skill pour que la pile ait un seul déclencheur canonical. Chargez la référence de composant uniquement quand la cible sélectionnée a besoin de cette tranche.
| Préoccupation | Charger | Ressources |
|---|---|---|
| Matrice de stage et anciennes notes de driver | components/driver/reference.md |
Aucune |
| Cluster MicroK8s | components/cluster-microk8s/reference.md |
components/cluster-microk8s/scripts/, components/cluster-microk8s/runtimeclass-nvidia-runc.yaml |
| Cluster Azure AKS | components/cluster-azure/reference.md |
components/cluster-azure/scripts/, components/cluster-azure/terraform/ |
| Inference NIM Operator | components/inference-nim-operator/reference.md |
components/inference-nim-operator/scripts/, components/inference-nim-operator/nims/ |
| Inference NVCF | components/inference-nvcf/reference.md |
components/inference-nvcf/scripts/ |
| Inference Azure AI Foundry | components/inference-azure/reference.md |
components/inference-azure/scripts/ |
| OSMO MicroK8s | components/osmo-k8s/reference.md |
components/osmo-k8s/scripts/, scripts de déploiement OSMO amont |
| OSMO Azure | components/osmo-azure/reference.md |
components/osmo-azure/scripts/, scripts de déploiement OSMO amont plus sorties Azure TF |
| Configuration d'accès Azure | components/azure-access/reference.md |
Aucune |
| Opérations CLI OSMO et workflow | components/osmo-cli/reference.md |
components/osmo-cli/scripts/, components/osmo-cli/references/, components/osmo-cli/agents/, components/osmo-cli/tests/ |
| Connexion appareil Azure OpenClaw | components/openclaw-azure-login/reference.md |
Aucune |
Fichiers de support OSMO CLI
Le composant OSMO CLI a des fichiers de support de deuxième niveau car sa surface de commande et de workflow est vaste. Chargez-les directement uniquement pour le cas indiqué.
| Fichier | Lisez quand |
|---|---|
components/osmo-cli/agents/workflow-expert.md |
Générer un sous-agent de génération de workflow ou d'échec de workflow. |
components/osmo-cli/agents/logs-reader.md |
Générer un sous-agent de résumé de logs pour les échecs de workflow OSMO. |
components/osmo-cli/references/cli-commands.md |
Les drapeaux OSMO CLI exacts, les payloads ou la syntaxe de commande sont nécessaires. |
components/osmo-cli/references/workflow-spec.md |
Le schéma YAML de workflow, les informations d'identification, les sorties ou les champs de fournisseur sont nécessaires. |
components/osmo-cli/references/workflow-patterns.md |
La conception multi-tâche, dépendance de données, Jinja, série ou workflow parallèle est nécessaire. |
components/osmo-cli/references/advanced-patterns.md |
Le checkpointing, le comportement retry/exit ou l'exclusion de nœud sont nécessaires. |
components/osmo-cli/tests/orchestrator-runtime-failure.md |
Valider ou déboguer le motif d'examen d'orchestration OSMO. |
Sélection de cible
Choisissez exactement une option par stage. Le stage 2 suit le stage 1.
- Kubernetes :
MicroK8souAzure - OSMO :
MicroK8s OSMOquand Kubernetes est MicroK8s,Azure OSMOquand Kubernetes est Azure - Inference :
NIM Operator,NVCF,Azure AI FoundryouNone - Workload : Video Data Augmentation, Defect Image Generation, NuRec Carline Adaptation, NRE, NCore, Asset Harvester ou workflow YAML personnalisé
Rejetez les combinaisons invalides avant le provisionnement :
| Cluster | NIM Operator | NVCF | Azure AI Foundry |
|---|---|---|---|
| MicroK8s | oui | oui | non, Foundry nécessite les identités Azure |
| Azure | oui | oui | oui |
Pour OpenClaw ou tout environnement chat uniquement qui ne peut pas ouvrir un navigateur, lisez components/openclaw-azure-login/reference.md avant les prérequis Azure. Pour toute cible Azure, lisez components/azure-access/reference.md avant les preflights de composant Azure.
Flux de configuration
- Confirmez les choix de cible et les exigences de calcul de workload.
- Chargez les références de composant sélectionnées.
- Résolvez les prérequis à l'avance, y compris les clés API, l'accès Azure, le CIDR de l'appelant, la quota GPU, la classe de stockage et les exigences de connexion OSMO.
- Exécutez
scripts/preflight.shpour chaque composant d'infrastructure sélectionné plus tout preflight CLI/workload OSMO avant le provisionnement ; construisez le plan de mise en œuvre à partir des résultats et arrêtez-vous sur le preflight rouge. - Déployez Kubernetes en premier. Rien d'autre ne démarre jusqu'au portail cluster vert.
- Déployez OSMO et inference après Kubernetes. Ceux-ci peuvent procéder en parallèle une fois le cluster existant, mais la soumission de workload attend les deux portails sélectionnés.
- Soumettez le workload uniquement après la vérification d'OSMO, des informations d'identification de stockage, du pool de calcul et des points de terminaison d'inference sélectionnés. Pour VDA, cela inclut
preflight_credentials.sh,pre_submit_guard.pyavec des valeurs--setrésolues, des préfixes de cache de modèle non vides et des tests de fumée de points de terminaison de namespace de workflow. - Surveillez jusqu'à la fin. En cas d'état de workflow échoué, inspectez les événements et les logs de
components/osmo-cli/reference.md; ne soumettez pas à nouveau à l'aveugle.
Découverte d'inference
Évitez le sur-déploiement de points de terminaison coûteux.
- Scannez la spec de workflow choisie et les valeurs par défaut pour les références de points de terminaison :
*.osmo-nims.svc.cluster.local,api.nvcf.nvidia.com/*,*.inference.ai.azure.comou*.cognitiveservices.azure.com. - Mappez chaque référence au backend sélectionné :
- NIM Operator : le nom du service doit correspondre à un répertoire sous
components/inference-nim-operator/nims/. - NVCF : l'URL de fonction ou l'ID de fonction doit être fourni par l'environnement.
- Azure AI Foundry : le nom du point de terminaison doit être déployé via
components/inference-azure/scripts/install.sh.
- NIM Operator : le nom du service doit correspondre à un répertoire sous
- Si le workflow a besoin d'une capacité que le backend sélectionné n'a pas, arrêtez et rapportez la non-correspondance. Ne substituez pas silencieusement un autre modèle.
Portails de vérification
Chaque stage a sa propre section Verify dans la référence du composant. Ces portails sont obligatoires :
| Stage | Portail |
|---|---|
| Kubernetes | API cluster accessible, nœuds Ready, capacité GPU publiée pour les chemins GPU, et les chemins CPU+NVCF ont runtimeclass/nvidia mappé à runc. |
| Inference | Chaque point de terminaison référencé par le workload est accessible. La readiness NIM utilise /v1/health/ready ; NVCF et Foundry nécessitent toujours des vérifications authentifiées spécifiques aux tâches. |
| OSMO | Pods OSMO Ready, pool ONLINE, watchdogs port-forward actifs, informations d'identification de stockage configurées et workflow verify-hello COMPLETED. |
| Workload | Les garde-corps de pré-soumission de workload sélectionnés réussissent avant la soumission. osmo workflow query <id> rapporte COMPLETED et chaque tâche est verte. Les états terminaux échoués nécessitent des événements et des logs avant la nouvelle tentative. |
Mise à l'échelle résiliente
- Dimensionnez le cluster à partir des besoins de workload avant le provisionnement. Pour Azure, vérifiez la quota CPU et GPU pour les familles VM sélectionnées avant
terraform apply. - Pour NIM Operator, déployez uniquement les NIMServices référencés par le workload. Chaque service épingle GPU et stockage de cache de modèle pour la durée de vie du cluster.
- Maintenez les schémas d'URL de stockage OSMO alignés avec le backend actif. MicroK8s local utilise MinIO, Azure utilise une configuration sauvegardée par Blob.
- Traitez Pending, Unknown, ImagePullBackOff, PVCs non liés ou 0 Ready replicas comme des échecs de couche. Enquêtez sur la planification, le stockage, les informations d'identification d'image et l'état de plateforme adjacent avant de réessayer la même commande.
- Pour les déploiements longs ou les watches de workflow, fournissez des mises à jour de battement cardiaque avec l'état actuel, le temps écoulé, la dernière observation utile et la prochaine vérification.
Routage de workload
- Video Data Augmentation : utilisez
skills/physical-ai-video-data-augmentation/SKILL.md. - Defect Image Generation : utilisez
skills/physical-ai-defect-image-generation/SKILL.md. - Adaptation carline NuRec : utilisez
skills/carline-adaptation/SKILL.md. - NRE, NCore et Asset Harvester vivent dans le catalogue NuRec canonical listée dans
skills/INDEX.md. - Workload personnalisé : soumettez le workflow YAML fourni via OSMO après vérification des demandes de ressources, des informations d'identification d'image, des informations d'identification de données et des URL d'inference.
Prompts d'évaluation et résultats
- Déclencheur positif : « Configurer une infrastructure Physical AI résiliente pour VDA sur Azure AKS avec NIM Operator. » Attendu : utilisez cette skill.
- Déclencheur négatif : « Résumer les logs de workflow OSMO récents pour cet ID de workflow. » Attendu : n'utilisez pas cette skill de configuration d'infrastructure sauf si la demande implique également la configuration, la mise à l'échelle, la validation ou la récupération de la pile d'infrastructure.
Dernière revue statique : 2026-05-26, les mots clés de description correspondent aux routes attendues ci-dessus.