Traduction en cours…
cutile-autotuning
Par nvidia · skills
À utiliser lors de l'ajout, la modification, l'optimisation ou le débogage de code d'autotuning CuTile. Signaux déclencheurs : `exhaustive_search` / `replace_hints` / `hints_fn` / `cuda.tile.tune` dans le code, `autotune` dans les noms de fichiers, ou problèmes de correction/performance dans des kernels CuTile autotuned. Couvre : le pattern tune-once/cache/launch, les configurations par architecture (sm80–sm120), la conception de l'espace de paramètres (tailles de tuiles, occupancy, num_ctas), et 7 pièges courants avec leurs solutions.
npx skills add https://github.com/nvidia/skills --skill cutile-autotuning
Skills similaires
Optimiser itérativement les performances d'un kernel cuTile via profilage et benchmarking systématiques.
Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute.
Concevoir un modèle de données Azure Cosmos DB NoSQL adapté aux besoins applicatifs.
Construire des processus en mémoire haute performance sur le runtime d'acteurs Rivet.
Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM.