Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

205 skills

#	Skill	Source	Description		Δ
1	cuopt-routing-api-python	nvidia/skills	Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt.	1 970	18
2	routing-formulation	nvidia/skills	Formuler et structurer un problème de routage de véhicules (TSP, VRP, PDP).	1 970	18
3	video-analytics	nvidia/skills	Interroger incidents, alertes et métriques vidéo via Elasticsearch et MCP JSON-RPC.	1 970	18
4	deepstream-dev	nvidia/skills	Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA.	1 970	18
5	dali-dynamic-mode	nvidia/skills	Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique.	1 970	18
6	aiq-research	nvidia/skills	Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies.	1 970	18
7	cuopt-routing-formulation	nvidia/skills	Formuler et structurer un problème de routage de véhicules (TSP, VRP, PDP).	1 970	18
8	omniverse-cad-to-simready	nvidia/skills	Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré.	1 970	18
9	earth2studio-data-fetch	nvidia/skills	Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale.	1 970	18
10	accelerated-computing-cudf	nvidia/skills	Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF.	1 970	18
11	vss-query-analytics	nvidia/skills	Interroger les incidents, métriques et alertes Elasticsearch via le serveur VA-MCP en lecture seule.	1 970	18
12	vss-search-archive	nvidia/skills	Rechercher et ingérer des vidéos archivées ou flux RTSP par langage naturel via VSS.	1 970	18
13	cupynumeric-hdf5	nvidia/skills	Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle.	1 970	18
14	cupynumeric-parallel-data-load	nvidia/skills	Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué.	1 970	18
15	nemotron-retrieval-recipes	nvidia/skills	Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information.	1 970	18
16	nemo-data-designer-plugin	nvidia/skills	Générer un dataset synthétique personnalisé via la bibliothèque Data Designer.	1 970	18
17	dicom-metadata-extract	nvidia/skills	Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI.	1 970	18
18	dicom-series-preflight	nvidia/skills	Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON.	1 970	18
19	dicom-series-to-volume	nvidia/skills	Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON.	1 970	18
20	physical-ai-video-data-augmentation	nvidia/skills	Orchestrer un workflow VDA complet sur OSMO, du preflight au téléchargement des sorties.	1 970	18
21	physical-ai-defect-image-generation	nvidia/skills	Orchestrer des pipelines de génération, augmentation et labeling d'images de défauts pour l'inspection optique automatisée.	1 970	18
22	data-designer	nvidia/skills	Construire des datasets synthétiques personnalisés via une interface interactive ou automatique.	1 970	18
23	tao-analyze-gaps-visual-changenet	nvidia/skills	Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation.	1 970	18
24	tao-convert-dataset-format	nvidia/skills	Convertir des datasets DAFT entre formats supportés via la CLI tao-daft.	1 970	18
25	tao-generate-video-reasoning-annotations	nvidia/skills	Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées.	1 970	18
26	tao-route-visual-changenet-samples	nvidia/skills	Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable.	1 970	18
27	tao-validate-dataset-format	nvidia/skills	Valider un dataset DAFT avec tao-daft validate et interpréter les résultats.	1 970	18
28	arize-dataset	github/awesome-copilot	Gérer et exporter des datasets versionnés dans l'espace Arize via CLI.	35 830	5
29	power-bi-dax-optimization	github/awesome-copilot	Analyser et optimiser des formules DAX Power BI pour de meilleures performances.	35 830	5
30	power-bi-model-design-review	github/awesome-copilot	Auditer et optimiser la conception d'un modèle de données Power BI.	35 830	5
31	bigquery-pipeline-audit	github/awesome-copilot	Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production.	35 830	5
32	snowflake-semanticview	github/awesome-copilot	Créer, valider et déployer des vues sémantiques Snowflake avec synonymes et commentaires.	35 830	5
33	powerbi-modeling	github/awesome-copilot	Concevoir et optimiser des modèles sémantiques Power BI selon les bonnes pratiques Microsoft.	35 830	5
34	mini-context-graph	github/awesome-copilot	Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes.	35 830	5
35	nextflow-development	anthropics/knowledge-work-plugins	Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques.	22 080	4
36	single-cell-rna-qc	anthropics/knowledge-work-plugins	Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse.	22 080	4
37	analyze	anthropics/knowledge-work-plugins	Analyser des données et répondre à toute question métrique, de la simple requête au rapport formel.	22 080	4
38	instrument-data-to-allotrope	anthropics/knowledge-work-plugins	Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS.	22 080	4
39	create-viz	anthropics/knowledge-work-plugins	Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques.	22 080	4
40	data-context-extractor	anthropics/knowledge-work-plugins	Extraire le contexte métier d'analystes et générer des skills d'analyse de données sur mesure.	22 080	4
41	explore-data	anthropics/knowledge-work-plugins	Profiler un dataset pour révéler sa structure, qualité et patterns clés.	22 080	4
42	validate-data	anthropics/knowledge-work-plugins	Valider une analyse de données pour détecter erreurs, biais et incohérences avant partage.	22 080	4
43	search-strategy	anthropics/knowledge-work-plugins	Transformer une question en recherches parallèles multi-sources et synthétiser les résultats.	22 080	4
44	airflow-dag-patterns	wshobson/agents	Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement.	37 260	4
45	data-quality-frameworks	wshobson/agents	Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats.	37 260	4
46	dbt-transformation-patterns	wshobson/agents	Structurer et optimiser des pipelines de transformation dbt en couches analytiques.	37 260	4
47	spark-optimization	wshobson/agents	Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles.	37 260	4
48	risk-metrics-calculation	wshobson/agents	Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille.	37 260	4
49	recsys-pipeline-architect	wshobson/agents	Concevoir et scaffolder des pipelines de recommandation en six étapes pour tout système top-K.	37 260	4
50	upload-parity-experiments	harbor-framework/harbor	Publier des résultats d'expériences de parité Harbor sur Hugging Face via Git sparse checkout.	2 766	3

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.