Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

205 skills

#	Skill	Source	Description		Δ
1	cuopt-routing-api-python	nvidia/skills	Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt.	1 960	527
2	routing-formulation	nvidia/skills	Formuler et structurer un problème de routage de véhicules (TSP, VRP, PDP).	1 960	527
3	video-analytics	nvidia/skills	Interroger incidents, alertes et métriques vidéo via Elasticsearch et MCP JSON-RPC.	1 960	527
4	deepstream-dev	nvidia/skills	Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA.	1 960	527
5	dali-dynamic-mode	nvidia/skills	Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique.	1 960	527
6	aiq-research	nvidia/skills	Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies.	1 960	527
7	cuopt-routing-formulation	nvidia/skills	Formuler et structurer un problème de routage de véhicules (TSP, VRP, PDP).	1 960	527
8	omniverse-cad-to-simready	nvidia/skills	Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré.	1 960	527
9	earth2studio-data-fetch	nvidia/skills	Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale.	1 960	527
10	accelerated-computing-cudf	nvidia/skills	Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF.	1 960	527
11	vss-query-analytics	nvidia/skills	Interroger les incidents, métriques et alertes Elasticsearch via le serveur VA-MCP en lecture seule.	1 960	527
12	vss-search-archive	nvidia/skills	Rechercher et ingérer des vidéos archivées ou flux RTSP par langage naturel via VSS.	1 960	527
13	cupynumeric-hdf5	nvidia/skills	Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle.	1 960	527
14	cupynumeric-parallel-data-load	nvidia/skills	Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué.	1 960	527
15	nemotron-retrieval-recipes	nvidia/skills	Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information.	1 960	527
16	nemo-data-designer-plugin	nvidia/skills	Générer un dataset synthétique personnalisé via la bibliothèque Data Designer.	1 960	527
17	dicom-metadata-extract	nvidia/skills	Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI.	1 960	527
18	dicom-series-preflight	nvidia/skills	Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON.	1 960	527
19	dicom-series-to-volume	nvidia/skills	Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON.	1 960	527
20	physical-ai-video-data-augmentation	nvidia/skills	Orchestrer un workflow VDA complet sur OSMO, du preflight au téléchargement des sorties.	1 960	527
21	physical-ai-defect-image-generation	nvidia/skills	Orchestrer des pipelines de génération, augmentation et labeling d'images de défauts pour l'inspection optique automatisée.	1 960	527
22	data-designer	nvidia/skills	Construire des datasets synthétiques personnalisés via une interface interactive ou automatique.	1 960	527
23	tao-analyze-gaps-visual-changenet	nvidia/skills	Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation.	1 960	527
24	tao-convert-dataset-format	nvidia/skills	Convertir des datasets DAFT entre formats supportés via la CLI tao-daft.	1 960	527
25	tao-generate-video-reasoning-annotations	nvidia/skills	Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées.	1 960	527
26	tao-route-visual-changenet-samples	nvidia/skills	Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable.	1 960	527
27	tao-validate-dataset-format	nvidia/skills	Valider un dataset DAFT avec tao-daft validate et interpréter les résultats.	1 960	527
28	nextflow-development	anthropics/knowledge-work-plugins	Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques.	22 080	452
29	single-cell-rna-qc	anthropics/knowledge-work-plugins	Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse.	22 080	452
30	analyze	anthropics/knowledge-work-plugins	Analyser des données et répondre à toute question métrique, de la simple requête au rapport formel.	22 080	452
31	instrument-data-to-allotrope	anthropics/knowledge-work-plugins	Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS.	22 080	452
32	create-viz	anthropics/knowledge-work-plugins	Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques.	22 080	452
33	data-context-extractor	anthropics/knowledge-work-plugins	Extraire le contexte métier d'analystes et générer des skills d'analyse de données sur mesure.	22 080	452
34	explore-data	anthropics/knowledge-work-plugins	Profiler un dataset pour révéler sa structure, qualité et patterns clés.	22 080	452
35	validate-data	anthropics/knowledge-work-plugins	Valider une analyse de données pour détecter erreurs, biais et incohérences avant partage.	22 080	452
36	search-strategy	anthropics/knowledge-work-plugins	Transformer une question en recherches parallèles multi-sources et synthétiser les résultats.	22 080	452
37	arize-dataset	github/awesome-copilot	Gérer et exporter des datasets versionnés dans l'espace Arize via CLI.	35 830	388
38	power-bi-dax-optimization	github/awesome-copilot	Analyser et optimiser des formules DAX Power BI pour de meilleures performances.	35 830	388
39	power-bi-model-design-review	github/awesome-copilot	Auditer et optimiser la conception d'un modèle de données Power BI.	35 830	388
40	bigquery-pipeline-audit	github/awesome-copilot	Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production.	35 830	388
41	snowflake-semanticview	github/awesome-copilot	Créer, valider et déployer des vues sémantiques Snowflake avec synonymes et commentaires.	35 830	388
42	powerbi-modeling	github/awesome-copilot	Concevoir et optimiser des modèles sémantiques Power BI selon les bonnes pratiques Microsoft.	35 830	388
43	mini-context-graph	github/awesome-copilot	Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes.	35 830	388
44	airflow-dag-patterns	wshobson/agents	Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement.	37 258	238
45	data-quality-frameworks	wshobson/agents	Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats.	37 258	238
46	dbt-transformation-patterns	wshobson/agents	Structurer et optimiser des pipelines de transformation dbt en couches analytiques.	37 258	238
47	spark-optimization	wshobson/agents	Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles.	37 258	238
48	risk-metrics-calculation	wshobson/agents	Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille.	37 258	238
49	recsys-pipeline-architect	wshobson/agents	Concevoir et scaffolder des pipelines de recommandation en six étapes pour tout système top-K.	37 258	238
50	upload-parity-experiments	harbor-framework/harbor	Publier des résultats d'expériences de parité Harbor sur Hugging Face via Git sparse checkout.	2 765	161

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.