Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

141 skills

#	Skill	Source	Description		Δ
1	cuopt-routing-api-python	nvidia/skills	Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt.	1 960	527
2	deepstream-dev	nvidia/skills	Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA.	1 960	527
3	dali-dynamic-mode	nvidia/skills	Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique.	1 960	527
4	aiq-research	nvidia/skills	Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies.	1 960	527
5	omniverse-cad-to-simready	nvidia/skills	Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré.	1 960	527
6	earth2studio-data-fetch	nvidia/skills	Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale.	1 960	527
7	accelerated-computing-cudf	nvidia/skills	Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF.	1 960	527
8	cupynumeric-hdf5	nvidia/skills	Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle.	1 960	527
9	cupynumeric-parallel-data-load	nvidia/skills	Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué.	1 960	527
10	nemotron-retrieval-recipes	nvidia/skills	Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information.	1 960	527
11	nemo-data-designer-plugin	nvidia/skills	Générer un dataset synthétique personnalisé via la bibliothèque Data Designer.	1 960	527
12	dicom-metadata-extract	nvidia/skills	Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI.	1 960	527
13	dicom-series-preflight	nvidia/skills	Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON.	1 960	527
14	dicom-series-to-volume	nvidia/skills	Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON.	1 960	527
15	data-designer	nvidia/skills	Construire des datasets synthétiques personnalisés via une interface interactive ou automatique.	1 960	527
16	tao-analyze-gaps-visual-changenet	nvidia/skills	Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation.	1 960	527
17	tao-convert-dataset-format	nvidia/skills	Convertir des datasets DAFT entre formats supportés via la CLI tao-daft.	1 960	527
18	tao-generate-video-reasoning-annotations	nvidia/skills	Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées.	1 960	527
19	tao-route-visual-changenet-samples	nvidia/skills	Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable.	1 960	527
20	tao-validate-dataset-format	nvidia/skills	Valider un dataset DAFT avec tao-daft validate et interpréter les résultats.	1 960	527
21	nextflow-development	anthropics/knowledge-work-plugins	Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques.	22 079	452
22	single-cell-rna-qc	anthropics/knowledge-work-plugins	Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse.	22 079	452
23	instrument-data-to-allotrope	anthropics/knowledge-work-plugins	Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS.	22 079	452
24	create-viz	anthropics/knowledge-work-plugins	Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques.	22 079	452
25	bigquery-pipeline-audit	github/awesome-copilot	Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production.	35 826	388
26	mini-context-graph	github/awesome-copilot	Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes.	35 826	388
27	airflow-dag-patterns	wshobson/agents	Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement.	37 258	238
28	data-quality-frameworks	wshobson/agents	Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats.	37 258	238
29	spark-optimization	wshobson/agents	Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles.	37 258	238
30	risk-metrics-calculation	wshobson/agents	Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille.	37 258	238
31	upload-parity-experiments	harbor-framework/harbor	Publier des résultats d'expériences de parité Harbor sur Hugging Face via Git sparse checkout.	2 765	161
32	azure-ai-contentunderstanding-py	microsoft/skills	Extraire du contenu sémantique multimodal depuis documents, vidéos, audios et images.	2 624	26
33	creating-mermaid-dbt-dag	dbt-labs/dbt-agent-skills	Générer un diagramme Mermaid visuel du DAG dbt d'un modèle donné.	587	18
34	using-dbt-index	dbt-labs/dbt-agent-skills	Interroger localement les artefacts dbt via une base DuckDB sans connexion entrepôt.	587	18
35	migrating-dbt-core-to-fusion	dbt-labs/dbt-agent-skills	Trier et classer les erreurs de migration dbt pour guider leur résolution.	587	18
36	migrating-dbt-project-across-platforms	dbt-labs/dbt-agent-skills	Migrer un projet dbt entre plateformes de données avec validation automatisée.	587	18
37	running-dbt-commands	dbt-labs/dbt-agent-skills	Exécuter des commandes dbt efficacement avec sélecteurs, prévisualisation et variables.	587	18
38	using-dbt-for-analytics-engineering	dbt-labs/dbt-agent-skills	Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques.	587	18
39	chdb-datastore	clickhouse/agent-skills	Remplacer pandas par une alternative ClickHouse-backed, plus rapide et sans changer son code.	477	9
40	chdb-sql	clickhouse/agent-skills	Exécuter des requêtes SQL ClickHouse en Python sans serveur sur fichiers, bases et cloud.	477	9
41	dagster-expert	dagster-io/skills	Gérer des pipelines Dagster via CLI, assets, automatisation et intégrations externes.	175	6
42	airflow-adapter	astronomer/agents	Assurer la compatibilité automatique entre les API Airflow 2.x et 3.x.	393	2
43	airflow-hitl	astronomer/agents	Intégrer des points de validation humaine dans un DAG Airflow via des opérateurs déférables.	393	2
44	airflow	astronomer/agents	Gérer, diagnostiquer et opérer des workflows Airflow via des commandes CLI dédiées.	393	2
45	analyzing-data	astronomer/agents	Interroger un entrepôt de données pour répondre à des questions métier.	393	2
46	annotating-task-lineage	astronomer/agents	Annoter la lignée des tâches Airflow via les paramètres inlets et outlets.	393	2
47	authoring-dags	astronomer/agents	Créer et valider des DAGs Airflow via le CLI af en suivant les bonnes pratiques.	393	2
48	blueprint	astronomer/agents	Composer des DAGs Airflow en YAML via des templates Python réutilisables et validés.	393	2
49	cosmos-dbt-core	astronomer/agents	Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale.	393	2
50	cosmos-dbt-fusion	astronomer/agents	Intégrer dbt Fusion avec Cosmos dans Airflow en suivant une checklist d'implémentation structurée.	393	2

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.