Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

141 skills

# Skill Source Description Δ
1 cuopt-routing-api-python nvidia/skills Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt. 1 960 527
2 deepstream-dev nvidia/skills Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA. 1 960 527
3 dali-dynamic-mode nvidia/skills Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique. 1 960 527
4 aiq-research nvidia/skills Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies. 1 960 527
5 omniverse-cad-to-simready nvidia/skills Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré. 1 960 527
6 earth2studio-data-fetch nvidia/skills Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale. 1 960 527
7 accelerated-computing-cudf nvidia/skills Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF. 1 960 527
8 cupynumeric-hdf5 nvidia/skills Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle. 1 960 527
9 cupynumeric-parallel-data-load nvidia/skills Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué. 1 960 527
10 nemotron-retrieval-recipes nvidia/skills Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information. 1 960 527
11 nemo-data-designer-plugin nvidia/skills Générer un dataset synthétique personnalisé via la bibliothèque Data Designer. 1 960 527
12 dicom-metadata-extract nvidia/skills Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI. 1 960 527
13 dicom-series-preflight nvidia/skills Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON. 1 960 527
14 dicom-series-to-volume nvidia/skills Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON. 1 960 527
15 data-designer nvidia/skills Construire des datasets synthétiques personnalisés via une interface interactive ou automatique. 1 960 527
16 tao-analyze-gaps-visual-changenet nvidia/skills Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation. 1 960 527
17 tao-convert-dataset-format nvidia/skills Convertir des datasets DAFT entre formats supportés via la CLI tao-daft. 1 960 527
18 tao-generate-video-reasoning-annotations nvidia/skills Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées. 1 960 527
19 tao-route-visual-changenet-samples nvidia/skills Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable. 1 960 527
20 tao-validate-dataset-format nvidia/skills Valider un dataset DAFT avec tao-daft validate et interpréter les résultats. 1 960 527
21 nextflow-development anthropics/knowledge-work-plugins Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques. 22 079 452
22 single-cell-rna-qc anthropics/knowledge-work-plugins Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse. 22 079 452
23 instrument-data-to-allotrope anthropics/knowledge-work-plugins Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS. 22 079 452
24 create-viz anthropics/knowledge-work-plugins Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques. 22 079 452
25 bigquery-pipeline-audit github/awesome-copilot Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production. 35 826 388
26 mini-context-graph github/awesome-copilot Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes. 35 826 388
27 airflow-dag-patterns wshobson/agents Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement. 37 258 238
28 data-quality-frameworks wshobson/agents Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats. 37 258 238
29 spark-optimization wshobson/agents Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles. 37 258 238
30 risk-metrics-calculation wshobson/agents Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille. 37 258 238
31 upload-parity-experiments harbor-framework/harbor Publier des résultats d'expériences de parité Harbor sur Hugging Face via Git sparse checkout. 2 765 161
32 azure-ai-contentunderstanding-py microsoft/skills Extraire du contenu sémantique multimodal depuis documents, vidéos, audios et images. 2 624 26
33 creating-mermaid-dbt-dag dbt-labs/dbt-agent-skills Générer un diagramme Mermaid visuel du DAG dbt d'un modèle donné. 587 18
34 using-dbt-index dbt-labs/dbt-agent-skills Interroger localement les artefacts dbt via une base DuckDB sans connexion entrepôt. 587 18
35 migrating-dbt-core-to-fusion dbt-labs/dbt-agent-skills Trier et classer les erreurs de migration dbt pour guider leur résolution. 587 18
36 migrating-dbt-project-across-platforms dbt-labs/dbt-agent-skills Migrer un projet dbt entre plateformes de données avec validation automatisée. 587 18
37 running-dbt-commands dbt-labs/dbt-agent-skills Exécuter des commandes dbt efficacement avec sélecteurs, prévisualisation et variables. 587 18
38 using-dbt-for-analytics-engineering dbt-labs/dbt-agent-skills Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques. 587 18
39 chdb-datastore clickhouse/agent-skills Remplacer pandas par une alternative ClickHouse-backed, plus rapide et sans changer son code. 477 9
40 chdb-sql clickhouse/agent-skills Exécuter des requêtes SQL ClickHouse en Python sans serveur sur fichiers, bases et cloud. 477 9
41 dagster-expert dagster-io/skills Gérer des pipelines Dagster via CLI, assets, automatisation et intégrations externes. 175 6
42 airflow-adapter astronomer/agents Assurer la compatibilité automatique entre les API Airflow 2.x et 3.x. 393 2
43 airflow-hitl astronomer/agents Intégrer des points de validation humaine dans un DAG Airflow via des opérateurs déférables. 393 2
44 airflow astronomer/agents Gérer, diagnostiquer et opérer des workflows Airflow via des commandes CLI dédiées. 393 2
45 analyzing-data astronomer/agents Interroger un entrepôt de données pour répondre à des questions métier. 393 2
46 annotating-task-lineage astronomer/agents Annoter la lignée des tâches Airflow via les paramètres inlets et outlets. 393 2
47 authoring-dags astronomer/agents Créer et valider des DAGs Airflow via le CLI af en suivant les bonnes pratiques. 393 2
48 blueprint astronomer/agents Composer des DAGs Airflow en YAML via des templates Python réutilisables et validés. 393 2
49 cosmos-dbt-core astronomer/agents Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale. 393 2
50 cosmos-dbt-fusion astronomer/agents Intégrer dbt Fusion avec Cosmos dans Airflow en suivant une checklist d'implémentation structurée. 393 2

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.