Pipelines de données
Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.
| # | Skill | Source | Description | Δ | |
|---|---|---|---|---|---|
| 1 | cuopt-routing-api-python | nvidia/skills | Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt. | 1 960 | 527 |
| 2 | deepstream-dev | nvidia/skills | Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA. | 1 960 | 527 |
| 3 | dali-dynamic-mode | nvidia/skills | Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique. | 1 960 | 527 |
| 4 | aiq-research | nvidia/skills | Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies. | 1 960 | 527 |
| 5 | omniverse-cad-to-simready | nvidia/skills | Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré. | 1 960 | 527 |
| 6 | earth2studio-data-fetch | nvidia/skills | Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale. | 1 960 | 527 |
| 7 | accelerated-computing-cudf | nvidia/skills | Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF. | 1 960 | 527 |
| 8 | cupynumeric-hdf5 | nvidia/skills | Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle. | 1 960 | 527 |
| 9 | cupynumeric-parallel-data-load | nvidia/skills | Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué. | 1 960 | 527 |
| 10 | nemotron-retrieval-recipes | nvidia/skills | Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information. | 1 960 | 527 |
| 11 | nemo-data-designer-plugin | nvidia/skills | Générer un dataset synthétique personnalisé via la bibliothèque Data Designer. | 1 960 | 527 |
| 12 | dicom-metadata-extract | nvidia/skills | Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI. | 1 960 | 527 |
| 13 | dicom-series-preflight | nvidia/skills | Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON. | 1 960 | 527 |
| 14 | dicom-series-to-volume | nvidia/skills | Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON. | 1 960 | 527 |
| 15 | data-designer | nvidia/skills | Construire des datasets synthétiques personnalisés via une interface interactive ou automatique. | 1 960 | 527 |
| 16 | tao-analyze-gaps-visual-changenet | nvidia/skills | Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation. | 1 960 | 527 |
| 17 | tao-convert-dataset-format | nvidia/skills | Convertir des datasets DAFT entre formats supportés via la CLI tao-daft. | 1 960 | 527 |
| 18 | tao-generate-video-reasoning-annotations | nvidia/skills | Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées. | 1 960 | 527 |
| 19 | tao-route-visual-changenet-samples | nvidia/skills | Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable. | 1 960 | 527 |
| 20 | tao-validate-dataset-format | nvidia/skills | Valider un dataset DAFT avec tao-daft validate et interpréter les résultats. | 1 960 | 527 |
| 21 | nextflow-development | anthropics/knowledge-work-plugins | Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques. | 22 079 | 452 |
| 22 | single-cell-rna-qc | anthropics/knowledge-work-plugins | Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse. | 22 079 | 452 |
| 23 | instrument-data-to-allotrope | anthropics/knowledge-work-plugins | Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS. | 22 079 | 452 |
| 24 | create-viz | anthropics/knowledge-work-plugins | Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques. | 22 079 | 452 |
| 25 | bigquery-pipeline-audit | github/awesome-copilot | Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production. | 35 826 | 388 |
| 26 | mini-context-graph | github/awesome-copilot | Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes. | 35 826 | 388 |
| 27 | airflow-dag-patterns | wshobson/agents | Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement. | 37 258 | 238 |
| 28 | data-quality-frameworks | wshobson/agents | Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats. | 37 258 | 238 |
| 29 | spark-optimization | wshobson/agents | Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles. | 37 258 | 238 |
| 30 | risk-metrics-calculation | wshobson/agents | Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille. | 37 258 | 238 |
| 31 | upload-parity-experiments | harbor-framework/harbor | Publier des résultats d'expériences de parité Harbor sur Hugging Face via Git sparse checkout. | 2 765 | 161 |
| 32 | azure-ai-contentunderstanding-py | microsoft/skills | Extraire du contenu sémantique multimodal depuis documents, vidéos, audios et images. | 2 624 | 26 |
| 33 | creating-mermaid-dbt-dag | dbt-labs/dbt-agent-skills | Générer un diagramme Mermaid visuel du DAG dbt d'un modèle donné. | 587 | 18 |
| 34 | using-dbt-index | dbt-labs/dbt-agent-skills | Interroger localement les artefacts dbt via une base DuckDB sans connexion entrepôt. | 587 | 18 |
| 35 | migrating-dbt-core-to-fusion | dbt-labs/dbt-agent-skills | Trier et classer les erreurs de migration dbt pour guider leur résolution. | 587 | 18 |
| 36 | migrating-dbt-project-across-platforms | dbt-labs/dbt-agent-skills | Migrer un projet dbt entre plateformes de données avec validation automatisée. | 587 | 18 |
| 37 | running-dbt-commands | dbt-labs/dbt-agent-skills | Exécuter des commandes dbt efficacement avec sélecteurs, prévisualisation et variables. | 587 | 18 |
| 38 | using-dbt-for-analytics-engineering | dbt-labs/dbt-agent-skills | Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques. | 587 | 18 |
| 39 | chdb-datastore | clickhouse/agent-skills | Remplacer pandas par une alternative ClickHouse-backed, plus rapide et sans changer son code. | 477 | 9 |
| 40 | chdb-sql | clickhouse/agent-skills | Exécuter des requêtes SQL ClickHouse en Python sans serveur sur fichiers, bases et cloud. | 477 | 9 |
| 41 | dagster-expert | dagster-io/skills | Gérer des pipelines Dagster via CLI, assets, automatisation et intégrations externes. | 175 | 6 |
| 42 | airflow-adapter | astronomer/agents | Assurer la compatibilité automatique entre les API Airflow 2.x et 3.x. | 393 | 2 |
| 43 | airflow-hitl | astronomer/agents | Intégrer des points de validation humaine dans un DAG Airflow via des opérateurs déférables. | 393 | 2 |
| 44 | airflow | astronomer/agents | Gérer, diagnostiquer et opérer des workflows Airflow via des commandes CLI dédiées. | 393 | 2 |
| 45 | analyzing-data | astronomer/agents | Interroger un entrepôt de données pour répondre à des questions métier. | 393 | 2 |
| 46 | annotating-task-lineage | astronomer/agents | Annoter la lignée des tâches Airflow via les paramètres inlets et outlets. | 393 | 2 |
| 47 | authoring-dags | astronomer/agents | Créer et valider des DAGs Airflow via le CLI af en suivant les bonnes pratiques. | 393 | 2 |
| 48 | blueprint | astronomer/agents | Composer des DAGs Airflow en YAML via des templates Python réutilisables et validés. | 393 | 2 |
| 49 | cosmos-dbt-core | astronomer/agents | Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale. | 393 | 2 |
| 50 | cosmos-dbt-fusion | astronomer/agents | Intégrer dbt Fusion avec Cosmos dans Airflow en suivant une checklist d'implémentation structurée. | 393 | 2 |
À propos de cette sélection
L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.