Pipelines de données
Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.
| # | Skill | Source | Description | Maj | |
|---|---|---|---|---|---|
| 1 | delegating-to-otto | astronomer/agents | Déléguer des tâches complexes Airflow à l'agent Otto via l'Astro CLI. | 362 | 5j |
| 2 | cuopt-routing-api-python | nvidia/skills | Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt. | 85 | 5j |
| 3 | hf-cli | huggingface/skills | Gérer dépôts, fichiers et authentification sur le Hub Hugging Face via CLI. | 10 483 | 7j |
| 4 | using-dbt-index | dbt-labs/dbt-agent-skills | Interroger localement les artefacts dbt via une base DuckDB sans connexion entrepôt. | 494 | 8j |
| 5 | running-dbt-commands | dbt-labs/dbt-agent-skills | Exécuter des commandes dbt efficacement avec sélecteurs, prévisualisation et variables. | 494 | 8j |
| 6 | mini-context-graph | github/awesome-copilot | Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes. | 32 871 | 8j |
| 7 | setting-up-astro-project | astronomer/agents | Initialiser et configurer un projet Airflow avec l'Astro CLI. | 362 | 9j |
| 8 | airflow | astronomer/agents | Gérer, diagnostiquer et opérer des workflows Airflow via des commandes CLI dédiées. | 362 | 9j |
| 9 | data-analytics | elophanto/elophanto | Analyser des données, créer des dashboards et automatiser des rapports décisionnels. | 59 | 10j |
| 10 | data-engineering | elophanto/elophanto | Concevoir et opérer des pipelines de données fiables, scalables et observables à grande échelle. | 59 | 10j |
| 11 | sales-data-extraction | elophanto/elophanto | Surveiller des répertoires Excel et extraire automatiquement les métriques de vente normalisées. | 59 | 10j |
| 12 | airflow-hitl | astronomer/agents | Intégrer des points de validation humaine dans un DAG Airflow via des opérateurs déférables. | 362 | 13j |
| 13 | authoring-dags | astronomer/agents | Créer et valider des DAGs Airflow via le CLI af en suivant les bonnes pratiques. | 362 | 13j |
| 14 | debugging-dags | astronomer/agents | Diagnostiquer et résoudre les échecs de DAGs Airflow avec des actions correctives ciblées. | 362 | 13j |
| 15 | testing-dags | astronomer/agents | Tester, déboguer et corriger des DAGs Airflow via des cycles trigger-wait itératifs. | 362 | 13j |
| 16 | migrating-ai-sdk-to-common-ai | astronomer/agents | Migrer un projet Airflow de airflow-ai-sdk vers apache-airflow-providers-common-ai. | 362 | 13j |
| 17 | dag-factory | astronomer/agents | Générer des DAGs Apache Airflow déclarativement depuis des fichiers YAML avec dag-factory. | 362 | 16j |
| 18 | omni-to-databricks-metric-view | exploreomni/omni-agent-skills | Convertir un topic Omni en Databricks Metric View via CLI et YAML. | 16 | 20j |
| 19 | creating-mermaid-dbt-dag | dbt-labs/dbt-agent-skills | Générer un diagramme Mermaid visuel du DAG dbt d'un modèle donné. | 494 | 20j |
| 20 | migrating-dbt-core-to-fusion | dbt-labs/dbt-agent-skills | Trier et classer les erreurs de migration dbt pour guider leur résolution. | 494 | 20j |
| 21 | migrating-dbt-project-across-platforms | dbt-labs/dbt-agent-skills | Migrer un projet dbt entre plateformes de données avec validation automatisée. | 494 | 20j |
| 22 | chdb-datastore | clickhouse/agent-skills | Remplacer pandas par une alternative ClickHouse-backed, plus rapide et sans changer son code. | 425 | 29j |
| 23 | chdb-sql | clickhouse/agent-skills | Exécuter des requêtes SQL ClickHouse en Python sans serveur sur fichiers, bases et cloud. | 425 | 29j |
| 24 | dagster-expert | dagster-io/skills | Gérer des pipelines Dagster via CLI, assets, automatisation et intégrations externes. | 144 | 1mo |
| 25 | migrating-airflow-2-to-3 | astronomer/agents | Migrer des DAGs Airflow 2.x vers Airflow 3.x en corrigeant imports et API. | 362 | 1mo |
| 26 | logs-python | posthog/skills | Intégrer la collecte de logs PostHog dans des applications Python via OpenTelemetry. | 36 | 1mo |
| 27 | geofeed-tuner | github/awesome-copilot | Créer et optimiser des feeds de géolocalisation IP au format CSV selon RFC 8805. | 32 871 | 1mo |
| 28 | tinybird-python-sdk-guidelines | tinybirdco/tinybird-agent-skills | Définir et déployer des ressources Tinybird en Python via le SDK officiel. | 16 | 1mo |
| 29 | ml-pipeline-workflow | wshobson/agents | Orchestrer un pipeline MLOps complet de l'ingestion des données au déploiement en production. | 35 314 | 1mo |
| 30 | create-viz | anthropics/knowledge-work-plugins | Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques. | 12 099 | 2mo |
| 31 | using-dbt-for-analytics-engineering | dbt-labs/dbt-agent-skills | Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques. | 494 | 2mo |
| 32 | risk-metrics-calculation | wshobson/agents | Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille. | 35 314 | 2mo |
| 33 | projection-patterns | wshobson/agents | Construire des projections et read models pour systèmes event-sourced en CQRS. | 35 314 | 2mo |
| 34 | airflow-dag-patterns | wshobson/agents | Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement. | 35 314 | 2mo |
| 35 | data-quality-frameworks | wshobson/agents | Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats. | 35 314 | 2mo |
| 36 | spark-optimization | wshobson/agents | Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles. | 35 314 | 2mo |
| 37 | deep-agents-memory | langchain-ai/langchain-skills | Gérer la persistance de fichiers pour agents IA avec backends modulaires éphémères ou permanents. | 681 | 2mo |
| 38 | airflow-adapter | astronomer/agents | Assurer la compatibilité automatique entre les API Airflow 2.x et 3.x. | 362 | 2mo |
| 39 | bigquery-pipeline-audit | github/awesome-copilot | Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production. | 32 871 | 2mo |
| 40 | annotating-task-lineage | astronomer/agents | Annoter la lignée des tâches Airflow via les paramètres inlets et outlets. | 362 | 2mo |
| 41 | creating-openlineage-extractors | astronomer/agents | Créer des extracteurs OpenLineage personnalisés pour capturer la lignée des opérateurs Airflow. | 362 | 2mo |
| 42 | tracing-downstream-lineage | astronomer/agents | Cartographier l'impact en aval d'une modification pour éviter les ruptures en production. | 362 | 2mo |
| 43 | tracing-upstream-lineage | astronomer/agents | Retracer l'origine d'une donnée en cartographiant ses sources et dépendances upstream. | 362 | 2mo |
| 44 | dataverse-python-advanced-patterns | github/awesome-copilot | Générer du code Python production-ready pour interagir avec l'API Dataverse via son SDK. | 32 871 | 2mo |
| 45 | dataverse-python-production-code | github/awesome-copilot | Générer du code Python production-ready pour interagir avec l'API Dataverse. | 32 871 | 2mo |
| 46 | cosmos-dbt-fusion | astronomer/agents | Intégrer dbt Fusion avec Cosmos dans Airflow en suivant une checklist d'implémentation structurée. | 362 | 2mo |
| 47 | cosmos-dbt-core | astronomer/agents | Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale. | 362 | 2mo |
| 48 | analyzing-data | astronomer/agents | Interroger un entrepôt de données pour répondre à des questions métier. | 362 | 2mo |
| 49 | instrument-data-to-allotrope | anthropics/knowledge-work-plugins | Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS. | 12 099 | 3mo |
| 50 | nextflow-development | anthropics/knowledge-work-plugins | Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques. | 12 099 | 3mo |
À propos de cette sélection
L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.