Pipelines de données
Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.
| # | Skill | Source | Description | ||
|---|---|---|---|---|---|
| 1 | airflow-dag-patterns | wshobson/agents | Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement. | 36 831 | |
| 2 | data-quality-frameworks | wshobson/agents | Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats. | 36 831 | |
| 3 | dbt-transformation-patterns | wshobson/agents | Structurer et optimiser des pipelines de transformation dbt en couches analytiques. | 36 831 | |
| 4 | recsys-pipeline-architect | wshobson/agents | Concevoir et scaffolder des pipelines de recommandation en six étapes pour tout système top-K. | 36 831 | |
| 5 | risk-metrics-calculation | wshobson/agents | Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille. | 36 831 | |
| 6 | spark-optimization | wshobson/agents | Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles. | 36 831 | |
| 7 | arize-dataset | github/awesome-copilot | Gérer et exporter des datasets versionnés dans l'espace Arize via CLI. | 35 126 | |
| 8 | bigquery-pipeline-audit | github/awesome-copilot | Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production. | 35 126 | |
| 9 | mini-context-graph | github/awesome-copilot | Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes. | 35 126 | |
| 10 | power-bi-dax-optimization | github/awesome-copilot | Analyser et optimiser des formules DAX Power BI pour de meilleures performances. | 35 126 | |
| 11 | power-bi-model-design-review | github/awesome-copilot | Auditer et optimiser la conception d'un modèle de données Power BI. | 35 126 | |
| 12 | powerbi-modeling | github/awesome-copilot | Concevoir et optimiser des modèles sémantiques Power BI selon les bonnes pratiques Microsoft. | 35 126 | |
| 13 | snowflake-semanticview | github/awesome-copilot | Créer, valider et déployer des vues sémantiques Snowflake avec synonymes et commentaires. | 35 126 | |
| 14 | analyze | anthropics/knowledge-work-plugins | Analyser des données et répondre à toute question métrique, de la simple requête au rapport formel. | 20 885 | |
| 15 | create-viz | anthropics/knowledge-work-plugins | Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques. | 20 885 | |
| 16 | data-context-extractor | anthropics/knowledge-work-plugins | Extraire le contexte métier d'analystes et générer des skills d'analyse de données sur mesure. | 20 885 | |
| 17 | explore-data | anthropics/knowledge-work-plugins | Profiler un dataset pour révéler sa structure, qualité et patterns clés. | 20 885 | |
| 18 | instrument-data-to-allotrope | anthropics/knowledge-work-plugins | Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS. | 20 885 | |
| 19 | nextflow-development | anthropics/knowledge-work-plugins | Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques. | 20 885 | |
| 20 | search-strategy | anthropics/knowledge-work-plugins | Transformer une question en recherches parallèles multi-sources et synthétiser les résultats. | 20 885 | |
| 21 | single-cell-rna-qc | anthropics/knowledge-work-plugins | Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse. | 20 885 | |
| 22 | validate-data | anthropics/knowledge-work-plugins | Valider une analyse de données pour détecter erreurs, biais et incohérences avant partage. | 20 885 | |
| 23 | huggingface-datasets | huggingface/skills | Explorer et extraire des données de datasets Hugging Face via l'API Dataset Viewer. | 10 680 | |
| 24 | huggingface-tool-builder | huggingface/skills | Créer des scripts CLI réutilisables pour interagir avec l'API Hugging Face. | 10 680 | |
| 25 | azure-ai-contentunderstanding-py | microsoft/skills | Extraire du contenu sémantique multimodal depuis documents, vidéos, audios et images. | 2 568 | |
| 26 | upload-parity-experiments | harbor-framework/harbor | Publier des résultats d'expériences de parité Harbor sur Hugging Face via Git sparse checkout. | 2 483 | |
| 27 | video-analytics | nvidia-ai-blueprints/video-search-and-summarization | Interroger incidents, alertes et métriques vidéo via Elasticsearch et MCP JSON-RPC. | 1 556 | |
| 28 | vss-frag | nvidia-ai-blueprints/video-search-and-summarization | Analyser des vidéos avec RAG d'entreprise pour générer des rapports enrichis. | 1 556 | |
| 29 | accelerated-computing-cudf | nvidia/skills | Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF. | 1 285 | |
| 30 | aiq-research | nvidia/skills | Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies. | 1 285 | |
| 31 | cuopt-routing-api-python | nvidia/skills | Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt. | 1 285 | |
| 32 | cuopt-routing-formulation | nvidia/skills | Formuler et structurer un problème de routage de véhicules (TSP, VRP, PDP). | 1 285 | |
| 33 | cupynumeric-hdf5 | nvidia/skills | Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle. | 1 285 | |
| 34 | cupynumeric-parallel-data-load | nvidia/skills | Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué. | 1 285 | |
| 35 | dali-dynamic-mode | nvidia/skills | Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique. | 1 285 | |
| 36 | data-designer | nvidia/skills | Construire des datasets synthétiques personnalisés via une interface interactive ou automatique. | 1 285 | |
| 37 | deepstream-dev | nvidia/skills | Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA. | 1 285 | |
| 38 | dicom-metadata-extract | nvidia/skills | Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI. | 1 285 | |
| 39 | dicom-series-preflight | nvidia/skills | Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON. | 1 285 | |
| 40 | dicom-series-to-volume | nvidia/skills | Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON. | 1 285 | |
| 41 | earth2studio-data-fetch | nvidia/skills | Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale. | 1 285 | |
| 42 | earth2studio-deterministic-forecast | nvidia/skills | Générer des scripts de prévision météo déterministe avec Earth2Studio. | 1 285 | |
| 43 | nemo-data-designer-plugin | nvidia/skills | Générer un dataset synthétique personnalisé via la bibliothèque Data Designer. | 1 285 | |
| 44 | nemotron-retrieval-recipes | nvidia/skills | Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information. | 1 285 | |
| 45 | physical-ai-defect-image-generation | nvidia/skills | Orchestrer des pipelines de génération, augmentation et labeling d'images de défauts pour l'inspection optique automatisée. | 1 285 | |
| 46 | physical-ai-video-data-augmentation | nvidia/skills | Orchestrer un workflow VDA complet sur OSMO, du preflight au téléchargement des sorties. | 1 285 | |
| 47 | routing-formulation | nvidia/skills | Formuler et structurer un problème de routage de véhicules (TSP, VRP, PDP). | 1 285 | |
| 48 | tao-analyze-gaps-visual-changenet | nvidia/skills | Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation. | 1 285 | |
| 49 | tao-convert-dataset-format | nvidia/skills | Convertir des datasets DAFT entre formats supportés via la CLI tao-daft. | 1 285 | |
| 50 | tao-generate-video-reasoning-annotations | nvidia/skills | Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées. | 1 285 |
À propos de cette sélection
L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.