Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

225 skills

#	Skill	Source	Description
1	airflow-dag-patterns	wshobson/agents	Orchestrer des pipelines de données Apache Airflow avec patterns, opérateurs et déploiement.	38 402
2	data-quality-frameworks	wshobson/agents	Implémenter des frameworks de qualité de données avec Great Expectations, dbt et contrats.	38 402
3	dbt-transformation-patterns	wshobson/agents	Structurer et optimiser des pipelines de transformation dbt en couches analytiques.	38 402
4	recsys-pipeline-architect	wshobson/agents	Concevoir et scaffolder des pipelines de recommandation en six étapes pour tout système top-K.	38 402
5	risk-metrics-calculation	wshobson/agents	Calculer la VaR, CVaR et métriques de risque pour la gestion de portefeuille.	38 402
6	spark-optimization	wshobson/agents	Optimiser les jobs Apache Spark avec partitionnement, mémoire et gestion des shuffles.	38 402
7	arize-dataset	github/awesome-copilot	Gérer et exporter des datasets versionnés dans l'espace Arize via CLI.	37 302
8	bigquery-pipeline-audit	github/awesome-copilot	Auditer un pipeline BigQuery pour coûts, sécurité et fiabilité en production.	37 302
9	mini-context-graph	github/awesome-copilot	Construire et interroger un graphe de connaissances persistant combinant wiki, entités et sources brutes.	37 302
10	power-bi-dax-optimization	github/awesome-copilot	Analyser et optimiser des formules DAX Power BI pour de meilleures performances.	37 302
11	power-bi-model-design-review	github/awesome-copilot	Auditer et optimiser la conception d'un modèle de données Power BI.	37 302
12	powerbi-modeling	github/awesome-copilot	Concevoir et optimiser des modèles sémantiques Power BI selon les bonnes pratiques Microsoft.	37 302
13	snowflake-semanticview	github/awesome-copilot	Créer, valider et déployer des vues sémantiques Snowflake avec synonymes et commentaires.	37 302
14	analyze	anthropics/knowledge-work-plugins	Analyser des données et répondre à toute question métrique, de la simple requête au rapport formel.	23 208
15	create-viz	anthropics/knowledge-work-plugins	Générer des visualisations de données professionnelles avec Python selon les meilleures pratiques.	23 208
16	explore-data	anthropics/knowledge-work-plugins	Profiler un dataset pour révéler sa structure, qualité et patterns clés.	23 208
17	instrument-data-to-allotrope	anthropics/knowledge-work-plugins	Convertir des fichiers instruments au format standardisé Allotrope Simple Model pour LIMS.	23 208
18	nextflow-development	anthropics/knowledge-work-plugins	Déployer et exécuter des pipelines bioinformatiques nf-core sur données locales ou publiques.	23 208
19	single-cell-rna-qc	anthropics/knowledge-work-plugins	Automatiser le contrôle qualité de données single-cell RNA-seq selon les bonnes pratiques scverse.	23 208
20	start	anthropics/knowledge-work-plugins	Orienter un chercheur en biologie vers les outils et workflows disponibles du plugin bio-recherche.	23 208
21	validate-data	anthropics/knowledge-work-plugins	Valider une analyse de données pour détecter erreurs, biais et incohérences avant partage.	23 208
22	huggingface-datasets	huggingface/skills	Explorer et extraire des données de datasets Hugging Face via l'API Dataset Viewer.	10 885
23	huggingface-tool-builder	huggingface/skills	Créer des scripts CLI réutilisables pour interagir avec l'API Hugging Face.	10 885
24	upload-parity-experiments	harbor-framework/harbor	Publier des résultats d'expériences de parité Harbor sur Hugging Face via Git sparse checkout.	3 712
25	azure-ai-contentunderstanding-py	microsoft/skills	Extraire du contenu sémantique multimodal depuis documents, vidéos, audios et images.	2 844
26	accelerated-computing-cudf	nvidia/skills	Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF.	2 747
27	aiq-research	nvidia/skills	Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies.	2 747
28	amc-run-video-calibration	nvidia/skills	Calibrer des vidéos MP4 pré-enregistrées via l'API REST AMC sans scripts CLI.	2 747
29	cuopt-multi-objective-exploration	nvidia/skills	Tracer une frontière de Pareto multi-objectifs via des solves cuOpt successifs.	2 747
30	cuopt-routing-api-python	nvidia/skills	Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt.	2 747
31	cupynumeric-hdf5	nvidia/skills	Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle.	2 747
32	cupynumeric-parallel-data-load	nvidia/skills	Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué.	2 747
33	dali-dynamic-mode	nvidia/skills	Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique.	2 747
34	data-designer	nvidia/skills	Construire des datasets synthétiques personnalisés via une interface interactive ou automatique.	2 747
35	deepstream-dev	nvidia/skills	Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA.	2 747
36	dicom-metadata-extract	nvidia/skills	Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI.	2 747
37	dicom-series-preflight	nvidia/skills	Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON.	2 747
38	dicom-series-to-volume	nvidia/skills	Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON.	2 747
39	earth2studio-create-datasource	nvidia/skills	Implémenter de bout en bout un wrapper de source de données pour Earth2Studio.	2 747
40	earth2studio-data-fetch	nvidia/skills	Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale.	2 747
41	i4h-catheter-navigation-digital-twin	nvidia/skills	Construire un jumeau numérique vasculaire à partir d'un volume CT segmenté.	2 747
42	i4h-lerobot-viz	nvidia/skills	Lancer le visualiseur HTML interactif d'un dataset LeRobot converti dans le navigateur.	2 747
43	i4h-workflow-dataset-convert	nvidia/skills	Convertir un enregistrement HDF5 agentic en dataset LeRobot prêt à l'entraînement.	2 747
44	i4h-workflow-dataset-mimic	nvidia/skills	Augmenter un dataset HDF5 en répliquant des trajectoires avec bruit d'action et d'état.	2 747
45	i4h-workflow-dataset-replay	nvidia/skills	Rejouer un épisode HDF5 enregistré dans Isaac Sim pour vérification visuelle.	2 747
46	i4h-workflow-dataset-teleop	nvidia/skills	Enregistrer des épisodes de télé-opération robotique en démos HDF5 via clavier, bras leader ou VR.	2 747
47	nemo-data-designer-plugin	nvidia/skills	Générer un dataset synthétique personnalisé via la bibliothèque Data Designer.	2 747
48	nemotron-retrieval-recipes	nvidia/skills	Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information.	2 747
49	omniverse-cad-to-simready	nvidia/skills	Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré.	2 747
50	physical-ai-defect-image-generation	nvidia/skills	Orchestrer des pipelines de génération, augmentation et labeling d'images de défauts pour l'inspection optique automatisée.	2 747

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.