Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

141 skills

#	Skill	Source	Description		Maj
1	omni-to-databricks-metric-view	exploreomni/omni-agent-skills	Convertir un topic Omni en Databricks Metric View via CLI et YAML.	22	1j
2	cosmos-dbt-core	astronomer/agents	Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale.	393	2j
3	tao-analyze-gaps-visual-changenet	nvidia/skills	Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation.	1 960	5j
4	tao-convert-dataset-format	nvidia/skills	Convertir des datasets DAFT entre formats supportés via la CLI tao-daft.	1 960	5j
5	tao-route-visual-changenet-samples	nvidia/skills	Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable.	1 960	5j
6	tao-validate-dataset-format	nvidia/skills	Valider un dataset DAFT avec tao-daft validate et interpréter les résultats.	1 960	5j
7	analyzing-data	astronomer/agents	Interroger un entrepôt de données pour répondre à des questions métier.	393	5j
8	migrating-ai-sdk-to-common-ai	astronomer/agents	Migrer un projet Airflow de airflow-ai-sdk vers apache-airflow-providers-common-ai.	393	5j
9	using-dbt-for-analytics-engineering	dbt-labs/dbt-agent-skills	Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques.	587	11j
10	dali-dynamic-mode	nvidia/skills	Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique.	1 960	11j
11	blueprint	astronomer/agents	Composer des DAGs Airflow en YAML via des templates Python réutilisables et validés.	393	12j
12	tao-generate-video-reasoning-annotations	nvidia/skills	Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées.	1 960	19j
13	nemo-data-designer-plugin	nvidia/skills	Générer un dataset synthétique personnalisé via la bibliothèque Data Designer.	1 960	23j
14	data-designer	nvidia/skills	Construire des datasets synthétiques personnalisés via une interface interactive ou automatique.	1 960	25j
15	ucsc-conservation-and-tfbs	mkurman/zorai	Récupérer les scores de conservation évolutive et sites TFBS via UCSC.	315	26j
16	unibind-database	mkurman/zorai	Interroger la base de données UniBind pour explorer les interactions TF–ADN multi-espèces.	315	26j
17	uniprot-database	mkurman/zorai	Interroger la base UniProt pour découvrir, récupérer et cartographier des données protéiques.	315	26j
18	chembl-database	mkurman/zorai	Interroger la base ChEMBL pour récupérer données moléculaires, cibles et bioactivités.	315	26j
19	clinical-trials-database	mkurman/zorai	Interroger la base ClinicalTrials.gov pour rechercher et filtrer des essais cliniques mondiaux.	315	26j
20	clinvar-database	mkurman/zorai	Interroger la base ClinVar pour obtenir classifications cliniques et données de variants génomiques.	315	26j
21	dbsnp-database	mkurman/zorai	Interroger la base dbSNP pour mapper, résoudre et récupérer des variants génomiques.	315	26j
22	embl-ebi-ols	mkurman/zorai	Interroger et explorer des ontologies biologiques via l'API EBI OLS.	315	26j
23	encode-ccres-database	mkurman/zorai	Interroger la base ENCODE pour identifier des éléments régulateurs non-codants via l'API SCREEN.	315	26j
24	ensembl-database	mkurman/zorai	Interroger l'API Ensembl pour mapper, résoudre et récupérer des données génomiques.	315	26j
25	gnomad-database	mkurman/zorai	Interroger la base gnomAD pour obtenir fréquences alléliques et contraintes géniques.	315	26j
26	gtex-database	mkurman/zorai	Interroger la base GTEx pour obtenir expression génique et eQTLs par tissu.	315	26j
27	human-protein-atlas-database	mkurman/zorai	Interroger la base Human Protein Atlas pour localiser et quantifier les protéines humaines.	315	26j
28	interpro-database	mkurman/zorai	Interroger la base InterPro pour annoter et analyser des protéines et familles.	315	26j
29	jaspar-database	mkurman/zorai	Interroger la base JASPAR pour identifier les motifs de liaison des facteurs de transcription.	315	26j
30	literature-search-openalex	mkurman/zorai	Interroger l'API OpenAlex pour récupérer et filtrer des publications scientifiques.	315	26j
31	ncbi-sequence-fetch	mkurman/zorai	Récupérer et traduire des séquences protéiques et nucléotidiques depuis NCBI via Entrez.	315	26j
32	openfda-database	mkurman/zorai	Interroger les 28 endpoints de l'API openFDA pour rechercher des données réglementaires pharmaceutiques.	315	26j
33	opentargets-database	mkurman/zorai	Interroger la plateforme Open Targets pour identifier gènes et associations cibles-maladies.	315	26j
34	pdb-database	mkurman/zorai	Interroger la Protein Data Bank pour rechercher et analyser des structures moléculaires.	315	26j
35	pubmed-database	mkurman/zorai	Interroger PubMed et PubMed Central via une CLI Python unifiée à dix fonctions.	315	26j
36	reactome-database	mkurman/zorai	Analyser des voies biologiques et mapper des identifiants via la base Reactome.	315	26j
37	string-database	mkurman/zorai	Interroger la base STRING pour analyser interactions protéiques et enrichissements fonctionnels.	315	26j
38	dicom-metadata-extract	nvidia/skills	Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI.	1 960	27j
39	dicom-series-preflight	nvidia/skills	Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON.	1 960	27j
40	dicom-series-to-volume	nvidia/skills	Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON.	1 960	27j
41	cupynumeric-parallel-data-load	nvidia/skills	Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué.	1 960	28j
42	nemotron-retrieval-recipes	nvidia/skills	Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information.	1 960	28j
43	cupynumeric-hdf5	nvidia/skills	Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle.	1 960	28j
44	accelerated-computing-cudf	nvidia/skills	Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF.	1 960	28j
45	aiq-research	nvidia/skills	Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies.	1 960	28j
46	earth2studio-data-fetch	nvidia/skills	Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale.	1 960	29j
47	omniverse-cad-to-simready	nvidia/skills	Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré.	1 960	29j
48	cuopt-routing-api-python	nvidia/skills	Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt.	1 960	29j
49	deepstream-dev	nvidia/skills	Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA.	1 960	1mo
50	debugging-dags	astronomer/agents	Diagnostiquer et résoudre les échecs de DAGs Airflow avec des actions correctives ciblées.	393	1mo

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.