Pipelines de données
Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.
| # | Skill | Source | Description | Maj | |
|---|---|---|---|---|---|
| 1 | omni-to-databricks-metric-view | exploreomni/omni-agent-skills | Convertir un topic Omni en Databricks Metric View via CLI et YAML. | 22 | 1j |
| 2 | cosmos-dbt-core | astronomer/agents | Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale. | 393 | 2j |
| 3 | tao-analyze-gaps-visual-changenet | nvidia/skills | Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation. | 1 960 | 5j |
| 4 | tao-convert-dataset-format | nvidia/skills | Convertir des datasets DAFT entre formats supportés via la CLI tao-daft. | 1 960 | 5j |
| 5 | tao-route-visual-changenet-samples | nvidia/skills | Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable. | 1 960 | 5j |
| 6 | tao-validate-dataset-format | nvidia/skills | Valider un dataset DAFT avec tao-daft validate et interpréter les résultats. | 1 960 | 5j |
| 7 | analyzing-data | astronomer/agents | Interroger un entrepôt de données pour répondre à des questions métier. | 393 | 5j |
| 8 | migrating-ai-sdk-to-common-ai | astronomer/agents | Migrer un projet Airflow de airflow-ai-sdk vers apache-airflow-providers-common-ai. | 393 | 5j |
| 9 | using-dbt-for-analytics-engineering | dbt-labs/dbt-agent-skills | Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques. | 587 | 11j |
| 10 | dali-dynamic-mode | nvidia/skills | Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique. | 1 960 | 11j |
| 11 | blueprint | astronomer/agents | Composer des DAGs Airflow en YAML via des templates Python réutilisables et validés. | 393 | 12j |
| 12 | tao-generate-video-reasoning-annotations | nvidia/skills | Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées. | 1 960 | 19j |
| 13 | nemo-data-designer-plugin | nvidia/skills | Générer un dataset synthétique personnalisé via la bibliothèque Data Designer. | 1 960 | 23j |
| 14 | data-designer | nvidia/skills | Construire des datasets synthétiques personnalisés via une interface interactive ou automatique. | 1 960 | 25j |
| 15 | ucsc-conservation-and-tfbs | mkurman/zorai | Récupérer les scores de conservation évolutive et sites TFBS via UCSC. | 315 | 26j |
| 16 | unibind-database | mkurman/zorai | Interroger la base de données UniBind pour explorer les interactions TF–ADN multi-espèces. | 315 | 26j |
| 17 | uniprot-database | mkurman/zorai | Interroger la base UniProt pour découvrir, récupérer et cartographier des données protéiques. | 315 | 26j |
| 18 | chembl-database | mkurman/zorai | Interroger la base ChEMBL pour récupérer données moléculaires, cibles et bioactivités. | 315 | 26j |
| 19 | clinical-trials-database | mkurman/zorai | Interroger la base ClinicalTrials.gov pour rechercher et filtrer des essais cliniques mondiaux. | 315 | 26j |
| 20 | clinvar-database | mkurman/zorai | Interroger la base ClinVar pour obtenir classifications cliniques et données de variants génomiques. | 315 | 26j |
| 21 | dbsnp-database | mkurman/zorai | Interroger la base dbSNP pour mapper, résoudre et récupérer des variants génomiques. | 315 | 26j |
| 22 | embl-ebi-ols | mkurman/zorai | Interroger et explorer des ontologies biologiques via l'API EBI OLS. | 315 | 26j |
| 23 | encode-ccres-database | mkurman/zorai | Interroger la base ENCODE pour identifier des éléments régulateurs non-codants via l'API SCREEN. | 315 | 26j |
| 24 | ensembl-database | mkurman/zorai | Interroger l'API Ensembl pour mapper, résoudre et récupérer des données génomiques. | 315 | 26j |
| 25 | gnomad-database | mkurman/zorai | Interroger la base gnomAD pour obtenir fréquences alléliques et contraintes géniques. | 315 | 26j |
| 26 | gtex-database | mkurman/zorai | Interroger la base GTEx pour obtenir expression génique et eQTLs par tissu. | 315 | 26j |
| 27 | human-protein-atlas-database | mkurman/zorai | Interroger la base Human Protein Atlas pour localiser et quantifier les protéines humaines. | 315 | 26j |
| 28 | interpro-database | mkurman/zorai | Interroger la base InterPro pour annoter et analyser des protéines et familles. | 315 | 26j |
| 29 | jaspar-database | mkurman/zorai | Interroger la base JASPAR pour identifier les motifs de liaison des facteurs de transcription. | 315 | 26j |
| 30 | literature-search-openalex | mkurman/zorai | Interroger l'API OpenAlex pour récupérer et filtrer des publications scientifiques. | 315 | 26j |
| 31 | ncbi-sequence-fetch | mkurman/zorai | Récupérer et traduire des séquences protéiques et nucléotidiques depuis NCBI via Entrez. | 315 | 26j |
| 32 | openfda-database | mkurman/zorai | Interroger les 28 endpoints de l'API openFDA pour rechercher des données réglementaires pharmaceutiques. | 315 | 26j |
| 33 | opentargets-database | mkurman/zorai | Interroger la plateforme Open Targets pour identifier gènes et associations cibles-maladies. | 315 | 26j |
| 34 | pdb-database | mkurman/zorai | Interroger la Protein Data Bank pour rechercher et analyser des structures moléculaires. | 315 | 26j |
| 35 | pubmed-database | mkurman/zorai | Interroger PubMed et PubMed Central via une CLI Python unifiée à dix fonctions. | 315 | 26j |
| 36 | reactome-database | mkurman/zorai | Analyser des voies biologiques et mapper des identifiants via la base Reactome. | 315 | 26j |
| 37 | string-database | mkurman/zorai | Interroger la base STRING pour analyser interactions protéiques et enrichissements fonctionnels. | 315 | 26j |
| 38 | dicom-metadata-extract | nvidia/skills | Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI. | 1 960 | 27j |
| 39 | dicom-series-preflight | nvidia/skills | Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON. | 1 960 | 27j |
| 40 | dicom-series-to-volume | nvidia/skills | Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON. | 1 960 | 27j |
| 41 | cupynumeric-parallel-data-load | nvidia/skills | Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué. | 1 960 | 28j |
| 42 | nemotron-retrieval-recipes | nvidia/skills | Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information. | 1 960 | 28j |
| 43 | cupynumeric-hdf5 | nvidia/skills | Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle. | 1 960 | 28j |
| 44 | accelerated-computing-cudf | nvidia/skills | Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF. | 1 960 | 28j |
| 45 | aiq-research | nvidia/skills | Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies. | 1 960 | 28j |
| 46 | earth2studio-data-fetch | nvidia/skills | Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale. | 1 960 | 29j |
| 47 | omniverse-cad-to-simready | nvidia/skills | Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré. | 1 960 | 29j |
| 48 | cuopt-routing-api-python | nvidia/skills | Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt. | 1 960 | 29j |
| 49 | deepstream-dev | nvidia/skills | Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA. | 1 960 | 1mo |
| 50 | debugging-dags | astronomer/agents | Diagnostiquer et résoudre les échecs de DAGs Airflow avec des actions correctives ciblées. | 393 | 1mo |
À propos de cette sélection
L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.