Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

141 skills

# Skill Source Description Maj
1 omni-to-databricks-metric-view exploreomni/omni-agent-skills Convertir un topic Omni en Databricks Metric View via CLI et YAML. 22 1j
2 cosmos-dbt-core astronomer/agents Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale. 393 2j
3 tao-analyze-gaps-visual-changenet nvidia/skills Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation. 1 960 5j
4 tao-convert-dataset-format nvidia/skills Convertir des datasets DAFT entre formats supportés via la CLI tao-daft. 1 960 5j
5 tao-route-visual-changenet-samples nvidia/skills Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable. 1 960 5j
6 tao-validate-dataset-format nvidia/skills Valider un dataset DAFT avec tao-daft validate et interpréter les résultats. 1 960 5j
7 analyzing-data astronomer/agents Interroger un entrepôt de données pour répondre à des questions métier. 393 5j
8 migrating-ai-sdk-to-common-ai astronomer/agents Migrer un projet Airflow de airflow-ai-sdk vers apache-airflow-providers-common-ai. 393 5j
9 using-dbt-for-analytics-engineering dbt-labs/dbt-agent-skills Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques. 587 11j
10 dali-dynamic-mode nvidia/skills Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique. 1 960 11j
11 blueprint astronomer/agents Composer des DAGs Airflow en YAML via des templates Python réutilisables et validés. 393 12j
12 tao-generate-video-reasoning-annotations nvidia/skills Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées. 1 960 19j
13 nemo-data-designer-plugin nvidia/skills Générer un dataset synthétique personnalisé via la bibliothèque Data Designer. 1 960 23j
14 data-designer nvidia/skills Construire des datasets synthétiques personnalisés via une interface interactive ou automatique. 1 960 25j
15 ucsc-conservation-and-tfbs mkurman/zorai Récupérer les scores de conservation évolutive et sites TFBS via UCSC. 315 26j
16 unibind-database mkurman/zorai Interroger la base de données UniBind pour explorer les interactions TF–ADN multi-espèces. 315 26j
17 uniprot-database mkurman/zorai Interroger la base UniProt pour découvrir, récupérer et cartographier des données protéiques. 315 26j
18 chembl-database mkurman/zorai Interroger la base ChEMBL pour récupérer données moléculaires, cibles et bioactivités. 315 26j
19 clinical-trials-database mkurman/zorai Interroger la base ClinicalTrials.gov pour rechercher et filtrer des essais cliniques mondiaux. 315 26j
20 clinvar-database mkurman/zorai Interroger la base ClinVar pour obtenir classifications cliniques et données de variants génomiques. 315 26j
21 dbsnp-database mkurman/zorai Interroger la base dbSNP pour mapper, résoudre et récupérer des variants génomiques. 315 26j
22 embl-ebi-ols mkurman/zorai Interroger et explorer des ontologies biologiques via l'API EBI OLS. 315 26j
23 encode-ccres-database mkurman/zorai Interroger la base ENCODE pour identifier des éléments régulateurs non-codants via l'API SCREEN. 315 26j
24 ensembl-database mkurman/zorai Interroger l'API Ensembl pour mapper, résoudre et récupérer des données génomiques. 315 26j
25 gnomad-database mkurman/zorai Interroger la base gnomAD pour obtenir fréquences alléliques et contraintes géniques. 315 26j
26 gtex-database mkurman/zorai Interroger la base GTEx pour obtenir expression génique et eQTLs par tissu. 315 26j
27 human-protein-atlas-database mkurman/zorai Interroger la base Human Protein Atlas pour localiser et quantifier les protéines humaines. 315 26j
28 interpro-database mkurman/zorai Interroger la base InterPro pour annoter et analyser des protéines et familles. 315 26j
29 jaspar-database mkurman/zorai Interroger la base JASPAR pour identifier les motifs de liaison des facteurs de transcription. 315 26j
30 literature-search-openalex mkurman/zorai Interroger l'API OpenAlex pour récupérer et filtrer des publications scientifiques. 315 26j
31 ncbi-sequence-fetch mkurman/zorai Récupérer et traduire des séquences protéiques et nucléotidiques depuis NCBI via Entrez. 315 26j
32 openfda-database mkurman/zorai Interroger les 28 endpoints de l'API openFDA pour rechercher des données réglementaires pharmaceutiques. 315 26j
33 opentargets-database mkurman/zorai Interroger la plateforme Open Targets pour identifier gènes et associations cibles-maladies. 315 26j
34 pdb-database mkurman/zorai Interroger la Protein Data Bank pour rechercher et analyser des structures moléculaires. 315 26j
35 pubmed-database mkurman/zorai Interroger PubMed et PubMed Central via une CLI Python unifiée à dix fonctions. 315 26j
36 reactome-database mkurman/zorai Analyser des voies biologiques et mapper des identifiants via la base Reactome. 315 26j
37 string-database mkurman/zorai Interroger la base STRING pour analyser interactions protéiques et enrichissements fonctionnels. 315 26j
38 dicom-metadata-extract nvidia/skills Extraire les métadonnées d'un fichier DICOM et détecter la présence de PHI. 1 960 27j
39 dicom-series-preflight nvidia/skills Analyser les en-têtes d'une série DICOM et émettre un verdict de conformité JSON. 1 960 27j
40 dicom-series-to-volume nvidia/skills Convertir une série DICOM CT en volume NIfTI HU avec affine et résumé JSON. 1 960 27j
41 cupynumeric-parallel-data-load nvidia/skills Charger en parallèle des données multi-fichiers fragmentées dans un tableau cupynumeric distribué. 1 960 28j
42 nemotron-retrieval-recipes nvidia/skills Orchestrer les recettes Nemotron d'embedding et de reranking pour optimiser la récupération d'information. 1 960 28j
43 cupynumeric-hdf5 nvidia/skills Lire et écrire des tableaux cuPyNumeric en fichiers HDF5 en parallèle. 1 960 28j
44 accelerated-computing-cudf nvidia/skills Accélérer des DataFrames pandas sur GPU avec cuDF et dask-cuDF. 1 960 28j
45 aiq-research nvidia/skills Interroger un serveur NVIDIA AI-Q Blueprint pour effectuer des recherches approfondies. 1 960 28j
46 earth2studio-data-fetch nvidia/skills Télécharger des données météo/climat via les APIs Earth2Studio avec vérification lexicale. 1 960 29j
47 omniverse-cad-to-simready nvidia/skills Convertir un asset CAD en package SimReady via un pipeline bout-en-bout orchestré. 1 960 29j
48 cuopt-routing-api-python nvidia/skills Résoudre des problèmes de routage VRP/TSP/PDP avec l'API Python cuOpt. 1 960 29j
49 deepstream-dev nvidia/skills Développer des pipelines DeepStream SDK avec les bonnes pratiques et règles d'architecture NVIDIA. 1 960 1mo
50 debugging-dags astronomer/agents Diagnostiquer et résoudre les échecs de DAGs Airflow avec des actions correctives ciblées. 393 1mo

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.