Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

205 skills

# Skill Source Description Maj
1 omni-to-databricks-metric-view exploreomni/omni-agent-skills Convertir un topic Omni en Databricks Metric View via CLI et YAML. 22 1j
2 omni-to-snowflake-semantic-view exploreomni/omni-agent-skills Convertir un topic Omni en définition YAML Snowflake Semantic View via API. 22 1j
3 omni-model-builder exploreomni/omni-agent-skills Créer et modifier un modèle sémantique Omni via l'API YAML en branches sécurisées. 22 1j
4 omni-model-explorer exploreomni/omni-agent-skills Explorer un modèle sémantique Omni via la CLI pour comprendre sa structure. 22 1j
5 omni-query exploreomni/omni-agent-skills Interroger la couche sémantique Omni via CLI pour extraire des données structurées. 22 1j
6 cosmos-dbt-core astronomer/agents Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale. 393 2j
7 using-dbt-state dbt-labs/dbt-agent-skills Optimiser les builds dbt en réutilisant automatiquement les modèles inchangés via un serveur d'état. 587 2j
8 physical-ai-defect-image-generation nvidia/skills Orchestrer des pipelines de génération, augmentation et labeling d'images de défauts pour l'inspection optique automatisée. 1 960 3j
9 tao-analyze-gaps-visual-changenet nvidia/skills Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation. 1 960 5j
10 tao-convert-dataset-format nvidia/skills Convertir des datasets DAFT entre formats supportés via la CLI tao-daft. 1 960 5j
11 tao-route-visual-changenet-samples nvidia/skills Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable. 1 960 5j
12 tao-validate-dataset-format nvidia/skills Valider un dataset DAFT avec tao-daft validate et interpréter les résultats. 1 960 5j
13 analyzing-data astronomer/agents Interroger un entrepôt de données pour répondre à des questions métier. 393 5j
14 migrating-ai-sdk-to-common-ai astronomer/agents Migrer un projet Airflow de airflow-ai-sdk vers apache-airflow-providers-common-ai. 393 5j
15 tinybird tinybirdco/tinybird-agent-skills Créer, optimiser et valider des fichiers Tinybird selon les meilleures pratiques. 20 10j
16 using-dbt-for-analytics-engineering dbt-labs/dbt-agent-skills Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques. 587 11j
17 working-with-dbt-mesh dbt-labs/dbt-agent-skills Configurer et naviguer dans un projet dbt Mesh multi-projets avec des références croisées. 587 11j
18 dali-dynamic-mode nvidia/skills Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique. 1 960 11j
19 vss-search-archive nvidia/skills Rechercher et ingérer des vidéos archivées ou flux RTSP par langage naturel via VSS. 1 960 11j
20 vss-search-archive nvidia-ai-blueprints/video-search-and-summarization Rechercher, ingérer et supprimer des sources vidéo via VSS en langage naturel. 1 677 12j
21 blueprint astronomer/agents Composer des DAGs Airflow en YAML via des templates Python réutilisables et validés. 393 12j
22 creating-ai-subscription posthog/skills Créer des abonnements récurrents à des rapports IA générés via prompt PostHog. 48 13j
23 diagnosing-endpoint-performance posthog/skills Diagnostiquer et résoudre les problèmes de performance d'un endpoint API spécifique. 48 13j
24 setting-up-a-data-warehouse-source posthog/skills Connecter une source de données externe à l'entrepôt PostHog en suivant un flux guidé en trois étapes. 48 13j
25 suggesting-data-imports posthog/skills Identifier et importer des données externes dans PostHog via l'entrepôt de données. 48 13j
26 signals-scout-anomaly-detection posthog/skills Détecter et signaler automatiquement les anomalies récentes dans les dashboards analytiques d'une équipe. 48 13j
27 signals-scout-data-pipelines posthog/skills Détecter silencieusement les ruptures de livraison dans les pipelines de données actifs. 48 13j
28 signals-scout-replay-vision posthog/skills Détecter les dérives silencieuses des scanners de sessions replay via analyse agrégée. 48 13j
29 vss-query-analytics nvidia/skills Interroger les incidents, métriques et alertes Elasticsearch via le serveur VA-MCP en lecture seule. 1 960 16j
30 vss-query-analytics nvidia-ai-blueprints/video-search-and-summarization Interroger en lecture seule les incidents, métriques et alertes VSS via VA-MCP. 1 677 17j
31 vss-manage-video-io-storage nvidia-ai-blueprints/video-search-and-summarization Gérer les opérations VIOS et NvStreamer pour caméras, flux et stockage vidéo VSS. 1 677 17j
32 vss-generate-video-report-rag nvidia-ai-blueprints/video-search-and-summarization Déployer un agent VSS avec RAG pour générer des rapports vidéo enrichis. 1 677 18j
33 tao-generate-video-reasoning-annotations nvidia/skills Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées. 1 960 19j
34 physical-ai-video-data-augmentation nvidia/skills Orchestrer un workflow VDA complet sur OSMO, du preflight au téléchargement des sorties. 1 960 19j
35 nemo-data-designer-plugin nvidia/skills Générer un dataset synthétique personnalisé via la bibliothèque Data Designer. 1 960 23j
36 data-designer nvidia/skills Construire des datasets synthétiques personnalisés via une interface interactive ou automatique. 1 960 25j
37 ucsc-conservation-and-tfbs mkurman/zorai Récupérer les scores de conservation évolutive et sites TFBS via UCSC. 315 26j
38 unibind-database mkurman/zorai Interroger la base de données UniBind pour explorer les interactions TF–ADN multi-espèces. 315 26j
39 uniprot-database mkurman/zorai Interroger la base UniProt pour découvrir, récupérer et cartographier des données protéiques. 315 26j
40 chembl-database mkurman/zorai Interroger la base ChEMBL pour récupérer données moléculaires, cibles et bioactivités. 315 26j
41 clinical-trials-database mkurman/zorai Interroger la base ClinicalTrials.gov pour rechercher et filtrer des essais cliniques mondiaux. 315 26j
42 clinvar-database mkurman/zorai Interroger la base ClinVar pour obtenir classifications cliniques et données de variants génomiques. 315 26j
43 dbsnp-database mkurman/zorai Interroger la base dbSNP pour mapper, résoudre et récupérer des variants génomiques. 315 26j
44 embl-ebi-ols mkurman/zorai Interroger et explorer des ontologies biologiques via l'API EBI OLS. 315 26j
45 encode-ccres-database mkurman/zorai Interroger la base ENCODE pour identifier des éléments régulateurs non-codants via l'API SCREEN. 315 26j
46 ensembl-database mkurman/zorai Interroger l'API Ensembl pour mapper, résoudre et récupérer des données génomiques. 315 26j
47 gnomad-database mkurman/zorai Interroger la base gnomAD pour obtenir fréquences alléliques et contraintes géniques. 315 26j
48 gtex-database mkurman/zorai Interroger la base GTEx pour obtenir expression génique et eQTLs par tissu. 315 26j
49 human-protein-atlas-database mkurman/zorai Interroger la base Human Protein Atlas pour localiser et quantifier les protéines humaines. 315 26j
50 interpro-database mkurman/zorai Interroger la base InterPro pour annoter et analyser des protéines et familles. 315 26j

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.