Pipelines de données

Orchestration et transformation de donnees : Airflow, dbt, Astronomer, ETL et ELT.

205 skills

#	Skill	Source	Description		Maj
1	omni-to-databricks-metric-view	exploreomni/omni-agent-skills	Convertir un topic Omni en Databricks Metric View via CLI et YAML.	22	1j
2	omni-to-snowflake-semantic-view	exploreomni/omni-agent-skills	Convertir un topic Omni en définition YAML Snowflake Semantic View via API.	22	1j
3	omni-model-builder	exploreomni/omni-agent-skills	Créer et modifier un modèle sémantique Omni via l'API YAML en branches sécurisées.	22	1j
4	omni-model-explorer	exploreomni/omni-agent-skills	Explorer un modèle sémantique Omni via la CLI pour comprendre sa structure.	22	1j
5	omni-query	exploreomni/omni-agent-skills	Interroger la couche sémantique Omni via CLI pour extraire des données structurées.	22	1j
6	cosmos-dbt-core	astronomer/agents	Intégrer dbt Core dans Airflow via Cosmos avec la configuration optimale.	393	2j
7	using-dbt-state	dbt-labs/dbt-agent-skills	Optimiser les builds dbt en réutilisant automatiquement les modèles inchangés via un serveur d'état.	587	2j
8	physical-ai-defect-image-generation	nvidia/skills	Orchestrer des pipelines de génération, augmentation et labeling d'images de défauts pour l'inspection optique automatisée.	1 960	3j
9	tao-analyze-gaps-visual-changenet	nvidia/skills	Identifier les échantillons les plus faibles d'un modèle VCN TAO pour cibler l'augmentation.	1 960	5j
10	tao-convert-dataset-format	nvidia/skills	Convertir des datasets DAFT entre formats supportés via la CLI tao-daft.	1 960	5j
11	tao-route-visual-changenet-samples	nvidia/skills	Router les labels de gaps VCN vers les modules k-NN Mining et AnomalyGen de façon auditable.	1 960	5j
12	tao-validate-dataset-format	nvidia/skills	Valider un dataset DAFT avec tao-daft validate et interpréter les résultats.	1 960	5j
13	analyzing-data	astronomer/agents	Interroger un entrepôt de données pour répondre à des questions métier.	393	5j
14	migrating-ai-sdk-to-common-ai	astronomer/agents	Migrer un projet Airflow de airflow-ai-sdk vers apache-airflow-providers-common-ai.	393	5j
15	tinybird	tinybirdco/tinybird-agent-skills	Créer, optimiser et valider des fichiers Tinybird selon les meilleures pratiques.	20	10j
16	using-dbt-for-analytics-engineering	dbt-labs/dbt-agent-skills	Construire, modifier et tester des modèles dbt avec rigueur et bonnes pratiques.	587	11j
17	working-with-dbt-mesh	dbt-labs/dbt-agent-skills	Configurer et naviguer dans un projet dbt Mesh multi-projets avec des références croisées.	587	11j
18	dali-dynamic-mode	nvidia/skills	Exécuter des pipelines de données DALI en mode impératif Python sans graphe statique.	1 960	11j
19	vss-search-archive	nvidia/skills	Rechercher et ingérer des vidéos archivées ou flux RTSP par langage naturel via VSS.	1 960	11j
20	vss-search-archive	nvidia-ai-blueprints/video-search-and-summarization	Rechercher, ingérer et supprimer des sources vidéo via VSS en langage naturel.	1 677	12j
21	blueprint	astronomer/agents	Composer des DAGs Airflow en YAML via des templates Python réutilisables et validés.	393	12j
22	creating-ai-subscription	posthog/skills	Créer des abonnements récurrents à des rapports IA générés via prompt PostHog.	48	13j
23	diagnosing-endpoint-performance	posthog/skills	Diagnostiquer et résoudre les problèmes de performance d'un endpoint API spécifique.	48	13j
24	setting-up-a-data-warehouse-source	posthog/skills	Connecter une source de données externe à l'entrepôt PostHog en suivant un flux guidé en trois étapes.	48	13j
25	suggesting-data-imports	posthog/skills	Identifier et importer des données externes dans PostHog via l'entrepôt de données.	48	13j
26	signals-scout-anomaly-detection	posthog/skills	Détecter et signaler automatiquement les anomalies récentes dans les dashboards analytiques d'une équipe.	48	13j
27	signals-scout-data-pipelines	posthog/skills	Détecter silencieusement les ruptures de livraison dans les pipelines de données actifs.	48	13j
28	signals-scout-replay-vision	posthog/skills	Détecter les dérives silencieuses des scanners de sessions replay via analyse agrégée.	48	13j
29	vss-query-analytics	nvidia/skills	Interroger les incidents, métriques et alertes Elasticsearch via le serveur VA-MCP en lecture seule.	1 960	16j
30	vss-query-analytics	nvidia-ai-blueprints/video-search-and-summarization	Interroger en lecture seule les incidents, métriques et alertes VSS via VA-MCP.	1 677	17j
31	vss-manage-video-io-storage	nvidia-ai-blueprints/video-search-and-summarization	Gérer les opérations VIOS et NvStreamer pour caméras, flux et stockage vidéo VSS.	1 677	17j
32	vss-generate-video-report-rag	nvidia-ai-blueprints/video-search-and-summarization	Déployer un agent VSS avec RAG pour générer des rapports vidéo enrichis.	1 677	18j
33	tao-generate-video-reasoning-annotations	nvidia/skills	Générer des datasets d'entraînement vidéo avec raisonnement CoT et paires QA annotées.	1 960	19j
34	physical-ai-video-data-augmentation	nvidia/skills	Orchestrer un workflow VDA complet sur OSMO, du preflight au téléchargement des sorties.	1 960	19j
35	nemo-data-designer-plugin	nvidia/skills	Générer un dataset synthétique personnalisé via la bibliothèque Data Designer.	1 960	23j
36	data-designer	nvidia/skills	Construire des datasets synthétiques personnalisés via une interface interactive ou automatique.	1 960	25j
37	ucsc-conservation-and-tfbs	mkurman/zorai	Récupérer les scores de conservation évolutive et sites TFBS via UCSC.	315	26j
38	unibind-database	mkurman/zorai	Interroger la base de données UniBind pour explorer les interactions TF–ADN multi-espèces.	315	26j
39	uniprot-database	mkurman/zorai	Interroger la base UniProt pour découvrir, récupérer et cartographier des données protéiques.	315	26j
40	chembl-database	mkurman/zorai	Interroger la base ChEMBL pour récupérer données moléculaires, cibles et bioactivités.	315	26j
41	clinical-trials-database	mkurman/zorai	Interroger la base ClinicalTrials.gov pour rechercher et filtrer des essais cliniques mondiaux.	315	26j
42	clinvar-database	mkurman/zorai	Interroger la base ClinVar pour obtenir classifications cliniques et données de variants génomiques.	315	26j
43	dbsnp-database	mkurman/zorai	Interroger la base dbSNP pour mapper, résoudre et récupérer des variants génomiques.	315	26j
44	embl-ebi-ols	mkurman/zorai	Interroger et explorer des ontologies biologiques via l'API EBI OLS.	315	26j
45	encode-ccres-database	mkurman/zorai	Interroger la base ENCODE pour identifier des éléments régulateurs non-codants via l'API SCREEN.	315	26j
46	ensembl-database	mkurman/zorai	Interroger l'API Ensembl pour mapper, résoudre et récupérer des données génomiques.	315	26j
47	gnomad-database	mkurman/zorai	Interroger la base gnomAD pour obtenir fréquences alléliques et contraintes géniques.	315	26j
48	gtex-database	mkurman/zorai	Interroger la base GTEx pour obtenir expression génique et eQTLs par tissu.	315	26j
49	human-protein-atlas-database	mkurman/zorai	Interroger la base Human Protein Atlas pour localiser et quantifier les protéines humaines.	315	26j
50	interpro-database	mkurman/zorai	Interroger la base InterPro pour annoter et analyser des protéines et familles.	315	26j

À propos de cette sélection

L'orchestration de données a longtemps reposé sur des scripts fragiles qu'on ne touchait plus par peur de tout casser. Des acteurs comme Astronomer et dbt Labs ont depuis industrialisé la discipline : DAGs versionnés, transformations testables, lignage de bout en bout. Les skills pipelines de données rassemblés ici couvrent des cas concrets, auditer un pipeline BigQuery pour détecter des dérives de coût ou de fraîcheur, modéliser un dataset pour l'exposer proprement à une couche BI sans multiplier les joins à la main. L'outillage disponible est solide, majoritairement Python, et couvre le spectre du prototypage local au déploiement en production supervisé. Ça parle autant aux data engineers qu'aux ML engineers qui branchent des flux en amont de leurs modèles.