sdv

Par mkurman · zorai

Synthetic Data Vault (SDV) — génération de données tabulaires synthétiques. Synthèse de données en table unique, multi-tables et séquentielles. CTGAN, TVAE, CopulaGAN, GaussianCopula. Métriques de confidentialité et évaluation.

npx skills add https://github.com/mkurman/zorai --skill sdv

Aperçu

Le Synthetic Data Vault (SDV) génère des données tabulaires synthétiques qui préservent les propriétés statistiques tout en protégeant la confidentialité. Prend en charge la génération de données à une seule table, multi-tables et séquentielles avec les modèles CTGAN, TVAE, CopulaGAN et GaussianCopula.

Installation

uv pip install sdv

Table unique (CTGAN)

from sdv.single_table import CTGANSynthesizer
from sdv.datasets.demo import load_demo

data, metadata = load_demo(dataset="census")

synth = CTGANSynthesizer(metadata)
synth.fit(data)
synthetic = synth.sample(num_rows=500)

print(synthetic.head())
print(f"Original columns: {data.shape}, Synthetic: {synthetic.shape}")

Multi-tables

from sdv.multi_table import HMA1Synthesizer

synth = HMA1Synthesizer(multi_table_metadata)
synth.fit(multi_table_data)
synthetic = synth.sample(scale=0.5)

Évaluation de la confidentialité

from sdv.evaluation import evaluate

# Statistical similarity
report = evaluate(synthetic, data, metadata)
print(f"Overall score: {report.get_score():.3f}")
print(f"Column shapes: {report.get_property('Column Shapes'):.3f}")
print(f"Column pairs: {report.get_property('Column Pair Trends'):.3f}")

Références

Étoiles: 319
Découvert: 2026-05-18
Langage: Python
Mis à jour: 2026-05-05
Licence: MIT
Dernière release: v0.9.35 · 2026-07-19
Source: GitHub ↗

Santé du projet
Dernier push: hier
Forks: 27
Issues ouvertes: 2
Watchers: 4

Utile ?

Skills similaires

claude-api

anthropics / skills

Construire des applications LLM avec Claude via le SDK officiel adapté au langage.

162 941

llm-obs-eval-pipeline

datadog-labs / agent-skills

Orchestrer un pipeline complet classify→RCA→bootstrap pour évaluer une app LLM en production.

145

imaging-data-commons

mkurman / zorai

Interroger et télécharger des données d'imagerie médicale publiques depuis NCI IDC.

319

eval-bootstrap

datadog-labs / agent-skills

Générer du code d'évaluation Python à partir de traces de production LLM Datadog.

145

exploring-llm-evaluations

posthog / skills

Gérer et exécuter des évaluations LLM sur des événements de génération IA dans PostHog.