Visionneuse de Dataset Hugging Face
Utilisez cette skill pour exécuter des appels en lecture seule à l'API Dataset Viewer pour l'exploration et l'extraction de datasets.
Flux de travail principal
- Validez optionnellement la disponibilité du dataset avec
/is-valid. - Résolvez
config+splitavec/splits. - Prévisualisez avec
/first-rows. - Paginez le contenu avec
/rowsen utilisantoffsetetlength(max 100). - Utilisez
/searchpour la correspondance textuelle et/filterpour les prédicats de lignes. - Récupérez les liens parquet via
/parquetet les totaux/métadonnées via/sizeet/statistics.
Valeurs par défaut
- URL de base :
https://datasets-server.huggingface.co - Méthode API par défaut :
GET - Les paramètres de requête doivent être encodés en URL.
offsetcommence à 0.lengthmax est généralement100pour les endpoints de type lignes.- Les datasets gérés/privés nécessitent
Authorization: Bearer <HF_TOKEN>.
Dataset Viewer
Valider le dataset:/is-valid?dataset=<namespace/repo>Lister les sous-ensembles et splits:/splits?dataset=<namespace/repo>Prévisualiser les premières lignes:/first-rows?dataset=<namespace/repo>&config=<config>&split=<split>Paginer les lignes:/rows?dataset=<namespace/repo>&config=<config>&split=<split>&offset=<int>&length=<int>Chercher du texte:/search?dataset=<namespace/repo>&config=<config>&split=<split>&query=<text>&offset=<int>&length=<int>Filtrer avec prédicats:/filter?dataset=<namespace/repo>&config=<config>&split=<split>&where=<predicate>&orderby=<sort>&offset=<int>&length=<int>Lister les shards parquet:/parquet?dataset=<namespace/repo>Obtenir les totaux de taille:/size?dataset=<namespace/repo>Obtenir les statistiques de colonnes:/statistics?dataset=<namespace/repo>&config=<config>&split=<split>Obtenir les métadonnées Croissant (si disponibles):/croissant?dataset=<namespace/repo>
Modèle de pagination :
curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=0&length=100"
curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=100&length=100"
Lorsque la pagination est partielle, utilisez les champs de réponse tels que num_rows_total, num_rows_per_page et partial pour piloter la logique de continuation.
Notes sur la recherche/filtrage :
/searchcorrespond aux colonnes de type chaîne (le comportement full-text est interne à l'API)./filternécessite une syntaxe de prédicat danswhereet un tri optionnel dansorderby.- Gardez le filtrage et les recherches en lecture seule et sans effets de bord.
Pour la découverte d'URL parquet basée sur la CLI ou SQL, utilisez la skill hf-cli avec hf datasets parquet et hf datasets sql.
Créer et télécharger des datasets
Utilisez l'un de ces flux selon vos contraintes de dépendances.
Zéro dépendance locale (Hub UI) :
- Créer un repo de dataset dans le navigateur :
https://huggingface.co/new-dataset - Télécharger des fichiers parquet dans la page « Files and versions » du repo.
- Vérifier que les shards apparaissent dans Dataset Viewer :
curl -s "https://datasets-server.huggingface.co/parquet?dataset=<namespace>/<repo>"
Flux CLI avec peu de dépendances (npx @huggingface/hub / hfjs) :
- Définir le token d'authentification :
export HF_TOKEN=<your_hf_token>
- Télécharger un dossier parquet vers un repo de dataset (crée automatiquement le repo s'il manque) :
npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data
- Télécharger en repo privé à la création :
npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data --private
Après le téléchargement, appelez /parquet pour découvrir les valeurs <config>/<split>/<shard> pour interroger avec @~parquet.
Traces d'agent
Le Hub supporte les traces de session d'agent brutes de Claude Code, Codex et Pi Agent. Téléchargez-les sur Hugging Face Datasets en tant que fichiers JSONL originaux et le Hub peut auto-détecter le format de trace, tagger le dataset comme Traces et activer la visionneuse de traces pour parcourir les sessions, les tours, les appels d'outils et les réponses du modèle. Répertoires de session locale courants :
- Claude Code :
~/.claude/projects - Codex :
~/.codex/sessions - Pi :
~/.pi/agent/sessions
Par défaut, les repos de dataset privés car les traces peuvent contenir des prompts, des chemins de fichiers, des sorties d'outils, des secrets ou des PII. Préservez les fichiers .jsonl bruts et imbriques-les par projet/cwd au lieu de télécharger toutes les sessions à la racine du dataset.
hf repos create <namespace>/<repo> --type dataset --private --exist-ok
hf upload <namespace>/<repo> ~/.codex/sessions codex/<project-or-cwd> --type dataset