huggingface-datasets

Utilisez ce skill pour les workflows de l'API Hugging Face Dataset Viewer qui récupèrent les métadonnées de sous-ensembles/splits, paginent les lignes, effectuent des recherches textuelles, appliquent des filtres, téléchargent des URLs parquet et lisent la taille ou les statistiques.

npx skills add https://github.com/huggingface/skills --skill huggingface-datasets

Visionneuse de Dataset Hugging Face

Utilisez cette skill pour exécuter des appels en lecture seule à l'API Dataset Viewer pour l'exploration et l'extraction de datasets.

Flux de travail principal

  1. Validez optionnellement la disponibilité du dataset avec /is-valid.
  2. Résolvez config + split avec /splits.
  3. Prévisualisez avec /first-rows.
  4. Paginez le contenu avec /rows en utilisant offset et length (max 100).
  5. Utilisez /search pour la correspondance textuelle et /filter pour les prédicats de lignes.
  6. Récupérez les liens parquet via /parquet et les totaux/métadonnées via /size et /statistics.

Valeurs par défaut

  • URL de base : https://datasets-server.huggingface.co
  • Méthode API par défaut : GET
  • Les paramètres de requête doivent être encodés en URL.
  • offset commence à 0.
  • length max est généralement 100 pour les endpoints de type lignes.
  • Les datasets gérés/privés nécessitent Authorization: Bearer <HF_TOKEN>.

Dataset Viewer

  • Valider le dataset : /is-valid?dataset=<namespace/repo>
  • Lister les sous-ensembles et splits : /splits?dataset=<namespace/repo>
  • Prévisualiser les premières lignes : /first-rows?dataset=<namespace/repo>&config=<config>&split=<split>
  • Paginer les lignes : /rows?dataset=<namespace/repo>&config=<config>&split=<split>&offset=<int>&length=<int>
  • Chercher du texte : /search?dataset=<namespace/repo>&config=<config>&split=<split>&query=<text>&offset=<int>&length=<int>
  • Filtrer avec prédicats : /filter?dataset=<namespace/repo>&config=<config>&split=<split>&where=<predicate>&orderby=<sort>&offset=<int>&length=<int>
  • Lister les shards parquet : /parquet?dataset=<namespace/repo>
  • Obtenir les totaux de taille : /size?dataset=<namespace/repo>
  • Obtenir les statistiques de colonnes : /statistics?dataset=<namespace/repo>&config=<config>&split=<split>
  • Obtenir les métadonnées Croissant (si disponibles) : /croissant?dataset=<namespace/repo>

Modèle de pagination :

curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=0&length=100"
curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=100&length=100"

Lorsque la pagination est partielle, utilisez les champs de réponse tels que num_rows_total, num_rows_per_page et partial pour piloter la logique de continuation.

Notes sur la recherche/filtrage :

  • /search correspond aux colonnes de type chaîne (le comportement full-text est interne à l'API).
  • /filter nécessite une syntaxe de prédicat dans where et un tri optionnel dans orderby.
  • Gardez le filtrage et les recherches en lecture seule et sans effets de bord.

Pour la découverte d'URL parquet basée sur la CLI ou SQL, utilisez la skill hf-cli avec hf datasets parquet et hf datasets sql.

Créer et télécharger des datasets

Utilisez l'un de ces flux selon vos contraintes de dépendances.

Zéro dépendance locale (Hub UI) :

  • Créer un repo de dataset dans le navigateur : https://huggingface.co/new-dataset
  • Télécharger des fichiers parquet dans la page « Files and versions » du repo.
  • Vérifier que les shards apparaissent dans Dataset Viewer :
curl -s "https://datasets-server.huggingface.co/parquet?dataset=<namespace>/<repo>"

Flux CLI avec peu de dépendances (npx @huggingface/hub / hfjs) :

  • Définir le token d'authentification :
export HF_TOKEN=<your_hf_token>
  • Télécharger un dossier parquet vers un repo de dataset (crée automatiquement le repo s'il manque) :
npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data
  • Télécharger en repo privé à la création :
npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data --private

Après le téléchargement, appelez /parquet pour découvrir les valeurs <config>/<split>/<shard> pour interroger avec @~parquet.

Traces d'agent

Le Hub supporte les traces de session d'agent brutes de Claude Code, Codex et Pi Agent. Téléchargez-les sur Hugging Face Datasets en tant que fichiers JSONL originaux et le Hub peut auto-détecter le format de trace, tagger le dataset comme Traces et activer la visionneuse de traces pour parcourir les sessions, les tours, les appels d'outils et les réponses du modèle. Répertoires de session locale courants :

  • Claude Code : ~/.claude/projects
  • Codex : ~/.codex/sessions
  • Pi : ~/.pi/agent/sessions

Par défaut, les repos de dataset privés car les traces peuvent contenir des prompts, des chemins de fichiers, des sorties d'outils, des secrets ou des PII. Préservez les fichiers .jsonl bruts et imbriques-les par projet/cwd au lieu de télécharger toutes les sessions à la racine du dataset.

hf repos create <namespace>/<repo> --type dataset --private --exist-ok
hf upload <namespace>/<repo> ~/.codex/sessions codex/<project-or-cwd> --type dataset

Skills similaires