huggingface-papers

Consulter et lire les pages de documents Hugging Face en markdown, et utiliser l'API des documents pour les métadonnées structurées telles que les auteurs, les modèles/ensembles de données/espaces liés, le référentiel Github et la page du projet. À utiliser lorsque l'utilisateur partage une URL de page de document Hugging Face, une URL ou un ID arXiv, ou demande de résumer, expliquer ou analyser un document de recherche en IA.

npx skills add https://github.com/huggingface/skills --skill huggingface-papers

Pages de Papiers Hugging Face

Les pages de papiers Hugging Face (hf.co/papers) sont une plateforme construite au-dessus d'arXiv (arxiv.org), spécifiquement pour les articles de recherche dans le domaine de l'intelligence artificielle (IA) et de l'informatique. Les utilisateurs de Hugging Face peuvent soumettre leur papier sur hf.co/papers/submit, ce qui le met en avant dans le flux Daily Papers (hf.co/papers). Chaque jour, les utilisateurs peuvent voter pour les papiers et commenter les papiers. Chaque page de papier permet aux auteurs de :

  • revendiquer leur papier (en cliquant sur leur nom dans le champ authors). Cela fait apparaître la page du papier sur leur profil Hugging Face.
  • lier les checkpoints de modèles, datasets et Spaces associés en incluant l'URL du papier HF ou arXiv dans la model card, dataset card ou README de l'Space
  • lier les URL du repository Github et/ou de la page du projet
  • lier l'organisation HF. Cela fait également apparaître la page du papier sur la page de l'organisation Hugging Face.

Chaque fois que quelqu'un mentionne une URL de papier HF ou d'abstract/PDF arXiv dans une model card, dataset card ou README d'un repository Space, le papier sera automatiquement indexé. Notez que tous les papiers indexés sur Hugging Face ne sont pas nécessairement soumis aux Daily Papers. Ces derniers sont plutôt un moyen de promouvoir un article de recherche. Les papiers ne peuvent être soumis aux Daily Papers que jusqu'à 14 jours après leur date de publication sur arXiv.

L'équipe Hugging Face a construit une API facile à utiliser pour interagir avec les pages de papiers. Le contenu des papiers peut être récupéré en markdown, ou des métadonnées structurées peuvent être retournées comme les noms d'auteurs, les modèles/datasets/spaces liés, le repository Github lié et la page du projet.

Quand utiliser

  • L'utilisateur partage une URL de page de papier Hugging Face (par exemple https://huggingface.co/papers/2602.08025)
  • L'utilisateur partage une URL de page de papier Hugging Face en markdown (par exemple https://huggingface.co/papers/2602.08025.md)
  • L'utilisateur partage une URL arXiv (par exemple https://arxiv.org/abs/2602.08025 ou https://arxiv.org/pdf/2602.08025)
  • L'utilisateur mentionne un ID arXiv (par exemple 2602.08025)
  • L'utilisateur vous demande de résumer, expliquer ou analyser un article de recherche en IA

Extraire l'ID du papier

Il est recommandé d'extraire l'ID du papier (ID arXiv) de tout ce que l'utilisateur fournit :

Entrée ID du Papier
https://huggingface.co/papers/2602.08025 2602.08025
https://huggingface.co/papers/2602.08025.md 2602.08025
https://arxiv.org/abs/2602.08025 2602.08025
https://arxiv.org/pdf/2602.08025 2602.08025
2602.08025v1 2602.08025v1
2602.08025 2602.08025

Cela vous permet de fournir l'ID du papier dans n'importe lequel des endpoints de l'API hub mentionnés ci-dessous.

Récupérer la page du papier en markdown

Le contenu d'un papier peut être récupéré en markdown de la façon suivante :

curl -s "https://huggingface.co/papers/{PAPER_ID}.md"

Cela devrait retourner la page du papier Hugging Face en markdown. Cela s'appuie sur la version HTML du papier à https://arxiv.org/html/{PAPER_ID}.

Il y a 2 exceptions :

  • Tous les papiers arXiv n'ont pas de version HTML. Si la version HTML du papier n'existe pas, le contenu se replie sur le HTML de la page du papier Hugging Face.
  • Si cela entraîne une erreur 404, cela signifie que le papier n'est pas encore indexé sur hf.co/papers. Voir Gestion des erreurs pour plus d'informations.

Vous pouvez également demander du markdown à partir de l'URL normale de la page du papier, de la façon suivante :

curl -s -H "Accept: text/markdown" "https://huggingface.co/papers/{PAPER_ID}"

Endpoints de l'API Paper Pages

Tous les endpoints utilisent l'URL de base https://huggingface.co.

Obtenir des métadonnées structurées

Récupérez les métadonnées du papier en JSON en utilisant l'API REST Hugging Face :

curl -s "https://huggingface.co/api/papers/{PAPER_ID}"

Cela retourne des métadonnées structurées qui peuvent inclure :

  • authors (noms et noms d'utilisateurs Hugging Face, au cas où ils auraient revendiqué le papier)
  • URLs de médias (uploadés lors de la soumission du papier aux Daily Papers)
  • summary (abstract) et résumé généré par IA
  • page du projet et repository GitHub
  • métadonnées d'organisation et d'engagement (nombre de votes positifs)

Pour trouver les modèles liés au papier, utilisez :

curl https://huggingface.co/api/models?filter=arxiv:{PAPER_ID}

Pour trouver les datasets liés au papier, utilisez :

curl https://huggingface.co/api/datasets?filter=arxiv:{PAPER_ID}

Pour trouver les spaces liés au papier, utilisez :

curl https://huggingface.co/api/spaces?filter=arxiv:{PAPER_ID}

Revendiquer la paternité du papier

Revendiquez la paternité d'un papier pour un utilisateur Hugging Face :

curl "https://huggingface.co/api/settings/papers/claim" \
  --request POST \
  --header "Content-Type: application/json" \
  --header "Authorization: Bearer $HF_TOKEN" \
  --data '{
    "paperId": "{PAPER_ID}",
    "claimAuthorId": "{AUTHOR_ENTRY_ID}",
    "targetUserId": "{USER_ID}"
  }'
  • Endpoint : POST /api/settings/papers/claim
  • Corps :
    • paperId (string, requis) : identificateur du papier arXiv en cours de revendication
    • claimAuthorId (string) : entrée d'auteur sur le papier en cours de revendication, ID hex 24-caractères
    • targetUserId (string) : utilisateur HF qui doit recevoir la revendication, ID hex 24-caractères
  • Réponse : résultat de la revendication de paternité du papier, incluant l'ID du papier revendiqué

Obtenir les Daily Papers

Récupérez le flux Daily Papers :

curl -s -H "Authorization: Bearer $HF_TOKEN" \
  "https://huggingface.co/api/daily_papers?p=0&limit=20&date=2017-07-21&sort=publishedAt"
  • Endpoint : GET /api/daily_papers
  • Paramètres de requête :
    • p (integer) : numéro de page
    • limit (integer) : nombre de résultats, entre 1 et 100
    • date (string) : date complète RFC 3339, par exemple 2017-07-21
    • week (string) : semaine ISO, par exemple 2024-W03
    • month (string) : valeur du mois, par exemple 2024-01
    • submitter (string) : filtrer par soumetteur
    • sort (enum) : publishedAt ou trending
  • Réponse : liste des Daily Papers

Lister les papiers

Listez les papiers arXiv triés par date de publication :

curl -s -H "Authorization: Bearer $HF_TOKEN" \
  "https://huggingface.co/api/papers?cursor={CURSOR}&limit=20"
  • Endpoint : GET /api/papers
  • Paramètres de requête :
    • cursor (string) : curseur de pagination
    • limit (integer) : nombre de résultats, entre 1 et 100
  • Réponse : liste des papiers

Rechercher des papiers

Effectuez une recherche sémantique hybride et une recherche en texte intégral sur les papiers :

curl -s -H "Authorization: Bearer $HF_TOKEN" \
  "https://huggingface.co/api/papers/search?q=vision+language&limit=20"

Cela recherche dans le titre du papier, les auteurs et le contenu.

  • Endpoint : GET /api/papers/search
  • Paramètres de requête :
    • q (string) : requête de recherche, longueur maximale 250
    • limit (integer) : nombre de résultats, entre 1 et 120
  • Réponse : papiers correspondants

Indexer un papier

Insérez un papier d'arXiv par ID. Si le papier est déjà indexé, seuls ses auteurs peuvent le réindexer :

curl "https://huggingface.co/api/papers/index" \
  --request POST \
  --header "Content-Type: application/json" \
  --header "Authorization: Bearer $HF_TOKEN" \
  --data '{
    "arxivId": "{ARXIV_ID}"
  }'
  • Endpoint : POST /api/papers/index
  • Corps :
    • arxivId (string, requis) : ID arXiv à indexer, par exemple 2301.00001
  • Modèle : ^\d{4}\.\d{4,5}$
  • Réponse : objet JSON vide en cas de succès

Mettre à jour les liens des papiers

Mettez à jour la page du projet, le repository GitHub ou l'organisation soumettrice pour un papier. Le demandeur doit être l'auteur du papier, le soumetteur des Daily Papers ou un administrateur des papiers :

curl "https://huggingface.co/api/papers/{PAPER_OBJECT_ID}/links" \
  --request POST \
  --header "Content-Type: application/json" \
  --header "Authorization: Bearer $HF_TOKEN" \
  --data '{
    "projectPage": "https://example.com",
    "githubRepo": "https://github.com/org/repo",
    "organizationId": "{ORGANIZATION_ID}"
  }'
  • Endpoint : POST /api/papers/{paperId}/links
  • Paramètres de chemin :
    • paperId (string, requis) : ID d'objet de papier Hugging Face
  • Corps :
    • githubRepo (string, nullable) : URL du repository GitHub
    • organizationId (string, nullable) : ID d'organisation, ID hex 24-caractères
    • projectPage (string, nullable) : URL de la page du projet
  • Réponse : objet JSON vide en cas de succès

Gestion des erreurs

  • 404 sur https://huggingface.co/papers/{PAPER_ID} ou endpoint md : le papier n'est pas encore indexé sur les pages de papiers Hugging Face.
  • 404 sur /api/papers/{PAPER_ID} : le papier n'est peut-être pas encore indexé sur les pages de papiers Hugging Face.
  • ID du papier non trouvé : vérifiez l'ID arXiv extrait, y compris tout suffixe de version

Replis

Si la page du papier Hugging Face ne contient pas assez de détails pour la question de l'utilisateur :

  • Vérifiez la page du papier ordinaire à https://huggingface.co/papers/{PAPER_ID}
  • Reportez-vous à la page arXiv ou au PDF pour la source originale :
    • https://arxiv.org/abs/{PAPER_ID}
    • https://arxiv.org/pdf/{PAPER_ID}

Notes

  • Aucune authentification n'est requise pour les pages de papiers publiques.
  • Les endpoints d'écriture tels que la revendication de paternité, l'indexation de papier et la mise à jour des liens des papiers nécessitent Authorization: Bearer $HF_TOKEN.
  • Préférez l'endpoint .md pour une sortie fiable lisible par machine.
  • Préférez /api/papers/{PAPER_ID} lorsque vous avez besoin de champs JSON structurés au lieu du markdown de la page.