Aperçu

Cette skill fournit des outils complets pour les ingénieurs IA et les chercheurs afin de publier, gérer et lier des articles de recherche sur le Hub Hugging Face. Elle rationalise le flux de travail de la création à la publication, y compris l'intégration avec arXiv, la liaison de modèles/datasets, et la gestion de l'authorship.

Intégration avec l'écosystème HF

Pages d'articles : Indexer et découvrir des articles sur le Hub Hugging Face
Intégration arXiv : Indexation automatique d'articles à partir d'ID arXiv
Liaison Modèle/Dataset : Connecter les articles à des artefacts pertinents via les métadonnées
Vérification de l'authorship : Réclamer et vérifier l'authorship d'un article
Modèle d'article de recherche : Générer des articles scientifiques professionnels et modernes

Version

1.0.0

Dépendances

Le script fourni utilise les dépendances inline PEP 723. Préférez uv run à la configuration manuelle de l'environnement.

huggingface_hub>=0.26.0
pyyaml>=6.0.3
requests>=2.32.5
markdown>=3.5.0
python-dotenv>=1.2.1

Capacités principales

1. Gestion des pages d'articles

Indexer des articles : Ajouter des articles à Hugging Face à partir d'arXiv
Réclamer l'authorship : Vérifier et réclamer l'authorship sur des articles publiés
Gérer la visibilité : Contrôler quels articles apparaissent sur votre profil
Découverte d'articles : Trouver et explorer les articles dans l'écosystème HF

2. Lier des articles à des artefacts

Cartes de modèle : Ajouter des citations d'articles aux métadonnées du modèle
Cartes de dataset : Lier des articles aux datasets via le README
Tagging automatique : Le Hub génère automatiquement les tags arxiv:<PAPER_ID>
Gestion des citations : Maintenir une attribution et des références appropriées

3. Création d'articles de recherche

Modèles Markdown : Générer un formatage d'article professionnel
Design moderne : Mises en page d'articles de recherche claires et lisibles
TOC dynamique : Génération automatique de la table des matières
Structure de sections : Organisation standard des articles scientifiques
Mathématiques LaTeX : Support des équations et notations techniques

4. Gestion des métadonnées

Frontmatter YAML : Métadonnées appropriées pour les cartes de modèle/dataset
Suivi des citations : Maintenir les références d'articles dans les repositories
Contrôle de version : Suivi des mises à jour et révisions d'articles
Support multi-articles : Lier plusieurs articles à un seul artefact

Instructions d'utilisation

La skill inclut des scripts Python dans scripts/ pour les opérations de publication d'articles.

Prérequis

Exécutez les scripts avec uv run (les dépendances sont résolues à partir de l'en-tête du script)
Définissez la variable d'environnement HF_TOKEN avec un token ayant accès en écriture

Tous les chemins sont relatifs au répertoire contenant ce fichier SKILL.md. Avant d'exécuter tout script, d'abord cd vers ce répertoire ou utilisez le chemin complet.

Méthode 1 : Indexer un article à partir d'arXiv

Ajouter un article à Hugging Face Paper Pages à partir d'arXiv.

Utilisation basique :

uv run scripts/paper_manager.py index \
  --arxiv-id "2301.12345"

Vérifier si l'article existe :

uv run scripts/paper_manager.py check \
  --arxiv-id "2301.12345"

Accès direct par URL : Vous pouvez aussi visiter https://huggingface.co/papers/{arxiv-id} directement pour indexer un article.

Méthode 2 : Lier un article à un modèle/dataset

Ajouter des références d'articles au README d'un modèle ou dataset avec les métadonnées YAML appropriées.

Ajouter à la carte de modèle :

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

Ajouter à la carte de dataset :

uv run scripts/paper_manager.py link \
  --repo-id "username/dataset-name" \
  --repo-type "dataset" \
  --arxiv-id "2301.12345"

Ajouter plusieurs articles :

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-ids "2301.12345,2302.67890,2303.11111"

Avec citation personnalisée :

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345" \
  --citation "$(cat citation.txt)"

Fonctionnement de la liaison

Quand vous ajoutez un lien vers un article arXiv dans le README d'un modèle ou dataset :

Le Hub extrait l'ID arXiv du lien
Un tag arxiv:<PAPER_ID> est automatiquement ajouté au repository
Les utilisateurs peuvent cliquer sur le tag pour voir la page de l'article
La page de l'article affiche tous les modèles/datasets citant cet article
Les articles sont découvrables via les filtres et la recherche

Méthode 3 : Réclamer l'authorship

Vérifier votre authorship sur les articles publiés sur Hugging Face.

Démarrer le processus de réclamation :

uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@institution.edu"

Processus manuel :

Accédez à la page de votre article : https://huggingface.co/papers/{arxiv-id}
Trouvez votre nom dans la liste des auteurs
Cliquez sur votre nom et sélectionnez « Réclamer l'authorship »
Attendez la vérification de l'équipe d'administration

Vérifier le statut de l'authorship :

uv run scripts/paper_manager.py check-authorship \
  --arxiv-id "2301.12345"

Méthode 4 : Gérer la visibilité des articles

Contrôler quels articles vérifiés apparaissent sur votre profil public.

Lister vos articles :

uv run scripts/paper_manager.py list-my-papers

Basculer la visibilité :

uv run scripts/paper_manager.py toggle-visibility \
  --arxiv-id "2301.12345" \
  --show true

Gérer dans les paramètres : Naviguez vers les paramètres de votre compte → section Articles pour basculer « Afficher sur le profil » pour chaque article.

Méthode 5 : Créer un article de recherche

Générer un article de recherche professionnel basé sur Markdown en utilisant des modèles modernes.

Créer à partir d'un modèle :

uv run scripts/paper_manager.py create \
  --template "standard" \
  --title "Your Paper Title" \
  --output "paper.md"

Modèles disponibles :

standard - Structure d'article scientifique traditionnelle
modern - Format moderne et adapté au web inspiré de Distill
arxiv - Formatage de style arXiv
ml-report - Rapport d'expérience en machine learning

Générer un article complet :

uv run scripts/paper_manager.py create \
  --template "modern" \
  --title "Fine-Tuning Large Language Models with LoRA" \
  --authors "Jane Doe, John Smith" \
  --abstract "$(cat abstract.txt)" \
  --output "paper.md"

Convertir en HTML :

uv run scripts/paper_manager.py convert \
  --input "paper.md" \
  --output "paper.html" \
  --style "modern"

Structure du modèle d'article

Sections standards d'un article de recherche :

---
title: Your Paper Title
authors: Jane Doe, John Smith
affiliations: University X, Lab Y
date: 2025-01-15
arxiv: 2301.12345
tags: [machine-learning, nlp, fine-tuning]
---

# Abstract
Brief summary of the paper...

# 1. Introduction
Background and motivation...

# 2. Related Work
Previous research and context...

# 3. Methodology
Approach and implementation...

# 4. Experiments
Setup, datasets, and procedures...

# 5. Results
Findings and analysis...

# 6. Discussion
Interpretation and implications...

# 7. Conclusion
Summary and future work...

# References

Fonctionnalités du modèle moderne :

Table des matières dynamique
Design responsive pour la consultation web
Surbrillance syntaxique du code
Figures et graphiques interactifs
Rendu des équations mathématiques (LaTeX)
Gestion des citations
Liaison des affiliations d'auteurs

Référence des commandes

Indexer un article :

uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

Lier à un repository :

uv run scripts/paper_manager.py link \
  --repo-id "username/repo-name" \
  --repo-type "model|dataset|space" \
  --arxiv-id "2301.12345" \
  [--citation "Full citation text"] \
  [--create-pr]

Réclamer l'authorship :

uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@edu"

Gérer la visibilité :

uv run scripts/paper_manager.py toggle-visibility \
  --arxiv-id "2301.12345" \
  --show true|false

Créer un article de recherche :

uv run scripts/paper_manager.py create \
  --template "standard|modern|arxiv|ml-report" \
  --title "Paper Title" \
  [--authors "Author1, Author2"] \
  [--abstract "Abstract text"] \
  [--output "filename.md"]

Convertir Markdown en HTML :

uv run scripts/paper_manager.py convert \
  --input "paper.md" \
  --output "paper.html" \
  [--style "modern|classic"]

Vérifier le statut de l'article :

uv run scripts/paper_manager.py check --arxiv-id "2301.12345"

Lister vos articles :

uv run scripts/paper_manager.py list-my-papers

Rechercher des articles :

uv run scripts/paper_manager.py search --query "transformer attention"

Format des métadonnées YAML

Quand vous liez des articles à des modèles ou datasets, un frontmatter YAML approprié est requis :

Exemple de carte de modèle :

---
language:
  - en
license: apache-2.0
tags:
  - text-generation
  - transformers
  - llm
library_name: transformers
---

# Model Name

This model is based on the approach described in [Our Paper](https://arxiv.org/abs/2301.12345).

## Citation

```bibtex
@article{doe2023paper,
  title={Your Paper Title},
  author={Doe, Jane and Smith, John},
  journal={arXiv preprint arXiv:2301.12345},
  year={2023}
}


**Exemple de carte de dataset :**
```yaml
---
language:
  - en
license: cc-by-4.0
task_categories:
  - text-generation
  - question-answering
size_categories:
  - 10K<n<100K
---

# Dataset Name

Dataset introduced in [Our Paper](https://arxiv.org/abs/2301.12345).

For more details, see the [paper page](https://huggingface.co/papers/2301.12345).

Le Hub extrait automatiquement les ID arXiv de ces liens et crée les tags arxiv:2301.12345.

Exemples d'intégration

Flux de travail 1 : Publier une nouvelle recherche

# 1. Créer un article de recherche
uv run scripts/paper_manager.py create \
  --template "modern" \
  --title "Novel Fine-Tuning Approach" \
  --output "paper.md"

# 2. Éditer paper.md avec votre contenu

# 3. Soumettre à arXiv (processus externe)
# Télécharger vers arxiv.org, obtenir l'ID arXiv

# 4. Indexer sur Hugging Face
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

# 5. Lier à votre modèle
uv run scripts/paper_manager.py link \
  --repo-id "your-username/your-model" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

# 6. Réclamer l'authorship
uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@edu"

Flux de travail 2 : Lier un article existant

# 1. Vérifier si l'article existe
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"

# 2. Indexer si nécessaire
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

# 3. Lier à plusieurs repositories
uv run scripts/paper_manager.py link \
  --repo-id "username/model-v1" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

uv run scripts/paper_manager.py link \
  --repo-id "username/training-data" \
  --repo-type "dataset" \
  --arxiv-id "2301.12345"

uv run scripts/paper_manager.py link \
  --repo-id "username/demo-space" \
  --repo-type "space" \
  --arxiv-id "2301.12345"

Flux de travail 3 : Mettre à jour un modèle avec une référence d'article

# 1. Récupérer le README courant
hf download username/model-name README.md

# 2. Ajouter le lien vers l'article
uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345" \
  --citation "Full citation for the paper"

# Le script va :
# - Ajouter les métadonnées YAML si manquantes
# - Insérer le lien arXiv dans le README
# - Ajouter la citation formatée
# - Préserver le contenu existant

Bonnes pratiques

Indexation d'articles
- Indexer les articles dès leur publication sur arXiv
- Inclure les informations de citation complètes dans les cartes de modèle/dataset
- Utiliser des références d'articles cohérentes dans les repositories liés
Gestion des métadonnées
- Ajouter un frontmatter YAML à toutes les cartes de modèle/dataset
- Inclure les informations de licence appropriées
- Étiqueter avec les catégories de tâches et domaines pertinents
Authorship
- Réclamer l'authorship sur les articles où vous êtes listé comme auteur
- Utiliser des adresses email institutionnelles pour la vérification
- Tenir à jour les paramètres de visibilité des articles
Liaison de repositories
- Lier les articles à tous les modèles, datasets et Spaces pertinents
- Inclure le contexte de l'article dans les descriptions du README
- Ajouter les citations BibTeX pour faciliter les références
Articles de recherche
- Utiliser les modèles de manière cohérente dans les projets
- Inclure les liens vers le code et les données dans les articles
- Générer des versions HTML adaptées au web pour le partage

Utilisation avancée

Lier plusieurs articles en lot :

# Lier plusieurs articles à un repository
for arxiv_id in "2301.12345" "2302.67890" "2303.11111"; do
  uv run scripts/paper_manager.py link \
    --repo-id "username/model-name" \
    --repo-type "model" \
    --arxiv-id "$arxiv_id"
done

Extraire les informations de l'article :

# Obtenir les métadonnées de l'article à partir d'arXiv
uv run scripts/paper_manager.py info \
  --arxiv-id "2301.12345" \
  --format "json"

Générer une citation :

# Créer une citation BibTeX
uv run scripts/paper_manager.py citation \
  --arxiv-id "2301.12345" \
  --format "bibtex"

Valider les liens :

# Vérifier tous les liens d'articles dans un repository
uv run scripts/paper_manager.py validate \
  --repo-id "username/model-name" \
  --repo-type "model"

Gestion des erreurs

Article non trouvé : L'ID arXiv n'existe pas ou n'est pas encore indexé
Permission refusée : HF_TOKEN n'a pas accès en écriture au repository
YAML invalide : Métadonnées mal formées dans le frontmatter du README
Échec de l'authorship : L'email ne correspond pas aux enregistrements d'auteur de l'article
Déjà réclamé : Un autre utilisateur a déjà réclamé l'authorship
Limitation de débit : Trop de requêtes API en peu de temps

Dépannage

Problème : « Article non trouvé sur Hugging Face »

Solution : Visiter hf.co/papers/{arxiv-id} pour déclencher l'indexation

Problème : « La réclamation d'authorship n'a pas été vérifiée »

Solution : Attendre la révision d'administration ou contacter le support HF avec une preuve

Problème : « Le tag arXiv n'apparaît pas »

Solution : S'assurer que le README inclut le format URL arXiv approprié

Problème : « Impossible de lier au repository »

Solution : Vérifier que HF_TOKEN a les permissions d'écriture

Problème : « Erreurs de rendu du modèle »

Solution : Vérifier la syntaxe Markdown et le format du frontmatter YAML

Ressources et références

Hugging Face Paper Pages : hf.co/papers
Guide des cartes de modèle : hf.co/docs/hub/model-cards
Guide des cartes de dataset : hf.co/docs/hub/datasets-cards
Modèle d'article de recherche : tfrere/research-article-template
Guide de formatage arXiv : arxiv.org/help/submit

Intégration avec le modèle de recherche de tfrere

Cette skill complète le modèle d'article de recherche de tfrere en fournissant :

Flux de travail d'indexation d'articles automatisés
Capacités de liaison de repositories
Outils de gestion des métadonnées
Utilitaires de génération de citations

Vous pouvez utiliser le modèle de tfrere pour écrire, puis utiliser cette skill pour publier et lier l'article sur le Hub Hugging Face.

Motifs courants

Motif 1 : Publication d'un nouvel article

# Écrire → Publier → Indexer → Lier
uv run scripts/paper_manager.py create --template modern --output paper.md
# (Soumettre à arXiv)
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"

Motif 2 : Découverte d'article existant

# Rechercher → Vérifier → Lier
uv run scripts/paper_manager.py search --query "transformers"
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"

Motif 3 : Gestion du portefeuille d'auteur

# Réclamer → Vérifier → Organiser
uv run scripts/paper_manager.py claim --arxiv-id "2301.12345"
uv run scripts/paper_manager.py list-my-papers
uv run scripts/paper_manager.py toggle-visibility --arxiv-id "2301.12345" --show true

Intégration API

Exemple de script Python :

from scripts.paper_manager import PaperManager

pm = PaperManager(hf_token="your_token")

# Indexer un article
pm.index_paper("2301.12345")

# Lier à un modèle
pm.link_paper(
    repo_id="username/model",
    repo_type="model",
    arxiv_id="2301.12345",
    citation="Full citation text"
)

# Vérifier le statut
status = pm.check_paper("2301.12345")
print(status)

Améliorations futures

Fonctionnalités prévues pour les versions futures :

Support des articles non-arXiv (actes de conférence, journaux)
Formatage automatique des citations à partir du DOI
Outils de comparaison et de versioning des articles
Fonctionnalités d'écriture collaborative
Intégration avec les flux de travail LaTeX
Extraction automatique de figures et de tableaux
Suivi des métriques et de l'impact des articles

huggingface-paper-publisher