Aperçu
Cette skill fournit des outils complets pour les ingénieurs IA et les chercheurs afin de publier, gérer et lier des articles de recherche sur le Hub Hugging Face. Elle rationalise le flux de travail de la création à la publication, y compris l'intégration avec arXiv, la liaison de modèles/datasets, et la gestion de l'authorship.
Intégration avec l'écosystème HF
- Pages d'articles : Indexer et découvrir des articles sur le Hub Hugging Face
- Intégration arXiv : Indexation automatique d'articles à partir d'ID arXiv
- Liaison Modèle/Dataset : Connecter les articles à des artefacts pertinents via les métadonnées
- Vérification de l'authorship : Réclamer et vérifier l'authorship d'un article
- Modèle d'article de recherche : Générer des articles scientifiques professionnels et modernes
Version
1.0.0
Dépendances
Le script fourni utilise les dépendances inline PEP 723. Préférez uv run à la configuration manuelle de l'environnement.
- huggingface_hub>=0.26.0
- pyyaml>=6.0.3
- requests>=2.32.5
- markdown>=3.5.0
- python-dotenv>=1.2.1
Capacités principales
1. Gestion des pages d'articles
- Indexer des articles : Ajouter des articles à Hugging Face à partir d'arXiv
- Réclamer l'authorship : Vérifier et réclamer l'authorship sur des articles publiés
- Gérer la visibilité : Contrôler quels articles apparaissent sur votre profil
- Découverte d'articles : Trouver et explorer les articles dans l'écosystème HF
2. Lier des articles à des artefacts
- Cartes de modèle : Ajouter des citations d'articles aux métadonnées du modèle
- Cartes de dataset : Lier des articles aux datasets via le README
- Tagging automatique : Le Hub génère automatiquement les tags arxiv:<PAPER_ID>
- Gestion des citations : Maintenir une attribution et des références appropriées
3. Création d'articles de recherche
- Modèles Markdown : Générer un formatage d'article professionnel
- Design moderne : Mises en page d'articles de recherche claires et lisibles
- TOC dynamique : Génération automatique de la table des matières
- Structure de sections : Organisation standard des articles scientifiques
- Mathématiques LaTeX : Support des équations et notations techniques
4. Gestion des métadonnées
- Frontmatter YAML : Métadonnées appropriées pour les cartes de modèle/dataset
- Suivi des citations : Maintenir les références d'articles dans les repositories
- Contrôle de version : Suivi des mises à jour et révisions d'articles
- Support multi-articles : Lier plusieurs articles à un seul artefact
Instructions d'utilisation
La skill inclut des scripts Python dans scripts/ pour les opérations de publication d'articles.
Prérequis
- Exécutez les scripts avec
uv run(les dépendances sont résolues à partir de l'en-tête du script) - Définissez la variable d'environnement
HF_TOKENavec un token ayant accès en écriture
Tous les chemins sont relatifs au répertoire contenant ce fichier SKILL.md. Avant d'exécuter tout script, d'abord
cdvers ce répertoire ou utilisez le chemin complet.
Méthode 1 : Indexer un article à partir d'arXiv
Ajouter un article à Hugging Face Paper Pages à partir d'arXiv.
Utilisation basique :
uv run scripts/paper_manager.py index \
--arxiv-id "2301.12345"
Vérifier si l'article existe :
uv run scripts/paper_manager.py check \
--arxiv-id "2301.12345"
Accès direct par URL :
Vous pouvez aussi visiter https://huggingface.co/papers/{arxiv-id} directement pour indexer un article.
Méthode 2 : Lier un article à un modèle/dataset
Ajouter des références d'articles au README d'un modèle ou dataset avec les métadonnées YAML appropriées.
Ajouter à la carte de modèle :
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-id "2301.12345"
Ajouter à la carte de dataset :
uv run scripts/paper_manager.py link \
--repo-id "username/dataset-name" \
--repo-type "dataset" \
--arxiv-id "2301.12345"
Ajouter plusieurs articles :
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-ids "2301.12345,2302.67890,2303.11111"
Avec citation personnalisée :
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-id "2301.12345" \
--citation "$(cat citation.txt)"
Fonctionnement de la liaison
Quand vous ajoutez un lien vers un article arXiv dans le README d'un modèle ou dataset :
- Le Hub extrait l'ID arXiv du lien
- Un tag
arxiv:<PAPER_ID>est automatiquement ajouté au repository - Les utilisateurs peuvent cliquer sur le tag pour voir la page de l'article
- La page de l'article affiche tous les modèles/datasets citant cet article
- Les articles sont découvrables via les filtres et la recherche
Méthode 3 : Réclamer l'authorship
Vérifier votre authorship sur les articles publiés sur Hugging Face.
Démarrer le processus de réclamation :
uv run scripts/paper_manager.py claim \
--arxiv-id "2301.12345" \
--email "your.email@institution.edu"
Processus manuel :
- Accédez à la page de votre article :
https://huggingface.co/papers/{arxiv-id} - Trouvez votre nom dans la liste des auteurs
- Cliquez sur votre nom et sélectionnez « Réclamer l'authorship »
- Attendez la vérification de l'équipe d'administration
Vérifier le statut de l'authorship :
uv run scripts/paper_manager.py check-authorship \
--arxiv-id "2301.12345"
Méthode 4 : Gérer la visibilité des articles
Contrôler quels articles vérifiés apparaissent sur votre profil public.
Lister vos articles :
uv run scripts/paper_manager.py list-my-papers
Basculer la visibilité :
uv run scripts/paper_manager.py toggle-visibility \
--arxiv-id "2301.12345" \
--show true
Gérer dans les paramètres : Naviguez vers les paramètres de votre compte → section Articles pour basculer « Afficher sur le profil » pour chaque article.
Méthode 5 : Créer un article de recherche
Générer un article de recherche professionnel basé sur Markdown en utilisant des modèles modernes.
Créer à partir d'un modèle :
uv run scripts/paper_manager.py create \
--template "standard" \
--title "Your Paper Title" \
--output "paper.md"
Modèles disponibles :
standard- Structure d'article scientifique traditionnellemodern- Format moderne et adapté au web inspiré de Distillarxiv- Formatage de style arXivml-report- Rapport d'expérience en machine learning
Générer un article complet :
uv run scripts/paper_manager.py create \
--template "modern" \
--title "Fine-Tuning Large Language Models with LoRA" \
--authors "Jane Doe, John Smith" \
--abstract "$(cat abstract.txt)" \
--output "paper.md"
Convertir en HTML :
uv run scripts/paper_manager.py convert \
--input "paper.md" \
--output "paper.html" \
--style "modern"
Structure du modèle d'article
Sections standards d'un article de recherche :
---
title: Your Paper Title
authors: Jane Doe, John Smith
affiliations: University X, Lab Y
date: 2025-01-15
arxiv: 2301.12345
tags: [machine-learning, nlp, fine-tuning]
---
# Abstract
Brief summary of the paper...
# 1. Introduction
Background and motivation...
# 2. Related Work
Previous research and context...
# 3. Methodology
Approach and implementation...
# 4. Experiments
Setup, datasets, and procedures...
# 5. Results
Findings and analysis...
# 6. Discussion
Interpretation and implications...
# 7. Conclusion
Summary and future work...
# References
Fonctionnalités du modèle moderne :
- Table des matières dynamique
- Design responsive pour la consultation web
- Surbrillance syntaxique du code
- Figures et graphiques interactifs
- Rendu des équations mathématiques (LaTeX)
- Gestion des citations
- Liaison des affiliations d'auteurs
Référence des commandes
Indexer un article :
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
Lier à un repository :
uv run scripts/paper_manager.py link \
--repo-id "username/repo-name" \
--repo-type "model|dataset|space" \
--arxiv-id "2301.12345" \
[--citation "Full citation text"] \
[--create-pr]
Réclamer l'authorship :
uv run scripts/paper_manager.py claim \
--arxiv-id "2301.12345" \
--email "your.email@edu"
Gérer la visibilité :
uv run scripts/paper_manager.py toggle-visibility \
--arxiv-id "2301.12345" \
--show true|false
Créer un article de recherche :
uv run scripts/paper_manager.py create \
--template "standard|modern|arxiv|ml-report" \
--title "Paper Title" \
[--authors "Author1, Author2"] \
[--abstract "Abstract text"] \
[--output "filename.md"]
Convertir Markdown en HTML :
uv run scripts/paper_manager.py convert \
--input "paper.md" \
--output "paper.html" \
[--style "modern|classic"]
Vérifier le statut de l'article :
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
Lister vos articles :
uv run scripts/paper_manager.py list-my-papers
Rechercher des articles :
uv run scripts/paper_manager.py search --query "transformer attention"
Format des métadonnées YAML
Quand vous liez des articles à des modèles ou datasets, un frontmatter YAML approprié est requis :
Exemple de carte de modèle :
---
language:
- en
license: apache-2.0
tags:
- text-generation
- transformers
- llm
library_name: transformers
---
# Model Name
This model is based on the approach described in [Our Paper](https://arxiv.org/abs/2301.12345).
## Citation
```bibtex
@article{doe2023paper,
title={Your Paper Title},
author={Doe, Jane and Smith, John},
journal={arXiv preprint arXiv:2301.12345},
year={2023}
}
**Exemple de carte de dataset :**
```yaml
---
language:
- en
license: cc-by-4.0
task_categories:
- text-generation
- question-answering
size_categories:
- 10K<n<100K
---
# Dataset Name
Dataset introduced in [Our Paper](https://arxiv.org/abs/2301.12345).
For more details, see the [paper page](https://huggingface.co/papers/2301.12345).
Le Hub extrait automatiquement les ID arXiv de ces liens et crée les tags arxiv:2301.12345.
Exemples d'intégration
Flux de travail 1 : Publier une nouvelle recherche
# 1. Créer un article de recherche
uv run scripts/paper_manager.py create \
--template "modern" \
--title "Novel Fine-Tuning Approach" \
--output "paper.md"
# 2. Éditer paper.md avec votre contenu
# 3. Soumettre à arXiv (processus externe)
# Télécharger vers arxiv.org, obtenir l'ID arXiv
# 4. Indexer sur Hugging Face
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
# 5. Lier à votre modèle
uv run scripts/paper_manager.py link \
--repo-id "your-username/your-model" \
--repo-type "model" \
--arxiv-id "2301.12345"
# 6. Réclamer l'authorship
uv run scripts/paper_manager.py claim \
--arxiv-id "2301.12345" \
--email "your.email@edu"
Flux de travail 2 : Lier un article existant
# 1. Vérifier si l'article existe
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
# 2. Indexer si nécessaire
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
# 3. Lier à plusieurs repositories
uv run scripts/paper_manager.py link \
--repo-id "username/model-v1" \
--repo-type "model" \
--arxiv-id "2301.12345"
uv run scripts/paper_manager.py link \
--repo-id "username/training-data" \
--repo-type "dataset" \
--arxiv-id "2301.12345"
uv run scripts/paper_manager.py link \
--repo-id "username/demo-space" \
--repo-type "space" \
--arxiv-id "2301.12345"
Flux de travail 3 : Mettre à jour un modèle avec une référence d'article
# 1. Récupérer le README courant
hf download username/model-name README.md
# 2. Ajouter le lien vers l'article
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-id "2301.12345" \
--citation "Full citation for the paper"
# Le script va :
# - Ajouter les métadonnées YAML si manquantes
# - Insérer le lien arXiv dans le README
# - Ajouter la citation formatée
# - Préserver le contenu existant
Bonnes pratiques
-
Indexation d'articles
- Indexer les articles dès leur publication sur arXiv
- Inclure les informations de citation complètes dans les cartes de modèle/dataset
- Utiliser des références d'articles cohérentes dans les repositories liés
-
Gestion des métadonnées
- Ajouter un frontmatter YAML à toutes les cartes de modèle/dataset
- Inclure les informations de licence appropriées
- Étiqueter avec les catégories de tâches et domaines pertinents
-
Authorship
- Réclamer l'authorship sur les articles où vous êtes listé comme auteur
- Utiliser des adresses email institutionnelles pour la vérification
- Tenir à jour les paramètres de visibilité des articles
-
Liaison de repositories
- Lier les articles à tous les modèles, datasets et Spaces pertinents
- Inclure le contexte de l'article dans les descriptions du README
- Ajouter les citations BibTeX pour faciliter les références
-
Articles de recherche
- Utiliser les modèles de manière cohérente dans les projets
- Inclure les liens vers le code et les données dans les articles
- Générer des versions HTML adaptées au web pour le partage
Utilisation avancée
Lier plusieurs articles en lot :
# Lier plusieurs articles à un repository
for arxiv_id in "2301.12345" "2302.67890" "2303.11111"; do
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-id "$arxiv_id"
done
Extraire les informations de l'article :
# Obtenir les métadonnées de l'article à partir d'arXiv
uv run scripts/paper_manager.py info \
--arxiv-id "2301.12345" \
--format "json"
Générer une citation :
# Créer une citation BibTeX
uv run scripts/paper_manager.py citation \
--arxiv-id "2301.12345" \
--format "bibtex"
Valider les liens :
# Vérifier tous les liens d'articles dans un repository
uv run scripts/paper_manager.py validate \
--repo-id "username/model-name" \
--repo-type "model"
Gestion des erreurs
- Article non trouvé : L'ID arXiv n'existe pas ou n'est pas encore indexé
- Permission refusée : HF_TOKEN n'a pas accès en écriture au repository
- YAML invalide : Métadonnées mal formées dans le frontmatter du README
- Échec de l'authorship : L'email ne correspond pas aux enregistrements d'auteur de l'article
- Déjà réclamé : Un autre utilisateur a déjà réclamé l'authorship
- Limitation de débit : Trop de requêtes API en peu de temps
Dépannage
Problème : « Article non trouvé sur Hugging Face »
- Solution : Visiter
hf.co/papers/{arxiv-id}pour déclencher l'indexation
Problème : « La réclamation d'authorship n'a pas été vérifiée »
- Solution : Attendre la révision d'administration ou contacter le support HF avec une preuve
Problème : « Le tag arXiv n'apparaît pas »
- Solution : S'assurer que le README inclut le format URL arXiv approprié
Problème : « Impossible de lier au repository »
- Solution : Vérifier que HF_TOKEN a les permissions d'écriture
Problème : « Erreurs de rendu du modèle »
- Solution : Vérifier la syntaxe Markdown et le format du frontmatter YAML
Ressources et références
- Hugging Face Paper Pages : hf.co/papers
- Guide des cartes de modèle : hf.co/docs/hub/model-cards
- Guide des cartes de dataset : hf.co/docs/hub/datasets-cards
- Modèle d'article de recherche : tfrere/research-article-template
- Guide de formatage arXiv : arxiv.org/help/submit
Intégration avec le modèle de recherche de tfrere
Cette skill complète le modèle d'article de recherche de tfrere en fournissant :
- Flux de travail d'indexation d'articles automatisés
- Capacités de liaison de repositories
- Outils de gestion des métadonnées
- Utilitaires de génération de citations
Vous pouvez utiliser le modèle de tfrere pour écrire, puis utiliser cette skill pour publier et lier l'article sur le Hub Hugging Face.
Motifs courants
Motif 1 : Publication d'un nouvel article
# Écrire → Publier → Indexer → Lier
uv run scripts/paper_manager.py create --template modern --output paper.md
# (Soumettre à arXiv)
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"
Motif 2 : Découverte d'article existant
# Rechercher → Vérifier → Lier
uv run scripts/paper_manager.py search --query "transformers"
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"
Motif 3 : Gestion du portefeuille d'auteur
# Réclamer → Vérifier → Organiser
uv run scripts/paper_manager.py claim --arxiv-id "2301.12345"
uv run scripts/paper_manager.py list-my-papers
uv run scripts/paper_manager.py toggle-visibility --arxiv-id "2301.12345" --show true
Intégration API
Exemple de script Python :
from scripts.paper_manager import PaperManager
pm = PaperManager(hf_token="your_token")
# Indexer un article
pm.index_paper("2301.12345")
# Lier à un modèle
pm.link_paper(
repo_id="username/model",
repo_type="model",
arxiv_id="2301.12345",
citation="Full citation text"
)
# Vérifier le statut
status = pm.check_paper("2301.12345")
print(status)
Améliorations futures
Fonctionnalités prévues pour les versions futures :
- Support des articles non-arXiv (actes de conférence, journaux)
- Formatage automatique des citations à partir du DOI
- Outils de comparaison et de versioning des articles
- Fonctionnalités d'écriture collaborative
- Intégration avec les flux de travail LaTeX
- Extraction automatique de figures et de tableaux
- Suivi des métriques et de l'impact des articles