trl

Par mkurman · zorai

Bibliothèque Transformer Reinforcement Learning (TRL). Ajustement fin supervisé (SFT), modélisation de récompense, PPO, DPO, KTO, GRPO pour le RLHF. Modèles de récompense de processus et alignement de modèles de langage.

npx skills add https://github.com/mkurman/zorai --skill trl

Vue d'ensemble

TRL (Transformer Reinforcement Learning) est la bibliothèque de Hugging Face pour RLHF — SFT, reward modeling, PPO, DPO, KTO et GRPO. C'est la boîte à outils standard de post-entraînement pour aligner les modèles de langage avec les préférences humaines.

Installation

uv pip install trl

SFT

from trl import SFTTrainer
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")

trainer = SFTTrainer(
    model=model, tokenizer=tokenizer,
    train_dataset=dataset,
    args=dict(per_device_train_batch_size=4, learning_rate=2e-5, max_seq_length=2048),
)
trainer.train()

DPO

from trl import DPOTrainer

dpo = DPOTrainer(
    model=model, ref_model=ref_model, tokenizer=tokenizer,
    train_dataset=preference_dataset,
    args=dict(per_device_train_batch_size=4, max_length=2048),
)
dpo.train()