Docs
- Référence : https://replicate.com/docs/llms.txt
- Schéma OpenAPI : https://api.replicate.com/openapi.json
- Serveur MCP : https://mcp.replicate.com
- Docs par modèle :
https://replicate.com/{owner}/{model}/llms.txt - Définir
Accept: text/markdownlors des requêtes vers les pages de docs pour des réponses en Markdown.
Workflow
- Cherchez ou parcourez les collections pour constituer une shortlist de modèles candidats.
- Récupérez le schéma de chaque modèle pour comparer les inputs, outputs et capacités.
- Vérifiez la tarification depuis les métadonnées du modèle ou le site Replicate.
- Exécutez un petit batch de prédictions de test pour comparer la qualité des outputs.
- Choisissez le modèle qui correspond le mieux à vos contraintes (coût, latence, qualité).
Éléments à comparer
- Vitesse : vérifiez
metrics.predict_timesur les prédictions terminées pour le temps d'inférence réel. Les modèles officiels sont toujours chauds. Les modèles communautaires peuvent cold-booter. - Coût : les modèles officiels ont une tarification par exécution prévisible. Les modèles communautaires facturent par temps de calcul (GPU-secondes). Exécutez quelques prédictions et vérifiez le champ
metricspour le coût réel. - Qualité : exécutez les mêmes prompts dans chaque modèle et comparez les outputs. La qualité est subjective. Alignez-la à votre cas d'usage, pas à un leaderboard.
- Capacités : comparez les schémas d'input pour les fonctionnalités supportées (images de référence, masques, ratios d'aspect, streaming, input multi-image). Vérifiez les formats de sortie.
Arbitrages clés
- Coût minimal : modèles plus petits/distillés. Accepter une inférence plus lente et une qualité inférieure.
- Latence minimale : modèles officiels ou variantes schnell/turbo. Accepter un coût plus élevé par exécution.
- Meilleure qualité : variantes pro/max/quality. Accepter une inférence plus lente et un coût plus élevé.
- Contrôle maximal : modèles avec ControlNet, masques ou images de référence. Accepter une configuration d'input plus complexe.
Modèles officiels vs communautaires
- Modèles officiels : toujours chauds, APIs stables, tarification prévisible, maintenus par Replicate.
- Modèles communautaires : peuvent cold-booter, nécessitent le pinning de version, maintenus par l'auteur.
- Si un modèle communautaire répond à vos besoins et qu'un modèle officiel ne le fait pas, envisagez de créer un déploiement pour une uptime cohérente.
Recommandations pour les prompts
Pour les techniques de prompting et les conseils spécifiques aux tâches :
- Génération et édition d'images : voir la skill prompt-images.
- Génération de vidéos : voir la skill prompt-videos.