Docs
- Référence : https://replicate.com/docs/llms.txt
- Schéma OpenAPI : https://api.replicate.com/openapi.json
- Serveur MCP : https://mcp.replicate.com
- Docs par modèle :
https://replicate.com/{owner}/{model}/llms.txt - Définissez
Accept: text/markdownlors de la demande de pages de documentation pour les réponses Markdown.
Flux de travail
- Recherchez ou parcourez les collections pour établir une liste restreinte de modèles candidats.
- Récupérez le schéma de chaque modèle pour comparer les entrées, les sorties et les capacités.
- Vérifiez la tarification à partir des métadonnées du modèle ou du site web Replicate.
- Exécutez un petit lot de prédictions de test pour comparer la qualité de la sortie.
- Choisissez le modèle qui correspond le mieux à vos contraintes (coût, latence, qualité).
Éléments à comparer
- Vitesse : Vérifiez
metrics.predict_timesur les prédictions complétées pour le temps d'inférence réel. Les modèles officiels sont toujours actifs. Les modèles communautaires peuvent démarrer à froid. - Coût : Les modèles officiels ont une tarification prévisible par exécution. Les modèles communautaires facturent selon le temps de calcul (secondes GPU). Exécutez quelques prédictions et vérifiez le champ
metricspour le coût réel. - Qualité : Exécutez les mêmes invites dans chaque modèle et comparez les sorties. La qualité est subjective. Adaptez-la à votre cas d'usage, pas à un classement.
- Capacités : Comparez les schémas d'entrée pour les fonctionnalités prises en charge (images de référence, masques, rapports d'aspect, diffusion en continu, entrée multi-images). Vérifiez les formats de sortie.
Compromis clés
- Coût le plus bas : modèles plus petits/distillés. Acceptez une inférence plus lente et une qualité inférieure.
- Latence la plus faible : modèles officiels ou variantes schnell/turbo. Acceptez un coût plus élevé par exécution.
- Qualité la plus élevée : variantes pro/max/quality. Acceptez une inférence plus lente et un coût plus élevé.
- Contrôle maximal : modèles avec ControlNet, masques ou images de référence. Acceptez une configuration d'entrée plus complexe.
Modèles officiels vs communautaires
- Modèles officiels : toujours actifs, APIs stables, tarification prévisible, maintenus par Replicate.
- Modèles communautaires : peuvent démarrer à froid, nécessitent l'épinglage de version, maintenus par l'auteur.
- Si un modèle communautaire répond à vos besoins et qu'un modèle officiel ne le fait pas, envisagez de créer un déploiement pour une disponibilité cohérente.
Guide de rédaction d'invites
Pour les techniques de rédaction d'invites et les conseils spécifiques à chaque tâche :
- Génération et édition d'images : consultez la compétence prompt-images.
- Génération vidéo : consultez la compétence prompt-videos.