compare-models — replicate/skills

Docs

Référence : https://replicate.com/docs/llms.txt
Schéma OpenAPI : https://api.replicate.com/openapi.json
Serveur MCP : https://mcp.replicate.com
Docs par modèle : https://replicate.com/{owner}/{model}/llms.txt
Définissez Accept: text/markdown lors de la demande de pages de documentation pour les réponses Markdown.

Recherchez ou parcourez les collections pour établir une liste restreinte de modèles candidats.
Récupérez le schéma de chaque modèle pour comparer les entrées, les sorties et les capacités.
Vérifiez la tarification à partir des métadonnées du modèle ou du site web Replicate.
Exécutez un petit lot de prédictions de test pour comparer la qualité de la sortie.
Choisissez le modèle qui correspond le mieux à vos contraintes (coût, latence, qualité).

Vitesse : Vérifiez metrics.predict_time sur les prédictions complétées pour le temps d'inférence réel. Les modèles officiels sont toujours actifs. Les modèles communautaires peuvent démarrer à froid.
Coût : Les modèles officiels ont une tarification prévisible par exécution. Les modèles communautaires facturent selon le temps de calcul (secondes GPU). Exécutez quelques prédictions et vérifiez le champ metrics pour le coût réel.
Qualité : Exécutez les mêmes invites dans chaque modèle et comparez les sorties. La qualité est subjective. Adaptez-la à votre cas d'usage, pas à un classement.
Capacités : Comparez les schémas d'entrée pour les fonctionnalités prises en charge (images de référence, masques, rapports d'aspect, diffusion en continu, entrée multi-images). Vérifiez les formats de sortie.

Coût le plus bas : modèles plus petits/distillés. Acceptez une inférence plus lente et une qualité inférieure.
Latence la plus faible : modèles officiels ou variantes schnell/turbo. Acceptez un coût plus élevé par exécution.
Qualité la plus élevée : variantes pro/max/quality. Acceptez une inférence plus lente et un coût plus élevé.
Contrôle maximal : modèles avec ControlNet, masques ou images de référence. Acceptez une configuration d'entrée plus complexe.

Modèles officiels : toujours actifs, APIs stables, tarification prévisible, maintenus par Replicate.
Modèles communautaires : peuvent démarrer à froid, nécessitent l'épinglage de version, maintenus par l'auteur.
Si un modèle communautaire répond à vos besoins et qu'un modèle officiel ne le fait pas, envisagez de créer un déploiement pour une disponibilité cohérente.

Pour les techniques de rédaction d'invites et les conseils spécifiques à chaque tâche :