prompt-images

Techniques de prompting pour les modèles de génération et d'édition d'images IA sur Replicate. À utiliser lors de la rédaction de prompts pour les modèles d'images ou de la création de fonctionnalités de génération d'images.

npx skills add https://github.com/replicate/skills --skill prompt-images

Prompting image models sur Replicate

Distillé des articles de blog de Replicate sur le prompting de modèles d'images (2024-2026). Les techniques sont model-agnostic et se concentrent sur des principes transférables. Pour la sélection de modèles, les tarifs et la comparaison des fonctionnalités, voir la compétence compare-models.

Rédiger des prompts

Utilisez le langage naturel, pas des listes de mots-clés

Écrivez des phrases complètes décrivant ce que vous voulez. Les modèles d'images modernes comprennent la grammaire et le contexte bien mieux que les prompts remplis de mots-clés.

Bon : "Une femme debout dans une ruelle de Tokyo au crépuscule, des enseignes au néon se reflétant sur le pavé mouillé" Mauvais : "femme, Tokyo, ruelle, crépuscule, néon, pavé mouillé"

Soyez spécifique et sans ambiguïté

Nommez les couleurs exactes, les matériaux, les configurations d'éclairage, l'équipement photographique et les relations spatiales. Les termes vagues comme "améliore" ou "artistique" donnent des résultats imprévisibles.

Bon : "Un bâtiment en béton brutaliste reflété dans une flaque parfaitement immobile après la pluie. Une seule silhouette avec un parapluie rouge marche le long du bord, la seule couleur dans une scène par ailleurs monochrome. Ciel couvert, lumière diffuse plate, effet de tilt-shift sur les bords." Mauvais : "Bâtiment sympa avec une personne à côté, jour de pluie"

Nommez directement les sujets

Utilisez des phrases descriptives comme "la femme aux cheveux noirs courts" ou "la voiture rouge". Évitez les pronoms, qui sont souvent trop ambigus pour les modèles d'images.

Utilisez des prompts longs et détaillés

La plupart des modèles modernes acceptent des milliers de tokens. Les prompts descriptifs longs avec une structure claire surpassent les courts. Un prompt avec 12+ exigences spécifiques (texte sur les objets, diagrammes étiquetés, éléments en code couleur, matériaux spécifiques) peut fonctionner si chaque exigence est énoncée clairement. Mais soyez conscient : plus le prompt est long et complexe, plus il est probable que quelque chose sera omis.

Commencez simple, puis itérez

Commencez par des changements basiques. Testez de petites modifications d'abord, puis construisez sur ce qui fonctionne. La plupart des modèles d'édition supportent l'édition itérative, alors profitez-en.

Langage photographique

Les modèles d'images modernes comprennent profondément la terminologie de la caméra et de la photographie. Utiliser ce vocabulaire vous donne un contrôle précis sur l'apparence.

Caméra et objectif

  • Pellicules : Kodak Portra 800, Fuji Velvia 50, Ilford HP5
  • Caractéristiques d'objectif : 50mm Summilux grande ouverture, 85mm f/1.4, 24mm grand-angle
  • Profondeur de champ : faible (sujet net, arrière-plan flou), profonde (tout au point)
  • Techniques de prise de vue : heure dorée, heure bleue, exposition longue, double exposition

Configurations d'éclairage

  • Éclairage Rembrandt : éclairage portrait classique avec un triangle de lumière sur la joue
  • Éclairage studio diffus doux : reflets nets et ombres douces
  • Éclairage de bordure / contre-jour : sujet encadré par la lumière venant de derrière
  • Lumière diffuse plate : ciel couvert, illumination uniforme, ombres minimales
  • Éclairage volumétrique : faisceaux lumineux visibles, brume, brouillard

Composition

  • Règle des tiers, composition centrée, symétrie
  • Plan large, plan moyen, gros plan, macro
  • Angle haut, angle bas, niveau des yeux, vue aérienne
  • Tilt-shift pour les effets de miniature

Rendu de texte

Le rendu de texte dans les images est une tâche courante. Ces techniques améliorent la précision entre les modèles.

  • Entourez le texte souhaité de guillemets doubles dans le prompt : "Concevez une affiche avec le titre \"BLUE NOTE SESSIONS\" en sans-serif gras condensé"
  • Restez avec des polices lisibles. Le texte très stylisé peut ne pas fonctionner aussi bien.
  • Lors de l'édition de texte dans une image existante, utilisez le modèle : "Changez 'ancien texte' en 'nouveau texte'"
  • Faites correspondre la longueur du texte si possible : les grands changements du nombre de caractères peuvent modifier la mise en page
  • Soyez explicite sur la préservation du style de police si c'est important
  • Pour la typographie complexe (affiches, mises en page éditoriales), recherchez les modèles qui traitent le texte comme faisant partie de la composition plutôt que de l'ajouter simplement par-dessus
  • Certains modèles peuvent inpeindre du texte : masquez la région de texte, invitez avec un nouveau texte, et il correspond à la police et au style d'origine

Transfert de style

  • Nommez le style exact : "peinture impressionniste", "pop art des années 1960", "peinture à l'encre Sumi-e"
  • Référencez des artistes ou des mouvements spécifiques pour une orientation plus claire
  • Si un label de style ne fonctionne pas, décrivez ses traits clés : "coups de pinceau visibles, texture de peinture épaisse, profondeur de couleur riche"
  • Dites ce qui devrait rester pareil : "conservez la composition originale"
  • Quand un style est difficile à décrire en mots, certains modèles supportent l'édition basée sur les exemples : fournissez une paire avant/après, puis une troisième image. Le modèle déduit la transformation et l'applique.
  • Certains modèles acceptent les images de référence de style : téléchargez des visuels capturant la palette de couleurs, la texture, la composition et l'ambiance que vous souhaitez

Cohérence des caractères

Maintenir le même caractère sur plusieurs générations est l'un des défis les plus difficiles de la génération d'images.

  • Commencez par une description de référence claire : "la femme aux cheveux noirs courts et aux yeux verts portant un blazer bleu marine"
  • Dites ce qui change (cadre, activité, style) et ce qui devrait rester pareil (visage, expression, vêtements)
  • Utilisez des images de référence quand le modèle les supporte. Certains modèles gèrent plusieurs images de référence simultanément pour une cohérence plus forte.
  • Divisez les changements de caractères complexes en étapes : changez d'abord la tenue, puis changez de scène
  • Générez des données d'entraînement synthétiques : créez de nombreuses images d'un personnage, choisissez les meilleures, et utilisez-les pour l'ajustement fin ou comme références

Édition d'images

Principes généraux

  • Spécifiez ce qu'il faut garder : énoncez explicitement ce qui devrait rester inchangé. Utilisez des phrases comme "en gardant la pose et l'expression inchangées" ou "maintenez la composition originale."
  • Choisissez les verbes avec soin : "transformer" suggère une refonte complète. Utilisez des actions spécifiques comme "changez les vêtements en veste bleue" ou "remplacez l'arrière-plan par une plage."
  • Soyez précis sur la portée : "Changez l'arrière-plan en plage tout en gardant la personne dans la position exacte, maintenez le placement de sujet identique, l'angle de caméra, le cadrage et la perspective. Remplacez uniquement l'environnement autour d'eux."

Suppression d'objets

  • Décrivez ce qui devrait remplir l'espace laissé, pas seulement ce qu'il faut supprimer
  • Certains modèles d'édition gèrent la suppression proprement ; d'autres laissent des artefacts structurels. Si un modèle a du mal, essayez un autre.

Édition de l'arrière-plan

  • Décrivez le nouvel arrière-plan en détail : éclairage, heure de la journée, environnement
  • Spécifiez que le sujet devrait rester dans la position exacte avec le même éclairage

Changements de perspective et d'angle

  • Ce sont parmi les éditions les plus difficiles. Tous les modèles ne les gèrent pas bien.
  • Certains modèles se limitent à la composition initiale et ont du mal avec les nouveaux angles

Inpainting et outpainting

  • Pour l'inpainting : masquez la région à éditer, puis invitez avec ce qui devrait la remplir
  • Certains modèles ont une fonctionnalité "magic prompt" ou auto-rewrite. Quand c'est activé, vous pouvez vous concentrer sur la description de la région éditée uniquement. Quand c'est désactivé, décrivez la scène entière.
  • Décrire uniquement la région masquée fait que le modèle met davantage l'accent sur le prompt, ce qui peut produire de meilleurs résultats pour les éditions ciblées
  • Le conditionnement de style ControlNet (détection de bordures, cartes de profondeur) aide à préserver la structure lors de la génération

Génération multi-images et storyboard

Certains modèles peuvent générer plusieurs images connexes dans un seul prompt.

  • Demandez "une série", "un ensemble", ou spécifiez une mise en page en grille (p. ex., "grille storyboard 2x2")
  • Décrivez chaque panneau individuellement avec des descriptions de caractères cohérentes
  • Maintenez la continuité de style et de caractère en répétant les descriptions exactes
  • Certains modèles supportent l'édition basée sur les exemples : montrez une paire avant/après pour une image, puis appliquez la même transformation à d'autres

Photographie de produits et travaux commerciaux

  • Spécifiez les matériaux précisément : "acier brossé", "aluminium mat", "papier kraft", "verre dépoli"
  • Décrivez la configuration d'éclairage : "éclairage studio diffus doux, reflets nets et ombres douces"
  • Pour les assets de marque et les icônes, recherchez les modèles qui produisent une sortie SVG native (véritables fichiers vectoriels éditables)
  • Pour les mises en page avec positionnement de marque et de contenu, recherchez les modèles avec une forte composition typographique et de conception

Ajustement fin et LoRAs

  • Utilisez les mots-clés de déclenchement de votre modèle entraîné dans chaque prompt
  • Lors de la combinaison de plusieurs LoRAs, équilibrez leur influence avec des paramètres d'échelle (généralement 0,9-1,1)
  • Générez des données d'entraînement synthétiques : générez de nombreuses images, choisissez les meilleures, réentraînez
  • Utilisez des flux de caractères cohérents pour générer des données d'entraînement à partir d'une seule image de référence

Pièges courants

  1. Prompts remplis de mots-clés : Les modèles modernes réagissent mieux aux phrases en langage naturel qu'aux listes de mots-clés séparés par des virgules. Écrivez comme si vous décriviez une scène, pas en étiquetant une photo.

  2. Utiliser "transformer" quand vous voulez une petite modification : "Transformez la personne en Viking" peut changer toute l'identité. Utilisez un langage ciblé : "changez sa tenue en armure Viking, en gardant son visage et son expression inchangés."

  3. Ne pas spécifier ce qu'il faut garder : En éditant, dites toujours ce qui devrait rester pareil. Sans instructions explicites, les modèles peuvent changer n'importe quoi.

  4. Prompts négatifs sur des modèles non entraînés pour eux : Certains modèles n'ont pas été entraînés avec des prompts négatifs. Les utiliser sur ces modèles introduit du bruit plutôt que de supprimer les éléments indésirables. Vérifiez la documentation du modèle.

  5. Guidance scale (CFG) trop élevée : Si les images paraissent "brûlées" avec un contraste excessif, abaissez la guidance scale. Chaque modèle a une plage recommandée.

  6. S'attendre à des connaissances en temps réel : Aucun modèle d'image n'a accès à Internet. Certains ont de fortes connaissances du monde intégrées à partir des données d'entraînement, mais ce n'est pas en direct.

  7. Prompts courts pour les scènes complexes : Les modèles modernes acceptent des milliers de tokens. Pour les compositions complexes avec de nombreuses exigences spécifiques, utilisez cette capacité.

  8. Ignorer le rapport d'aspect : La plupart des modèles ont des résolutions spécifiques où ils fonctionnent mieux (généralement ~1 mégapixel). Aller trop grand produit des artefacts de bord. Aller trop petit produit des cadres durs. Utilisez les rapports d'aspect recommandés par le modèle.

  9. Mauvais modèle pour la tâche : Pas tous les modèles sont bons à chaque tâche. Certains excellent dans le rendu de texte mais ont du mal avec la suppression d'objets. Certains sont excellents pour le transfert de style mais mauvais pour l'édition d'arrière-plan. Si un modèle a du mal avec un type d'édition spécifique, essayez un autre au lieu de vous battre avec le prompt. Voir la compétence compare-models pour des conseils.

  10. Ne pas itérer : Les meilleurs résultats viennent des flux de travail itératifs. Faites un petit changement, évaluez, affinez, répétez. N'essayez pas d'obtenir tout juste en une seule génération.

Sources

Toutes les techniques dans cette compétence proviennent du blog de Replicate :

Skills similaires