Prompter des modèles vidéo sur Replicate
Distillé des articles de blog de Replicate sur le prompting de modèles vidéo (2025-2026). Les techniques sont indépendantes du modèle et se concentrent sur les principes transférables. Pour la sélection de modèles, la tarification et la comparaison des fonctionnalités, consultez la compétence compare-models.
Description de scène
Un bon prompt vidéo est une description de scène, pas une légende. Décrivez ce qui se passe, où, et à quoi cela ressemble.
Empilez ces éléments dans chaque prompt
- Sujet: Qui ou quoi est dans la scène (une personne, un animal, un objet, un paysage).
- Contexte: Où se trouve le sujet (à l'intérieur, une rue de la ville, une forêt, un couloir de vaisseau spatial).
- Action: Ce que fait le sujet (marche, se tourne, prend un téléphone, court).
- Style: L'esthétique visuelle (cinématographique, animé, stop-motion, documentaire).
- Caméra: Comment la caméra se déplace (dolly shot, travelling, statique, handheld).
- Composition: Comment le plan est cadré (plan large, gros plan, par-dessus l'épaule).
- Ambiance: L'ambiance et l'éclairage (tons chauds, lumière bleue, heure dorée, couvert).
Soyez spécifique, pas vague
Vague : "Une course-poursuite automobile"
Spécifique : "Une course-poursuite automobile à grande vitesse sur une autoroute trempée par la pluie la nuit. Deux voitures de luxe se faufilent dans un trafic dense à 140 km/h, les phares tranchent dans le déluge. Une voiture heurte un semi-remorque envoyant des étincelles à travers six voies. Les pneus dérivent sur l'eau stagnante. Les panneaux lumineux floutent au-dessus de la tête."
Overdécrivez
Les modèles vidéo modernes gèrent bien les prompts longs et denses. N'écrivez pas "un homme au téléphone." Écrivez "un homme désespéré dans un imperméable vert usé décroche un téléphone rotatif monté sur un mur de briques brut, baigné dans la lueur spectrale d'une enseigne néon verte." Chaque détail concret que vous ajoutez laisse au modèle moins de place pour improviser mal.
Nommez les sujets directement
Utilisez des expressions descriptives comme "la femme en veste rouge" ou "l'homme barbu en chemise à carreaux." Évitez les pronoms, qui sont ambigus pour les modèles vidéo tout comme ils le sont pour les modèles d'images.
Caméra et cinématographie
Les modèles vidéo comprennent le langage cinématographique. Utilisez-le pour diriger le plan plutôt que d'espérer un bon cadrage.
Types de plans
Utilisez la terminologie standard des plans pour contrôler le cadrage:
- Plan large/plan d'établissement: montre la scène et l'environnement entiers
- Plan moyen: cadre le sujet environ à partir de la taille vers le haut
- Gros plan: remplit l'écran du visage du sujet ou d'un objet clé
- Très gros plan: isole un détail (un œil, une main saisissant une poignée, une goutte d'eau)
Mouvement de caméra
Décrivez comment la caméra se déplace:
- Statique/trépied: bloquée, aucun mouvement
- Pan: rotation horizontale vers la gauche ou vers la droite
- Tilt: rotation verticale vers le haut ou vers le bas
- Dolly: la caméra se déplace physiquement vers ou loin du sujet
- Travelling: la caméra se déplace à côté du sujet
- Grue: la caméra monte ou descend verticalement
- Handheld: mouvement tremblotant, style documentaire
- Drone/aérien: plans plongeants ou balayage à vol d'oiseau
- Dolly zoom (effet Hitchcock/vertige): l'arrière-plan s'étire tandis que le sujet reste bloqué
Position de caméra
Spécifiez la hauteur et l'angle de la caméra:
- Niveau des yeux: perspective neutre, naturelle
- Angle bas / point de vue d'un ver: regarder vers le haut le sujet (rend les sujets puissants ou imposants)
- Angle haut / vue à vol d'oiseau: regarder vers le bas (rend les sujets petits ou vulnérables)
- Par-dessus l'épaule: cadre un sujet de derrière un autre
- POV / première personne: la caméra est les yeux du sujet
Langage des objectifs et de la mise au point
- Profondeur de champ faible: sujet net, arrière-plan flou
- Mise au point profonde: tout net de l'avant-plan à l'arrière-plan
- Objectif macro: très gros plan avec mise au point faible
- Objectif grand-angle: perspective exagérée, plus d'environnement visible
- Tilt-shift: effet miniature, bande de mise au point sélective
Modèle d'escalade
Une progression naturelle pour les clips courts est large > moyen > gros plan > très gros plan. Cela correspond bien aux clips de 8-15 secondes et donne au modèle une structure claire. Par exemple:
- 0-3s: plan large d'établissement du lieu
- 3-7s: plan moyen, le sujet entre ou agit
- 7-12s: gros plan sur le moment clé
- 12-15s: très gros plan sur un détail (une main, un œil, une goutte de pluie)
Audio et dialogue
De nombreux modèles vidéo génèrent l'audio en natif aux côtés des visuels. Si vous ne promptez pas pour l'audio que vous voulez, le modèle devinera, et il se trompe souvent.
Promptez les quatre couches audio
- Dialogue: Ce que disent les personnages, soit les paroles exactes soit l'intention décrite.
- Son ambiant: L'audio d'arrière-plan de la scène (pluie sur auvents métalliques, trafic urbain, oiseaux de forêt).
- Effets sonores: Des sons spécifiques des actions (une porte claquant, du verre se brisant, une épée tirée).
- Musique: Genre, ambiance et instrumentation (une partition cinématographique tendue, du piano jazz doux, pas de musique).
Si vous omettez l'audio ambiant, les modèles peuvent halluciner des sons inappropriés. Un mode d'échec courant est l'ajout d'un "public de studio en direct" riant en arrière-plan. Prévenir cela en décrivant le paysage sonore explicitement: "bruits de groupes distants, foule bruyante, arrière-plan ambiant d'un champ de festival occupé."
Prompting du dialogue
Il existe deux approches:
- Explicite: "L'homme dit: Je m'appelle Ben." Cela vous donne un contrôle exact sur les paroles.
- Implicite: "L'homme se présente." Cela laisse le modèle décider de la formulation.
Le dialogue explicite doit être assez court pour tenir dans la durée du clip. Empiler trop de dialogue dans un clip de 8 secondes produit une parole anormalement rapide. Trop peu de dialogue peut produire un silence maladroit ou du charabia IA.
Syntaxe qui évite les sous-titres
De nombreux modèles vidéo ont été entraînés sur des vidéos avec des sous-titres intégrés et en ajouteront à la sortie. Pour éviter cela:
- Utilisez un deux-points pour le dialogue: "Elle dit: Bonjour" plutôt que "Elle dit 'Bonjour'"
- Ajoutez "(no subtitles)" au prompt
- Si les sous-titres persistent, répétez l'instruction: "No subtitles. No subtitles!"
Prononciation
Si un modèle misprononce un nom ou un mot, épellez-le phonétiquement dans le prompt. Par exemple, écrivez "foh-fur" au lieu de "fofr" ou "Shreedar" au lieu de "Shridhar."
Qui dit quoi
Dans les scènes multi-personnages, le modèle peut confondre qui dit quoi. Attachez le dialogue à des descriptions visuelles distinctives: "La femme portant du rose dit: ..." et "L'homme avec des lunettes répond: ..."
Prompting multi-plans et codé temporellement
Certains modèles supportent la génération de plusieurs plans dans un seul clip (jusqu'à ~15 secondes). Vous pouvez diriger chaque plan individuellement en utilisant des codes temporels.
Format codé temporellement
Écrivez les horodatages directement dans le prompt:
[0-4s]: Plan large d'établissement, caméra statique, forêt de bambous brumeuse à l'aube
[4-9s]: Plan moyen, poussée lente en avant, le combattant avance
[9-15s]: Gros plan, plan orbital, le combattant frappe, ralenti
Chaque plan doit spécifier:
- Position et mouvement de caméra
- Action du sujet
- Changements d'éclairage ou d'ambiance
Langage de transition
Utilisez des instructions de transition explicites entre les plans:
- "Hard cut to..." pour une commutation abrupte
- "Seamless morph into..." pour une transition fluide
- "Whip pan to..." pour une coupe rapide et énergique
- "Snap cut to..." pour un changement dramatique et brutal
Sans instructions de transition explicites, le modèle improvise, ce qui peut ou non correspondre à votre intention.
Exemple: commercial multi-plans
(0-3s) Macro shot d'une bouteille de parfum de luxe parmi des pivoines roses éparses,
profondeur de champ faible, pétales flottant dans la lumière chaude de l'après-midi,
musique ambiante douce.
(3-7s) La caméra glisse plus proche, une main féminine entre en cadre par la droite,
les doigts touchent doucement la bouteille en verre, le son de la soie qui frôle.
(7-12s) Hard cut au spray au ralenti, la brume dorée se diffuse dans l'air,
les particules attrapent la lumière de bordure sur un fond sombre,
le sifflement du vaporisateur.
(12-15s) Seamless pull-out au cadre héros, produit centré, éclairage volumétrique,
arrière-plan crème minimal, silence élégant.
Entrées de référence
De nombreux modèles vidéo acceptent des images, des clips vidéo ou des fichiers audio comme entrées de référence aux côtés d'un prompt textuel. Cela décale le flux de travail de "prompting" à quelque chose de plus proche de "direction."
Image-to-video
Alimentez une image de départ et décrivez le mouvement. Le modèle anime à partir de ce cadre.
- L'image d'entrée devient le premier cadre de la vidéo
- Décrivez ce qui change (action, mouvement de caméra), pas la scène statique que le modèle peut déjà voir
- La préservation du style est une force: les styles animés, les peintures, les photographies et la gradation des couleurs se conservent tous
- Pour un contrôle de style maximum, générez d'abord l'image de départ avec un modèle d'image spécialisé, puis passez-la au modèle vidéo
Interpolation du premier et du dernier cadre
Certains modèles acceptent à la fois une image de départ et une image de fin. Le modèle génère la transition entre les deux. Ceci est utile pour:
- La morphing entre sujets (par exemple un animal se transformant en un autre)
- Les transformations avant/après (rénovation de pièce, changement de saison)
- Les arcs narratifs contrôlés où vous connaissez l'état initial et final
Références de sujet
Certains modèles acceptent des images de référence de personnages, de produits ou d'objets et maintiennent leur apparence dans la vidéo générée. Ceci est utile pour:
- Les vidéos UGC-style d'examen de produit (image de référence du personnage + image de référence du produit)
- La cohérence de marque dans plusieurs clips vidéo
- Le placement de personnages existants dans de nouveaux scénarios
Lors du référencement d'actifs d'entrée, de nombreux modèles utilisent une syntaxe entre crochets comme [Image1] ou [Audio1] dans le prompt pour spécifier quelle référence correspond à quel rôle: "[Image2] is in the interior of [Image1]."
Génération pilotée par l'audio
Certains modèles acceptent des fichiers audio et synchronisent la vidéo générée avec l'audio. Le modèle peut correspondre à:
- Les mouvements des lèvres au discours
- Les coupes et le mouvement aux beats musicaux
- Le rythme ambiant aux sons environnementaux
Lors de l'utilisation de références audio, il aide également de transcrire le contenu audio dans le texte du prompt lui-même, et de faire correspondre la durée de la vidéo à la longueur audio.
Flux de travail multi-références
Les résultats les plus puissants proviennent de la combinaison de plusieurs types de références:
- Une image pour l'apparence du personnage
- Un clip vidéo pour le style de mouvement
- Une piste audio pour le rythme et le rythme
- Un texte prompt décrivant comment tout s'emboîte
Contrôle du style
Nommez le style explicitement
Les modèles vidéo comprennent les étiquettes de style. Incluez-les directement dans votre prompt:
- "In the style of claymation"
- "Pixar animation style"
- "Anime"
- "Stop-motion"
- "8-bit retro"
- "Graphic novel"
- "Documentary footage"
- "Origami"
- "LEGO"
- "Blueprint technical drawing"
Les étiquettes de style affectent non seulement l'apparence visuelle mais aussi comment les personnages se déplacent et interagissent. Un style claymation produit un mouvement saccadé et stop-motion. Un style anime produit un mouvement fluide et exagéré.
Ancres de qualité
Les phrases comme "hyper-realistic, 8k" ou "cinematic" poussent les modèles vers leur sortie de plus haute fidélité. Utilisez-les quand vous voulez des résultats photoréalistes.
Langage de film et de genre
Référencez des genres spécifiques ou des styles cinématographiques pour l'ambiance et le ton:
- "Michael Mann cinematography" (néon, nuit, urbain)
- "Wes Anderson" (symétrique, pastel, excentrique)
- "Roger Deakins lighting" (naturaliste, précis)
- "Blade Runner 2049 cinematography" (atmosphérique, orange/teal)
- "National Geographic documentary" (nature, régulier, observationnel)
Utilisez les images d'entrée pour le style
Plutôt que de décrire un style verbalement, générez une image avec l'esthétique exacte que vous voulez en utilisant un modèle d'image, puis passez-la au modèle vidéo. Cela vous donne un contrôle au niveau des pixels sur l'apparence. Le modèle vidéo préserve le style, la gradation des couleurs et la composition tout en ajoutant du mouvement.
Grain et texture
L'ajout de "slightly grainy, film-like" ou "VHS aesthetic" repousse la sortie loin de l'apparence trop propre de l'IA et rend les vidéos plus organiques.
Cohérence des personnages
Répétez les descriptions littéralement
Lors de la génération de plusieurs clips avec le même personnage, utilisez des descriptions de personnage identiques dans les prompts. Créez une "character sheet" avec une formulation exacte:
"John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful"
Collez cette description dans chaque prompt où John apparaît. Plus la description est spécifique et unique, plus les résultats sont cohérents.
Ce qu'il faut spécifier
- Apparence physique: âge, cheveux, peau, morphologie
- Vêtements: vêtements exacts, couleurs, matériaux
- Accessoires: lunettes, bijoux, chapeau
- Expression ou maintien: pensif, joyeux, intense
Variez la scène, pas le personnage
Lors du placement d'un personnage cohérent dans des scénarios différents, changez uniquement l'action, le lieu et le travail de caméra. Gardez la description du personnage mot-pour-mot identique.
Images de référence pour l'identité
Si le modèle supporte les images de référence de sujet, utilisez une photo claire du personnage comme entrée. Cela est plus fiable que les descriptions texte seules, en particulier pour maintenir les traits faciaux à travers les clips.
Pièges courants
-
Ne pas décrire l'audio: Si vous omettez le prompting audio, les modèles hallucinent des sons ambiants. Un échec courant est l'ajout d'un rire inapproprié ou d'un "live studio audience." Décrivez toujours le paysage sonore.
-
Trop de dialogue pour la durée du clip: Un clip de 8 secondes peut contenir environ 2-3 phrases courtes. Empiler un paragraphe produit une parole anormalement rapide ou une sortie tronquée.
-
Trop peu de dialogue pour la durée du clip: Si vous ne fournissez que quelques mots pour un clip long, le modèle remplit le silence avec du charabia ou des pauses maladroites. Faites correspondre la longueur du dialogue à la durée du clip.
-
Ne pas spécifier ce qu'il faut garder inchangé: Lors de l'utilisation d'images de référence ou de l'édition, toujours indiquer ce qui doit rester pareil. Sans instructions explicites, les modèles peuvent changer n'importe quoi.
-
Attendre de la variation à partir de prompts identiques: Contrairement aux modèles d'images, certains modèles vidéo produisent des sorties très similaires pour le même prompt (même avec différentes graines). Si vous voulez de la variété, changez le prompt, ne le relancez pas simplement.
-
Ne pas prompter le mouvement de caméra: Sans direction de caméra, vous obtenez des plans statiques ou un mouvement imprévisible. Décrivez la caméra explicitement.
-
Contamination par les sous-titres: De nombreux modèles ont été entraînés sur des vidéos avec des sous-titres intégrés. Utilisez deux-points pour le dialogue (pas de guillemets), ajoutez "(no subtitles)", et répétez si nécessaire.
-
Prompts vagues pour les scènes complexes: Les modèles vidéo modernes gèrent les prompts longs et détaillés. Un prompt avec 12+ exigences spécifiques (mouvements de caméra, éclairage, conception sonore, actions de sujets, détails environnementaux) peut fonctionner si chaque exigence est énoncée clairement. Ne sous-estimez pas ce que vous voulez.
-
Ignorer le rapport d'aspect et la résolution: La plupart des modèles vidéo ont des résolutions spécifiques qu'ils supportent (480p, 720p, 1080p). Vérifiez ce que le modèle supporte et choisissez la bonne résolution pour votre cas d'usage. Si vous avez besoin de vidéo verticale et le modèle ne produit que du paysage, vous devrez peut-être recadrer avec un outil séparé.
-
Oublier que les modèles vidéo n'ont pas d'accès internet: Aucun modèle vidéo n'a d'informations en direct. Ils fonctionnent à partir de données d'entraînement. N'attendez pas qu'ils sachent les événements actuels ou les informations en temps réel.
Sources
Toutes les techniques dans cette compétence sont sourcées du blog de Replicate:
- How to make remarkable videos with Seedance 2.0 (Apr 2026)
- How to prompt Veo 3.1 (Oct 2025)
- How to prompt Veo 3 with images (Aug 2025)
- Open source video is back (Wan 2.2) (Jul 2025)
- Compare AI video models (Jul 2025)
- How to prompt Veo 3 for the best results (Jun 2025)