prompt-videos

Techniques de prompting pour les modèles de génération vidéo par IA sur Replicate. À utiliser lors de la rédaction de prompts pour des modèles vidéo ou de la création de fonctionnalités de génération vidéo.

npx skills add https://github.com/replicate/skills --skill prompt-videos

Prompting de modèles vidéo sur Replicate

Tiré des articles de blog Replicate sur le prompting de modèles vidéo (2025-2026). Les techniques sont agnostiques au modèle et se concentrent sur des principes transférables. Pour la sélection de modèles, les tarifs et la comparaison des fonctionnalités, voir la skill compare-models.

Description de scène

Un bon prompt vidéo est une description de scène, pas une légende. Écrivez ce qui se passe, où, et comment c'est.

Superposez ces éléments dans chaque prompt

  1. Sujet : Qui ou quoi est dans la scène (une personne, un animal, un objet, un paysage).
  2. Contexte : Où se trouve le sujet (en intérieur, dans une rue de ville, une forêt, un couloir de vaisseau spatial).
  3. Action : Ce que fait le sujet (marche, tourne, répond au téléphone, court).
  4. Style : L'esthétique visuelle (cinématographique, animé, stop-motion, documentaire).
  5. Caméra : Comment la caméra se déplace (travelling, suivi, statique, handheld).
  6. Composition : Comment le plan est cadré (plan large, gros plan, par-dessus l'épaule).
  7. Ambiance : Mood et éclairage (tons chauds, lumière bleue, heure dorée, temps couvert).

Soyez spécifique, pas vague

Vague : « Une course-poursuite automobile »

Spécifique : « Une course-poursuite automobile à grande vitesse sur une autoroute trempée de pluie la nuit. Deux voitures de sport se faufilent à travers le trafic dense à 225 km/h, les phares tranchant la pluie. Une voiture heurte un semi-remorque envoyant des étincelles cascader sur six voies. Les pneus aquaplannent sur l'eau stagnante. Les panneaux lumineux au néon de l'autoroute deviennent flous au-dessus. »

Surdécrivez

Les modèles vidéo modernes gèrent bien les prompts longs et denses. N'écrivez pas « un homme au téléphone ». Écrivez « un homme désespéré dans un trench-coat vert usé saisit un téléphone rotatif monté sur un mur de brique crasseux, baigné de la lueur étrange d'une enseigne au néon verte ». Chaque détail concret que vous ajoutez laisse au modèle moins de place pour improviser mal.

Nommez directement les sujets

Utilisez des expressions descriptives comme « la femme en veste rouge » ou « l'homme barbu en chemise à carreaux ». Évitez les pronoms, qui sont ambigus pour les modèles vidéo comme pour les modèles d'image.

Caméra et cinématographie

Les modèles vidéo comprennent le langage cinématographique. Utilisez-le pour diriger le plan plutôt que d'espérer un bon cadrage.

Types de plans

Utilisez la terminologie standard des plans pour contrôler le cadrage :

  • Plan large/d'établissement : montre l'ensemble de la scène et de l'environnement
  • Plan moyen : cadre le sujet grosso modo à partir de la taille vers le haut
  • Gros plan : remplit l'écran du visage du sujet ou d'un objet clé
  • Très gros plan : isole un détail (un œil, une main agrippant une poignée, une goutte d'eau)

Mouvement de caméra

Décrivez comment la caméra se déplace :

  • Statique/trépied : verrouillée, aucun mouvement
  • Panoramique : rotation horizontale gauche ou droite
  • Tilt : rotation verticale haut ou bas
  • Travelling : la caméra se déplace physiquement vers ou loin du sujet
  • Suivi : la caméra se déplace aux côtés du sujet
  • Grue : la caméra monte ou descend verticalement
  • Handheld : mouvement tremblant, style documentaire
  • Drone/aérien : plans généraux ou de balayage à vol d'oiseau
  • Dolly zoom (effet Hitchcock/vertige) : l'arrière-plan s'étire tandis que le sujet reste verrouillé

Position de caméra

Spécifiez la hauteur et l'angle de la caméra :

  • Hauteur des yeux : perspective neutre, naturelle
  • Plongée / vers le bas : regarder de haut le sujet (rend les sujets puissants ou imposants)
  • Contre-plongée / vers le haut : regarder de bas le sujet (rend les sujets petits ou vulnérables)
  • Par-dessus l'épaule : cadre un sujet vue de derrière un autre
  • POV / vue subjective : la caméra est les yeux du sujet

Langage d'optique et de mise au point

  • Profondeur de champ réduite : sujet net, arrière-plan flou
  • Profondeur de champ étendue : tout net de l'avant-plan à l'arrière-plan
  • Objectif macro : gros plan extrême avec mise au point réduite
  • Objectif grand-angle : perspective exagérée, plus d'environnement visible
  • Tilt-shift : effet miniature, bande de mise au point sélective

Motif d'escalade

Une progression naturelle pour les clips courts est large > moyen > gros plan > très gros plan. Cela correspond bien aux clips de 8-15 secondes et donne au modèle une structure claire. Par exemple :

  • 0-3s : plan large d'établissement du lieu
  • 3-7s : plan moyen, le sujet entre ou agit
  • 7-12s : gros plan sur le moment clé
  • 12-15s : très gros plan sur un détail (une main, un œil, une goutte de pluie)

Audio et dialogue

De nombreux modèles vidéo génèrent l'audio nativement aux côtés des visuels. Si vous ne promptez pas pour l'audio que vous voulez, le modèle devinera, et il se trompe souvent.

Promptez les quatre couches audio

  1. Dialogue : Ce que les personnages disent, soit les paroles exactes, soit l'intention décrite.
  2. Son ambiant : L'audio de fond de la scène (pluie sur des auvents métalliques, trafic urbain, oiseaux de forêt).
  3. Effets sonores : Bruits spécifiques des actions (une porte qui claque, du verre qui se brise, une épée tirée du fourreau).
  4. Musique : Genre, mood et instrumentation (une partition cinématographique tendue, un piano jazz doux, pas de musique).

Si vous sautez l'audio ambiant, les modèles peuvent halluciner des sons inappropriés. Un mode d'échec courant est l'ajout d'un « public de studio en direct » riant en arrière-plan. Prévenez cela en décrivant explicitement la bande sonore : « bruits de groupes lointains, foule bruyante, arrière-plan ambiant d'un champ de festival chargé. »

Prompting du dialogue

Il y a deux approches :

  • Explicite : « L'homme dit : Mon nom est Ben. » Cela vous donne un contrôle exact sur les paroles.
  • Implicite : « L'homme se présente. » Cela laisse le modèle décider de la formulation.

Le dialogue explicite doit être assez court pour tenir dans la durée du clip. Empiler trop de dialogue dans un clip de 8 secondes produit une parole anormalement rapide. Trop peu de dialogue peut produire un silence maladroit ou du charabia IA.

Syntaxe qui évite les sous-titres

De nombreux modèles vidéo ont été entraînés sur des vidéos avec des sous-titres intégrés et les ajouteront aux sorties. Pour éviter cela :

  • Utilisez un deux-points pour le dialogue : « Elle dit : Bonjour là » plutôt que « Elle dit 'Bonjour là' »
  • Ajoutez « (no subtitles) » au prompt
  • Si les sous-titres persistent, répétez l'instruction : « No subtitles. No subtitles! »

Prononciation

Si un modèle méprononce un nom ou un mot, épellez-le phonétiquement dans le prompt. Par exemple, écrivez « foh-fur » au lieu de « fofr » ou « Shreedar » au lieu de « Shridhar ».

Qui dit quoi

Dans les scènes multi-personnages, le modèle peut mélanger qui dit quoi. Attachez le dialogue à des descriptions visuelles distinctives : « La femme en rose dit : ... » et « L'homme avec des lunettes répond : ... »

Prompting multi-plans et avec codes temporels

Certains modèles supportent la génération de plusieurs plans dans un seul clip (jusqu'à ~15 secondes). Vous pouvez diriger chaque plan individuellement en utilisant des codes temporels.

Format avec code temporel

Écrivez les timestamps directement dans le prompt :

[0-4s]: Plan large d'établissement, caméra statique, forêt de bambou brumeuse à l'aube
[4-9s]: Plan moyen, push-in lent, le combattant s'avance
[9-15s]: Gros plan, plan en orbite, le combattant frappe, ralenti

Chaque plan doit spécifier :

  • Position et mouvement de caméra
  • Action du sujet
  • Décalages d'éclairage ou de mood

Langage de transition

Utilisez des instructions de transition explicites entre les plans :

  • « Coupe nette vers... » pour un changement abrupt
  • « Transition fluide vers... » pour une transition fluide
  • « Panoramique rapide vers... » pour une coupe rapide et énergique
  • « Coupe nette vers... » pour un changement brusque et dramatique

Sans transitions explicites, le modèle improvise, ce qui peut ou non correspondre à votre intention.

Exemple : commercial multi-plans

(0-3s) Plan macro d'une bouteille de parfum de luxe parmi des pivoines roses éparpillées,
       profondeur de champ réduite, pétales flottant dans la lumière chaude de l'après-midi,
       musique ambiante douce.
(3-7s) La caméra glisse plus près, une main féminine entre dans le cadre par la droite,
       les doigts touchent doucement la bouteille en verre, son de soie froissée.
(7-12s) Coupe nette vers pulvérisation au ralenti, brume dorée diffuse dans l'air,
        les particules capturant la lumière de bord contre un fond sombre,
        le sifflement de l'atomiseur.
(12-15s) Recul fluide vers le plan héros, produit centré, éclairage volumétrique,
         arrière-plan minimaliste crème, silence élégant.

Entrées de référence

De nombreux modèles vidéo acceptent des images, des clips vidéo ou des fichiers audio comme entrées de référence aux côtés d'un prompt texte. Cela transforme le workflow de « prompting » à quelque chose de plus proche de « direction ».

Image-vers-vidéo

Fournirez une image de démarrage et décrivez le mouvement. Le modèle anime à partir de ce cadre.

  • L'image d'entrée devient le premier cadre de la vidéo
  • Décrivez ce qui change (action, mouvement de caméra), pas la scène statique que le modèle peut déjà voir
  • La préservation du style est un point fort : les styles animés, les peintures, les photographies et les corrections de couleurs se conservent
  • Pour un contrôle de style maximal, générez d'abord l'image de démarrage avec un modèle d'image spécialisé, puis passez-la au modèle vidéo

Interpolation de premier et dernier cadre

Certains modèles acceptent à la fois une image de démarrage et une image de fin. Le modèle génère la transition entre elles. C'est utile pour :

  • Morphing entre les sujets (par ex. un animal se transformant en un autre)
  • Transformations avant/après (rénovation de pièce, changement saisonnier)
  • Arcs narratifs contrôlés où vous connaissez l'état initial et final

Références de sujet

Certains modèles acceptent des images de référence de caractères, de produits ou d'objets et maintiennent leur apparence dans la vidéo générée. C'est utile pour :

  • Vidéos d'avis de produits style UGC (image de référence du personnage + image de référence du produit)
  • Cohérence de marque sur plusieurs clips vidéo
  • Placer des personnages existants dans des scénarios nouveaux

Quand vous référencez des actifs d'entrée, de nombreux modèles utilisent une syntaxe entre crochets comme [Image1] ou [Audio1] dans le prompt pour spécifier quelle référence correspond à quel rôle : « [Image2] est à l'intérieur de [Image1]. »

Génération basée sur l'audio

Certains modèles acceptent des fichiers audio et synchronisent la vidéo générée à l'audio. Le modèle peut correspondre à :

  • Les mouvements des lèvres à la parole
  • Les coupes et le mouvement aux coups musicaux
  • Le rythme ambiant aux sons environnementaux

Quand vous utilisez des références audio, cela aide aussi de transcrire le contenu audio dans le prompt texte lui-même et de faire correspondre la durée de la vidéo à la longueur de l'audio.

Workflows multi-références

Les résultats les plus puissants proviennent de la combinaison de plusieurs types de références :

  • Une image pour l'apparence du personnage
  • Un clip vidéo pour le style de mouvement
  • Une piste audio pour le rythme et le pacing
  • Un prompt texte décrivant comment tout s'emboîte

Contrôle du style

Nommez le style explicitement

Les modèles vidéo comprennent les labels de style. Incluez-les directement dans votre prompt :

  • « In the style of claymation »
  • « Pixar animation style »
  • « Anime »
  • « Stop-motion »
  • « 8-bit retro »
  • « Graphic novel »
  • « Documentary footage »
  • « Origami »
  • « LEGO »
  • « Blueprint technical drawing »

Les labels de style affectent non seulement l'apparence visuelle mais aussi comment les personnages se déplacent et interagissent. Un style claymation produit un mouvement saccadé et en stop-motion. Un style anime produit un mouvement fluide et exagéré.

Ancres de qualité

Des phrases comme « hyper-realistic, 8k » ou « cinematic » poussent les modèles vers leur sortie la plus haute fidélité. Utilisez-les quand vous voulez des résultats photorréalistes.

Langage de film et de genre

Référencez des genres spécifiques ou des styles cinématographiques pour le mood et le ton :

  • « Michael Mann cinematography » (néon, nuit, urbain)
  • « Wes Anderson » (symétrique, pastel, excentrique)
  • « Roger Deakins lighting » (naturaliste, précis)
  • « Blade Runner 2049 cinematography » (atmosphérique, orange/cyan)
  • « National Geographic documentary » (nature, stable, observationnel)

Utilisez des images d'entrée pour le style

Plutôt que de décrire verbalement un style, générez une image avec l'esthétique exacte que vous voulez en utilisant un modèle d'image, puis passez-la au modèle vidéo. Cela vous donne un contrôle au niveau du pixel sur l'apparence. Le modèle vidéo préserve le style, la correction de couleurs et la composition tout en ajoutant du mouvement.

Grain et texture

Ajouter « slightly grainy, film-like » ou « VHS aesthetic » pousse la sortie loin du look trop propre de l'IA et rend les vidéos plus organiques.

Cohérence des personnages

Répétez les descriptions verbatim

Quand vous générez plusieurs clips avec le même personnage, utilisez des descriptions de personnage identiques dans tous les prompts. Créez une « character sheet » avec une formulation exacte :

« John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful »

Collez cette description dans chaque prompt où John apparaît. Plus la description est spécifique et unique, plus les résultats sont cohérents.

Ce qu'il faut spécifier

  • Apparence physique : âge, cheveux, peau, carrure
  • Vêtements : vêtements exacts, couleurs, matériaux
  • Accessoires : lunettes, bijoux, chapeau
  • Expression ou port : pensif, joyeux, intense

Variez la scène, pas le personnage

Quand vous placez un personnage cohérent dans différents scénarios, changez seulement l'action, le lieu et le travail de caméra. Gardez la description du personnage mot-pour-mot identique.

Images de référence pour l'identité

Si le modèle supporte des images de référence de sujet, utilisez une photo claire du personnage comme entrée. C'est plus fiable que les descriptions textes seules, surtout pour maintenir les traits du visage sur les clips.

Pièges courants

  1. Ne pas décrire l'audio : Si vous sautez le prompting audio, les modèles hallucinent des sons ambiants. Un échec courant est l'ajout de rires inappropriés ou d'un « public de studio en direct ». Décrivez toujours la bande sonore.

  2. Trop de dialogue pour la longueur du clip : Un clip de 8 secondes peut tenir environ 2-3 courtes phrases. Empiler un paragraphe produit une parole anormalement rapide ou une sortie tronquée.

  3. Pas assez de dialogue pour la longueur du clip : Si vous ne fournirez que quelques mots pour un long clip, le modèle remplit le silence avec du charabia ou des pauses maladroites. Faites correspondre la longueur du dialogue à la durée du clip.

  4. Ne pas spécifier ce qu'il faut garder inchangé : Quand vous utilisez des images de référence ou faites de l'édition, énoncez toujours ce qui devrait rester pareil. Sans instructions explicites, les modèles peuvent tout changer.

  5. Attendre de la variation à partir de prompts identiques : Contrairement aux modèles d'image, certains modèles vidéo produisent des sorties très similaires pour le même prompt (même avec des seeds différentes). Si vous voulez de la variété, changez le prompt, ne le relancez pas simplement.

  6. Ne pas prompter le mouvement de caméra : Sans direction de caméra, vous obtenez soit des plans statiques soit un mouvement imprévisible. Décrivez la caméra explicitement.

  7. Contamination par les sous-titres : De nombreux modèles ont été entraînés sur des vidéos avec des sous-titres intégrés. Utilisez les deux-points pour le dialogue (pas les guillemets), ajoutez « (no subtitles) », et répétez si nécessaire.

  8. Prompts vagues pour les scènes complexes : Les modèles vidéo modernes gèrent les prompts longs et détaillés. Un prompt avec 12+ exigences spécifiques (mouvements de caméra, éclairage, conception sonore, actions des sujets, détails environnementaux) peut fonctionner si chaque exigence est énoncée clairement. Ne sous-estimez pas ce que vous voulez.

  9. Ignorer le rapport d'aspect et la résolution : La plupart des modèles vidéo ont des résolutions spécifiques qu'ils supportent (480p, 720p, 1080p). Vérifiez ce que le modèle supporte et choisissez la bonne résolution pour votre cas d'usage. Si vous avez besoin d'une vidéo verticale et le modèle n'affiche que du paysage, vous devrez peut-être recadrer avec un outil séparé.

  10. Oublier que les modèles vidéo n'ont pas accès à internet : Aucun modèle vidéo n'a d'informations en direct. Ils travaillent à partir des données d'entraînement. N'attendez pas d'eux qu'ils connaissent les événements actuels ou les informations en temps réel.

Sources

Toutes les techniques de cette skill sont tirées du blog Replicate :

Skills similaires