art-direct

Par divinevideo · divine-mobile

Direction artistique pour tout contenu — lit du texte, PDF, Word, HTML, PPT, puis propose 2-3 directions créatives avec style photographique, ambiance et langage visuel. Après sélection, génère des prompts d'images IA et des briefs visuels section par section. À utiliser lorsque l'utilisateur partage du contenu et a besoin d'une direction visuelle, d'un sourcing d'images ou d'une direction créative pour tout type de matériel.

npx skills add https://github.com/divinevideo/divine-mobile --skill art-direct

Direction Artistique

Transforme le contenu en direction visuelle. Pointe vers n'importe quoi — un deck, un document, un essai, un brief, une page web — et obtiens en retour une direction créative que tu peux réellement exécuter.

Quand l'utiliser

  • L'utilisateur partage un fichier (n'importe quel format) et a besoin de visuels
  • Développement de l'identité visuelle du contenu avant construction/design
  • Traduction du matériel écrit en direction de photographie/illustration
  • Création de prompts d'image pour des outils de génération IA
  • Direction artistique d'une présentation, document, rapport ou site web
  • Examen des visuels existants par rapport à l'intention du contenu (mode critique)

Entrées supportées

Lis le contenu à partir de ce que l'utilisateur fournit :

Format Comment lire
.txt, .md Outil Read directement
.html Outil Read, supprime les balises pour extraire texte + structure
.pdf Outil Read avec paramètre pages
.docx Extrait via python3 -c "import docx; ..." ou textutil -convert txt sur macOS
.pptx Extrait via python3 -c "from pptx import Presentation; ..."
.rtf textutil -convert txt sur macOS
URL Outil WebFetch

Si un format n'extrait pas proprement, demande à l'utilisateur de coller le texte.

Le flux de travail

INGÉRER CONTENU → ANALYSER → PROPOSER 2-3 DIRECTIONS → UTILISATEUR SÉLECTIONNE → BRIEF VISUEL + PROMPTS

Étape 1 : Ingestion et analyse du contenu

Lis le contenu complet. Extrait :

  1. Structure — Quelles sont les unités ? (slides, sections, chapitres, paragraphes, pages)
  2. Thèmes centraux — Les 2-3 grandes idées dont parle vraiment le contenu
  3. Arc narratif — Construit-il ? Crée du contraste ? Superpose ? Liste ?
  4. Public — Qui reçoit cela ? Qu'attend-il de voir ?
  5. Ton — Autoritaire ? Inspirant ? Intime ? Provocateur ? Technique ?
  6. Moments clés — Quelles sections portent le plus de poids, demandent les visuels les plus forts ?
  7. Langage visuel existant — Si le contenu a déjà des images, évalue ce qui fonctionne et ce qui ne fonctionne pas

Produis un bref résumé du contenu avant de continuer. Reste concis — c'est pour l'alignement, pas un rapport.


Étape 2 : Propositions de direction créative

Si un template de style maison fourni (--style <name>):

  • Valide que le contenu s'adapte au style
  • Note les tensions et comment les surmonter
  • Passe à l'étape 3 avec le guide de style adapté

Si pas de style maison :

Propose 2-3 directions visuelles distinctes. Chacune doit être vraiment différente — pas trois nuances de la même idée. Pour chacune :

DIRECTION : [Nom — un identifiant court comme "Autorité d'archives" ou "Machinerie chaleureuse"]

AMBIANCE
Ce que ça ressent : [qualité émotionnelle en 2-3 mots]
Énergie : [calme / dynamique / tendu / contemplatif / électrique]

STYLE PHOTOGRAPHIQUE
Type : [documentaire / éditorial / conceptuel / abstrait / archivistique / illustratif]
Sujets : [ce qui apparaît dans les images]
Éclairage : [qualité de lumière]
Traitement couleur : [décalage chaud/froid, saturation, référence film]
Composition : [approche de cadrage]

RÉFÉRENCES TOUCHSTONES
"Pense [X] qui rencontre [Y]" — cite des publications, campagnes, photographes ou marques réels

CE QUE CETTE DIRECTION ÉVITE
[Clichés et tropes visuels spécifiques que cette direction rejette]

POURQUOI CELA CONVIENT AU CONTENU
[1-2 phrases reliant la direction aux thèmes du contenu]

Présente toutes les directions. L'utilisateur en choisit une (ou demande un hybride). Verrouille le choix.


Étape 3 : Guide de style visuel

Une fois la direction sélectionnée, produis le guide de style de travail :

GUIDE DE STYLE VISUEL : [Titre du contenu]
Direction : [Direction choisie]

STYLE PHOTOGRAPHIQUE
────────────────────
Type : [Documentaire / Éditorial / Conceptuel / Abstrait / Archivistique]
Sujets : [Ce à mettre en avant — spécifique, pas générique]
Composition : [Règles de cadrage]
Éclairage : [Qualité de lumière]
Traitement couleur : [Approche couleur, film si pertinent]

AMBIANCE ET TON
───────────────
Émotion principale : [par ex., confiance tranquille]
Émotions secondaires : [par ex., chaleur, précision]
Niveau d'énergie : [Calme / Dynamique / Tendu / Contemplatif]

RÈGLES DE COHÉRENCE
───────────────────
• [Qualité partagée que toutes les images doivent avoir]
• [Directives concernant les sujets humains]
• [Ancres de palette couleur — codes hex]
• [Ratios d'aspect par défaut]

LISTE NOIRE DES CLICHÉS
──────────────────────
• [Images spécifiques au contenu à rejeter]
• [Tropes génériques à éviter]
• [Métaphores surutilisées pour ces thèmes]

PARAMÈTRES PAR DÉFAUT GÉNÉRATION IA
────────────────────────────────────
Suffixe photographie : [ajouts standard pour génération style photo]
Suffixe illustration : [ajouts standard pour génération style illustration]

Étape 4 : Exécution section par section

Travaille à travers le contenu dans ses unités naturelles (slides, sections, chapitres, passages clés). Pour chacune :

Étape 1 : Interpréter le rôle de la section

Que doit communiquer le visuel ? Quel est le moment émotionnel ?

Étape 2 : Appliquer le cadre des cinq lentilles

Génère les options par cinq lentilles :

Lentille Ce qu'elle montre Quand l'utiliser
Littérale La chose elle-même, capturée avec intention Le contenu est déjà spécifique
Humaine Des gens expérimentant ou faisant quelque chose Besoin de connexion émotionnelle
Environnementale Décor, atmosphère, texture Créer l'ambiance, transitions
Métaphorique Analogie visuelle concrète Rendre l'abstrait tangible
Oblique Angle abstrait, inattendu Provoque la pensée, se démarquer

Étape 3 : Produis le brief visuel

Pour la lentille recommandée (guidée par les préférences de lentille du guide de style), produis :

SECTION : "[Titre de section ou ligne clé]"
MISSION VISUELLE : [Ce que cette image doit faire]
LENTILLE : [Quelle lentille et pourquoi]

CONCEPT
[Description 2-3 phrases de l'image exacte — assez spécifique qu'un photographe
pourrait la capturer ou qu'un designer pourrait la trouver]

PROMPTS GÉNÉRATION IA
─────────────────────
MIDJOURNEY :
[Prompt complet avec suffixes de style, --ar, --v, --style flags]

DALL-E / IMAGE GPT :
[Prompt en langage naturel optimisé pour DALL-E]

GEMINI :
[Prompt formaté pour génération image Gemini]

IDEOGRAM :
[Prompt formaté pour Ideogram, notamment pour besoins texte-dans-image]

GUIDANCE APPROVISIONNEMENT
──────────────────────────
Si recherche (pas génération) :
  Recherche : [2-3 requêtes de recherche spécifiques et affinées]
  Où : [Sources spécifiques — voir guide des sources ci-dessous]
  Éviter : [Ce qui apparaîtra que tu devrais ignorer]

ALTERNATIVES
─────────────
[1-2 autres options de lentille brièvement décrites, en cas que la primaire ne fonctionne]

Étape 4 : Pour contenu avec beaucoup de sections

Ne génère pas toutes les sections sans demande. Produis :

  1. Les 2-3 premières sections comme exemples
  2. Un tableau récapitulatif de toutes les sections restantes avec lentille recommandée et concept en une ligne
  3. Demande quelles sections développer complètement

Le cadre des cinq lentilles (Détail)

Pour n'importe quel concept, cinq façons de le voir :

Lentille "Transformation numérique" "Résilience de la chaîne d'approvisionnement"
Littérale Couloir de salle serveur, DELs clignotantes Cargo navire coupant les mers agitées
Humaine Visage du développeur éclairé par deux écrans à 2 du matin Mains du docker vérifiant le manifeste sous la pluie
Environnementale Bureau vide à l'aube, un seul laptop brillant Brume se levant sur la cour de conteneurs au lever du soleil
Métaphorique Vieux projecteur de film projetant de la lumière sur mur blanc Toile d'araignée retenant des gouttes de rosée — tension + beauté
Oblique Main d'enfant dessinant un robot Dominos gelés à mi-chute, l'un brillant

La lentille oblique est la plus difficile et la plus précieuse. C'est l'image qui fait s'arrêter quelqu'un pour réfléchir. Utilise-la pour les images vedettes et les sections d'ouverture.


Guide des sources

Ne défaut pas vers les sites de photos d'archive. La recherche d'archive produit des résultats génériques peu importe la spécificité de tes termes. À la place :

Primaire : Génération IA

Le meilleur match pour une vision créative précise. Génère exactement ce que le concept décrit.

  • Midjourney — Meilleur pour réalisme photographique et qualité cinématographique
  • DALL-E / Image GPT — Meilleur pour travail conceptuel et illustratif
  • Gemini — Bon pour diagrammes, texte-dans-image, visualisation de données
  • Ideogram — Meilleur quand image inclut texte lisible ou typographie

Secondaire : Sources éditoriales et d'archives

Quand tu as besoin de vraie photographie (historique, documentaire, journalistique) :

  • Getty Editorial — Photojournalisme, archives historiques
  • Magnum Photos — Photographie documentaire
  • Bibliothèque du Congrès — Archives historiques US, domaine public
  • Galerie Images NASA — Espace, sciences de la terre, technologie
  • Wikimedia Commons — Domaine public, historique
  • Musée britannique / Smithsonian — Objets et documents historiques
  • Archive Internet — Documents historiques, publications, éphémères
  • Google Arts & Culture — Collections muséales, œuvres d'art

Tertiaire : Archive curatée (si besoin absolu)

  • Unsplash — Meilleur pour shots environnementaux/atmosphériques, pas gens
  • Pexels — Acceptable pour textures, arrière-plans, abstrait
  • À éviter pour : Gens, scénarios d'affaires, technologie en usage, n'importe quoi conceptuel

Pour besoins spécifiques

Besoin Meilleure source
Technologie historique Smithsonian, Computer History Museum, Science Museum UK
Architecture ArchDaily, photographie Dezeen
Scientifique Imagerie journal Nature, NOAA, ESA/Hubble
Culturel Bibliothèque britannique, collections numériques NYPL
Texture/matériel Génère via IA — plus de contrôle

Guide anti-cliché

Liste noire universelle

Ces images sont invisibles — les spectateurs les ont vues des milliers de fois :

  • Poignées de main (tout type)
  • Ampoule = idée
  • Pièces de puzzle qui s'assemblent
  • Personne au sommet de la montagne
  • Mains tenant le globe
  • Équipe diversifiée pointant le tableau blanc
  • Plante qui pousse = croissance
  • Fusée = lancement/vitesse
  • Échecs = stratégie
  • Labyrinthe = complexité
  • Route qui bifurque en forêt = choix
  • Iceberg = profondeur cachée
  • Pont = connexion

La technique de reframing

Quand tu te surprends à te tourner vers un cliché :

  1. Nomme le cliché — "Je suis sur le point de chercher une ampoule"
  2. Demande : À quoi ressent ce concept ? — Pas ce qu'il a l'air. Ce qu'il ressent.
  3. Demande : Quel moment capture cela pour une vraie personne ? — La spécificité tue le cliché
  4. Génère ça à la place

Exemple : "Innovation"

  • Cliché : Ampoule, circuit, fusée
  • Ressent : Le moment avant de savoir si ça marche
  • Moment réel : Main d'ingénieur planeant sur un interrupteur, pas encore actionné
  • C'est l'image

Mode critique

Pointé vers contenu qui a déjà des images (deck existant, page web, document) :

Étape 1 : Ingestion et visualisation de tout

Lis tout le contenu. Vois chaque image. Fais le travail avant de parler.

Étape 2 : Résumé du langage visuel global

Commence par une évaluation top-level du langage visuel à travers la pièce entière. Couvre :

  • Quel registre les images occupent-elles ? (archivistique, éditorial, archive, mélangé — nomme-le)
  • Y a-t-il un langage visuel unifié ? Sinon, combien de registres concurrents sont présents ?
  • Quel est l'écart entre l'intention du contenu et l'exécution visuelle ? Le contenu essaie de dire X ; les images disent Y.
  • Qu'est-ce qui fonctionne et qu'est-ce qui ne fonctionne pas — coups larges, pas image par image

Garde cela à un paragraphe ou deux court et direct. C'est le diagnostic principal.

Étape 3 : Résumé section par section

Pour chaque section/slide/chapitre, donne un résumé haut niveau — pas un tableau image par image. Pour chacune :

SECTION : [Titre ou ligne clé]
INTENTION CONTENU : [Ce que cette section essaie de communiquer]
EXÉCUTION VISUELLE : [Ce que les images font réellement — 1-2 phrases]
VERDICT : [Fonctionne / Partiellement / Ne fonctionne pas — et pourquoi en une ligne]
IMAGE LA PLUS FORTE : [Laquelle et pourquoi, si y en a]
IMAGE LA PLUS FAIBLE : [Laquelle et pourquoi — nomme le problème spécifique]

Va image par image seulement si l'utilisateur demande d'approfondir une section spécifique.

Étape 4 : Recommandations

Termine avec recommandations spécifiques, affirmées — pas d'observations ouvertes. Le format :

DIRECTION RECOMMANDÉE
─────────────────────
Registre : [Le registre visuel spécifique que je recommande — par ex., "archival-documentaire
           avec traitement couleur chaud" pas juste "choisir un registre"]
Pourquoi : [1-2 phrases reliant cela aux thèmes réels du contenu et à l'audience]
Référence : [Pense X qui rencontre Y — cite des touchstones réels]

CE À CONSERVER
──────────────
• [Images spécifiques qui fonctionnent déjà, et pourquoi elles sont le standard]

CE À RETIRER IMMÉDIATEMENT
──────────────────────────
• [Images qui endommagent activement la pièce — archive, mauvaise marque, mauvais ton]

CE À REMPLACER
───────────────
• [Images faibles/génériques — avec concepts de remplacement en une ligne]

RÈGLE DE COHÉRENCE
──────────────────
[La seule qualité unifiante que toutes les images devraient partager — énoncée comme règle
qu'on peut appliquer comme test oui/non à n'importe quelle image candidate]

Sois spécifique. Sois affirmé. Ne dis pas "s'engager dans un registre" — dis "Je recommande archival-documentaire avec traitement couleur tungstène chaud, car ce contenu parle de patrimoine et les images doivent ressembler à être tirées d'une véritable archive d'entreprise. Pense photographie Bell Labs qui rencontre la chaleur matérielle de Kinfolk."

Puis demande : "Cette direction te semble-t-elle correcte ? Si oui, je vais générer des briefs de remplacement avec des prompts IA pour chaque image qui doit changer."

Étape 5 : Briefs de remplacement (après confirmation utilisateur)

Une fois que l'utilisateur accepte la direction recommandée, génère des briefs visuels de remplacement pour chaque image marquée pour suppression ou remplacement. Utilise le format complet section par section d'étape 4 :

  • Verrouille la direction recommandée comme guide de style de travail
  • Pour chaque image à remplacer, produis le brief visuel complet avec :
    • Concept (assez spécifique pour capturer ou générer)
    • Prompts de génération IA (Midjourney, DALL-E, Gemini, Ideogram)
    • Guidance approvisionnement (où trouver alternatives réelles si pas de génération)
    • Une option de lentille alternative
  • Pour sections qui ont besoin images supplémentaires (actuellement trop peu), recommande combien et produis des briefs

Format sortie : Génère tous les briefs de remplacement à la fois, numérotés pour correspondre aux positions d'image d'origine. Exporte vers fichier texte sur Desktop de l'utilisateur pour référence facile et transmission.

Étape 6 : Transmission

Après génération des briefs de remplacement, propose prochaines étapes :

  • "Générer maintenant" — Génère images via fal.ai (Flux 2 Pro) directement des briefs
  • "Exporter briefs" — Sauvegarde tous les prompts et guidance vers fichier pour usage Midjourney/DALL-E/outils externes
  • "Reconstruire le deck" — Alimente le guide de style et images de remplacement dans keynote-slides-skill pour produire version révisée
  • "Sauvegarder comme style maison" — Verrouille la direction recommandée comme template YAML réutilisable pour travail futur avec cette marque

Génération d'images via fal.ai

Quand l'utilisateur sélectionne "Générer maintenant", génère les images en utilisant Flux 2 Pro via l'API fal.ai.

Requis : Variable environnement $FAL_API_KEY doit être définie.

Comment générer

Pour chaque brief d'image, exécute via Bash :

curl -s "https://queue.fal.run/fal-ai/flux-pro/v1.1" \
  -H "Authorization: Key $FAL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "<LE PROMPT DALL-E/FLUX DU BRIEF VISUEL>",
    "image_size": "landscape_16_9",
    "num_images": 1,
    "safety_tolerance": "5"
  }'

Ceci retourne réponse JSON avec request_id. Poll pour résultat :

curl -s "https://queue.fal.run/fal-ai/flux-pro/v1.1/requests/<REQUEST_ID>" \
  -H "Authorization: Key $FAL_API_KEY"

Quand status est "COMPLETED", la réponse contient images[0].url. Télécharge-la :

curl -sL "<IMAGE_URL>" -o "<OUTPUT_PATH>"

Flux génération

  1. Crée répertoire sortie : .art-direction/generated/ (dans projet) ou dossier Desktop
  2. Pour chaque brief visuel, prends prompt DALL-E/GPT Image (ceux-ci fonctionnent mieux avec Flux)
  3. Soumets à fal.ai, poll pour completion, télécharge résultat
  4. Nomme fichiers par section : section-01-heritage-grid.jpg, section-02-legacy-of-discovery.jpg, etc.
  5. Après toutes images générées, affiche-les pour revue en utilisant outil Read
  6. Utilisateur peut approuver, demander régénération avec prompts ajustés, ou basculer vers lentille différente

Options taille image

Valeur image_size Utiliser pour
landscape_16_9 Slides présentation, images vedettes
landscape_4_3 Slides standard, documents
portrait_4_3 Layouts verticaux, mobile
square Réseaux sociaux, thumbnails
square_hd Square haute-résolution

Génération en batch

Quand génère plusieurs images, soumets toutes requêtes d'abord (n'attends pas chacune), puis poll résultats. Ceci parallélise le travail GPU.

# Soumet toutes requêtes, collecte request IDs
for i in 1 2 3 4 5; do
  curl -s "https://queue.fal.run/fal-ai/flux-pro/v1.1" \
    -H "Authorization: Key $FAL_API_KEY" \
    -H "Content-Type: application/json" \
    -d "{\"prompt\": \"$PROMPT\", \"image_size\": \"landscape_16_9\"}" \
    | python3 -c "import sys,json; print(json.load(sys.stdin)['request_id'])"
done

# Puis poll chaque request_id pour résultats

Coût

Flux 2 Pro via fal.ai est pay-per-image. Coût typique est ~$0,05-0,10 par image. Remplacement deck complet (10-15 images) tourne autour $1-2.

Secours

Si $FAL_API_KEY n'est pas définie ou l'API indisponible :

  • Exporte briefs vers fichier à la place
  • Note que l'utilisateur peut coller prompts dans Midjourney, ChatGPT image gen, ou higgsfield.ai manuellement

Templates de style maison

Directions visuelles réutilisables stockées dans ~/.claude/skills/art-direct/styles/ comme YAML.

name: "Nom du style"
description: "Description une ligne avec touchstones de référence"

photography:
  style: documentary | editorial | conceptual | abstract | archival
  subjects:
    preferred: [liste types sujets]
    avoid: [liste types sujets à rejeter]
  lighting:
    preferred: [description qualité lumière]
    avoid: [qualité lumière à rejeter]
  composition: [règles de cadrage]
  color:
    treatment: [approche couleur]
    palette_anchors: [codes hex]

mood:
  primary: [une qualité émotionnelle]
  supporting: [liste émotions secondaires]
  energy: [calm | dynamic | tense | contemplative]

lens_preferences:
  default_order: [liste ordonnée des cinq lentilles]
  weight_toward: [lentille primaire]
  notes: "Guidance usage"

cliche_blacklist:
  universal: [clichés standard]
  brand_specific: [clichés contexte-spécifique]

ai_prompt_suffixes:
  photography: "suffixe prompt pour génération style photo"
  illustration: "suffixe prompt pour génération style illustration"

reference_touchstones:
  - "Référence 1"
  - "Référence 2"

Référence rapide

Invocation Objectif
art-direct Flux complet — ingère contenu, propose directions, génère briefs
art-direct --style <name> Applique template style maison existant
art-direct --critique Examine visuels existants par rapport intention contenu
art-direct --section "concept" Brief visuel section unique rapide
art-direct --from-frontend <project> Dérive style du projet frontend-design

Intégration

Les sorties peuvent alimenter :

  • keynote-slides-skill — Briefs visuels → imagerie slide via génération Gemini
  • branded-pptx-converter — Briefs visuels → slots image PowerPoint
  • frontend-design — Guide style → langage visuel web design

Skills similaires