Cadre d'hypothèse
Structure
Parce que [observation/données],
nous croyons que [changement]
causera [résultat attendu]
pour [audience].
Nous saurons que c'est vrai quand [métriques].
Exemple
Faible : « Changer la couleur du bouton pourrait augmenter les clics. »
Fort : « Parce que les utilisateurs signalent une difficulté à trouver l'appel à l'action (selon les heatmaps et les retours), nous croyons que rendre le bouton plus grand et utiliser une couleur contrastée augmentera les clics sur l'appel à l'action de 15 % ou plus pour les nouveaux visiteurs. Nous mesurerons le taux de clics de la vue de page au démarrage de l'inscription. »
Types de tests
| Type | Description | Trafic nécessaire |
|---|---|---|
| A/B | Deux versions, un seul changement | Modéré |
| A/B/n | Plusieurs variantes | Élevé |
| MVT | Plusieurs changements en combinaisons | Très élevé |
| Split URL | URLs différentes pour les variantes | Modéré |
Taille d'échantillon
Référence rapide
| Baseline | 10 % d'amélioration | 20 % d'amélioration | 50 % d'amélioration |
|---|---|---|---|
| 1% | 150 k/variante | 39 k/variante | 6 k/variante |
| 3% | 47 k/variante | 12 k/variante | 2 k/variante |
| 5% | 27 k/variante | 7 k/variante | 1,2 k/variante |
| 10% | 12 k/variante | 3 k/variante | 550/variante |
Calculateurs :
Pour des tableaux détaillés de taille d'échantillon et des calculs de durée : Voir references/sample-size-guide.md
Sélection des métriques
Métrique primaire
- Une seule métrique qui compte vraiment
- Directement liée à l'hypothèse
- Ce que vous utiliserez pour valider le test
Métriques secondaires
- Soutiennent l'interprétation de la métrique primaire
- Expliquent comment/pourquoi le changement a fonctionné
Métriques de garde-fou
- Les choses qui ne devraient pas s'aggraver
- Arrêtez le test si significativement négatif
Exemple : Test de page de tarification
- Primaire : Taux de sélection de plan
- Secondaire : Temps sur page, distribution des plans
- Garde-fou : Tickets de support, taux de remboursement
Concevoir les variantes
Ce qu'il faut varier
| Catégorie | Exemples |
|---|---|
| Titres/Texte | Angle du message, proposition de valeur, spécificité, ton |
| Design visuel | Mise en page, couleur, images, hiérarchie |
| Appel à l'action | Texte du bouton, taille, placement, nombre |
| Contenu | Informations incluses, ordre, quantité, preuve sociale |
Bonnes pratiques
- Changement unique et significatif
- Assez audacieux pour faire une différence
- Fidèle à l'hypothèse
Allocation du trafic
| Approche | Répartition | Quand l'utiliser |
|---|---|---|
| Standard | 50/50 | Par défaut pour A/B |
| Conservative | 90/10, 80/20 | Limiter le risque d'une mauvaise variante |
| Ramping | Commencer petit, augmenter | Atténuation des risques techniques |
Considérations :
- Cohérence : Les utilisateurs voient la même variante au retour
- Exposition équilibrée au cours de la journée/semaine
Implémentation
Côté client
- JavaScript modifie la page après le chargement
- Rapide à mettre en œuvre, peut causer du scintillement
- Outils : PostHog, Optimizely, VWO
Côté serveur
- Variante déterminée avant le rendu
- Pas de scintillement, nécessite du travail de développement
- Outils : PostHog, LaunchDarkly, Split
Lancer le test
Liste de contrôle avant le lancement
- [ ] Hypothèse documentée
- [ ] Métrique primaire définie
- [ ] Taille d'échantillon calculée
- [ ] Variantes implémentées correctement
- [ ] Suivi vérifié
- [ ] QA complété sur toutes les variantes
Pendant le test
À FAIRE :
- Surveiller les problèmes techniques
- Vérifier la qualité des segments
- Documenter les facteurs externes
À ÉVITER :
- Jeter un coup d'œil aux résultats et arrêter tôt
- Apporter des modifications aux variantes
- Ajouter du trafic provenant de nouvelles sources
Le problème du « peeking »
Regarder les résultats avant d'atteindre la taille d'échantillon et arrêter tôt entraîne des faux positifs et de mauvaises décisions. Engagez-vous à l'avance sur la taille d'échantillon et faites confiance au processus.
Analyser les résultats
Significativité statistique
- 95 % de confiance = p-value < 0,05
- Signifie < 5 % de chance que le résultat soit aléatoire
- Pas une garantie — juste un seuil
Liste de contrôle d'analyse
- Atteint la taille d'échantillon ? Si non, le résultat est préliminaire
- Significativité statistique ? Vérifiez les intervalles de confiance
- L'effet est-il significatif ? Comparez à l'amélioration détectable minimale, l'impact du projet
- Les métriques secondaires sont-elles cohérentes ? Soutiennent-elles la primaire ?
- Préoccupations des garde-fou ? Y a-t-il quelque chose qui s'est aggravé ?
- Différences entre les segments ? Mobile vs. desktop ? Nouveau vs. récurrent ?
Interprétation des résultats
| Résultat | Conclusion |
|---|---|
| Gagnant significatif | Implémenter la variante |
| Perdant significatif | Garder le contrôle, comprendre pourquoi |
| Pas de différence significative | Besoin de plus de trafic ou d'un test plus audacieux |
| Signaux mixtes | Investiguer plus, peut-être segmenter |
Documentation
Documentez chaque test avec :
- Hypothèse
- Variantes (avec captures d'écran)
- Résultats (échantillon, métriques, significativité)
- Décision et enseignements
Pour les modèles : Voir references/test-templates.md
Programme d'expérimentation pour la croissance
Les tests individuels sont précieux. Un programme d'expérimentation continu est un actif composé. Cette section couvre comment exécuter des expériences en tant que moteur de croissance continu, pas seulement des tests ponctuels.
La boucle d'expérimentation
1. Générer des hypothèses (à partir de données, recherches, concurrents, retours clients)
2. Prioriser avec la notation ICE
3. Concevoir et lancer le test
4. Analyser les résultats avec rigueur statistique
5. Promouvoir les gagnants dans un playbook
6. Générer de nouvelles hypothèses à partir des enseignements
→ Répéter
Génération d'hypothèses
Alimentez votre arriéré d'expériences à partir de plusieurs sources :
| Source | Ce qu'il faut rechercher |
|---|---|
| Analytics | Points d'abandon, pages peu convertissantes, segments sous-performants |
| Recherche client | Points faibles, confusions, attentes non satisfaites |
| Analyse concurrentielle | Fonctionnalités, messagerie ou motifs UX qu'ils utilisent et pas vous |
| Tickets de support | Questions récurrentes ou plaintes sur les flux de conversion |
| Heatmaps/enregistrements | Où les utilisateurs hésitent, cliquent avec rage ou abandonnent |
| Expériences passées | Les tests « perdant significatif » révèlent souvent de nouveaux angles à essayer |
Priorisation ICE
Notez chaque hypothèse de 1 à 10 sur trois dimensions :
| Dimension | Question |
|---|---|
| Impact | Si cela fonctionne, combien cela va-t-il bouger la métrique primaire ? |
| Confiance | À quel point sommes-nous sûrs que cela fonctionnera ? (Basé sur les données, pas l'intuition.) |
| Facilité | À quelle vitesse et quel coût pouvons-nous lancer et mesurer cela ? |
Score ICE = (Impact + Confiance + Facilité) / 3
Lancez les expériences avec les scores les plus élevés en premier. Re-notez mensuellement à mesure que le contexte change.
Vélocité d'expérimentation
Suivez votre taux d'expérimentation comme indicateur avancé de croissance :
| Métrique | Cible |
|---|---|
| Expériences lancées par mois | 4-8 pour la plupart des équipes |
| Taux de victoire | 20-30 % est courant pour les programmes matures (les taux plus élevés soutenus peuvent indiquer des hypothèses conservatrices) |
| Durée moyenne du test | 2-4 semaines |
| Profondeur de l'arriéré | 20+ hypothèses en attente |
| Amélioration cumulée | Gains composés de tous les gagnants |
Le playbook d'expérimentation
Quand un test gagne, ne le mettez pas simplement en œuvre — documentez le motif :
## [Nom de l'expérience]
**Date** : [date]
**Hypothèse** : [l'hypothèse]
**Taille d'échantillon** : [n par variante]
**Résultat** : [gagnant/perdant/inconclus] — [métrique primaire] a changé de [X %] (IC 95 % : [intervalle], p=[valeur])
**Garde-fou** : [toutes les métriques de garde-fou et leurs résultats]
**Deltas de segment** : [différences notables par appareil, segment ou cohorte]
**Pourquoi cela a fonctionné/échoué** : [analyse]
**Motif** : [l'insight réutilisable — par ex., « la preuve sociale près des appels à l'action de tarification augmente la sélection de plan »]
**Appliquer à** : [autres pages/flux où ce motif pourrait fonctionner]
**Statut** : [implémenté / mis de côté / nécessite un suivi]
Au fil du temps, votre playbook devient une bibliothèque de motifs de croissance éprouvés spécifiques à votre produit et votre audience.
Cadence d'expérimentation
Hebdomadaire (30 min) : Examinez les expériences en cours pour les problèmes techniques et les métriques de garde-fou. N'appelez pas de gagnants tôt — mais arrêtez les tests où les garde-fou sont significativement négatifs.
Bi-hebdomadaire : Concludez les expériences terminées. Analysez les résultats, mettez à jour le playbook, lancez la prochaine expérience de l'arriéré.
Mensuel (1 heure) : Examinez la vélocité d'expérimentation, le taux de victoire, l'amélioration cumulée. Remplissez l'arriéré d'hypothèses. Re-priorisez avec ICE.
Trimestriel : Auditez le playbook. Quels motifs ont été appliqués largement ? Quels motifs gagnants n'ont pas encore été mis à l'échelle ? Quelles zones de l'entonnoir sont sous-testées ?
Erreurs courantes
Conception du test
- Tester un changement trop petit (indétectable)
- Tester trop de choses (impossible à isoler)
- Pas d'hypothèse claire
Exécution
- Arrêter tôt
- Modifier les choses au milieu du test
- Ne pas vérifier l'implémentation
Analyse
- Ignorer les intervalles de confiance
- Cherry-picker les segments
- Sur-interpréter les résultats inconclusifs
Questions spécifiques à la tâche
- Quel est votre taux de conversion actuel ?
- Combien de trafic cette page reçoit-elle ?
- Quel changement envisagez-vous et pourquoi ?
- Quelle est la plus petite amélioration qu'il vaut la peine de détecter ?
- Quels outils avez-vous pour tester ?
- Avez-vous testé cette zone auparavant ?
Compétences connexes
- page-cro : Pour générer des idées de test basées sur les principes CRO
- analytics-tracking : Pour mettre en place la mesure du test
- copywriting : Pour créer des variantes de texte