Compétence Analyse Statistique
Statistiques descriptives, analyse de tendances, détection d'anomalies, tests d'hypothèses, et conseils sur la prudence face aux affirmations statistiques.
Méthodologie des Statistiques Descriptives
Tendance Centrale
Choisissez la bonne mesure de centre en fonction des données :
| Situation | Utiliser | Pourquoi |
|---|---|---|
| Distribution symétrique, pas d'anomalies | Moyenne | Estimateur le plus efficace |
| Distribution asymétrique | Médiane | Robuste face aux anomalies |
| Données catégoriques ou ordinales | Mode | Seule option pour les non-numériques |
| Très asymétrique avec anomalies (ex. revenu par utilisateur) | Médiane + moyenne | Rapporter les deux ; l'écart montre l'asymétrie |
Rapportez toujours moyenne et médiane ensemble pour les métriques métier. S'ils divergent significativement, les données sont asymétriques et la moyenne seule est trompeuse.
Dispersion et Variabilité
- Écart-type : À quelle distance typique les valeurs s'écartent de la moyenne. À utiliser avec des données normalement distribuées.
- Écart interquartile (IQR) : Distance du p25 au p75. Robuste face aux anomalies. À utiliser avec des données asymétriques.
- Coefficient de variation (CV) : EcartType / Moyenne. À utiliser pour comparer la variabilité entre métriques à différentes échelles.
- Étendue : Maximum moins minimum. Sensible aux anomalies mais donne une rapide impression de l'étendue des données.
Percentiles dans un Contexte Métier
Rapportez les percentiles clés pour raconter une histoire plus riche que la moyenne seule :
p1: Bottom 1% (plancher / valeur typique minimale)
p5: Bas de la plage normale
p25: Premier quartile
p50: Médiane (utilisateur typique)
p75: Troisième quartile
p90: Top 10% / utilisateurs puissants
p95: Haut de la plage normale
p99: Top 1% / utilisateurs extrêmes
Exemple de narration : « La durée médiane de session est 4,2 minutes, mais les 10 % les plus actifs passent plus de 22 minutes par session, tirant la moyenne à 7,8 minutes. »
Description des Distributions
Caractérisez chaque distribution numérique que vous analysez :
- Forme : Normale, asymétrique à droite, asymétrique à gauche, bimodale, uniforme, à queue lourde
- Centre : Moyenne et médiane (et l'écart entre elles)
- Dispersion : Écart-type ou IQR
- Anomalies : Combien et à quel point extrêmes
- Bornes : Y a-t-il un plancher naturel (zéro) ou un plafond (100 %) ?
Analyse de Tendances et Prévisions
Identification des Tendances
Moyennes mobiles pour lisser le bruit :
# Moyenne mobile sur 7 jours (idéale pour des données quotidiennes avec saisonnalité hebdomadaire)
df['ma_7d'] = df['metric'].rolling(window=7, min_periods=1).mean()
# Moyenne mobile sur 28 jours (lisse les motifs hebdomadaires ET mensuels)
df['ma_28d'] = df['metric'].rolling(window=28, min_periods=1).mean()
Comparaison période sur période :
- Semaine sur semaine (WoW) : Comparer au même jour la semaine précédente
- Mois sur mois (MoM) : Comparer au même mois précédent
- Année sur année (YoY) : Standard d'or pour les entreprises saisonnières
- Même jour année dernière : Comparer le jour calendaire spécifique
Taux de croissance :
Croissance simple : (actuel - précédent) / précédent
TCAC : (fin / début) ^ (1 / années) - 1
Croissance log : ln(actuel / précédent) -- meilleure pour les séries volatiles
Détection de Saisonnalité
Vérifiez les motifs périodiques :
- Tracez la série temporelle brute -- inspection visuelle en premier
- Calculez les moyennes par jour de la semaine : y a-t-il un motif hebdomadaire clair ?
- Calculez les moyennes par mois de l'année : y a-t-il un cycle annuel ?
- Quand vous comparez des périodes, utilisez toujours des comparaisons YoY ou de même période pour éviter de confondre tendance et saisonnalité
Prévisions (Méthodes Simples)
Pour les analystes métier (non data scientists), utilisez des méthodes directes :
- Prévision naïve : Demain = aujourd'hui. À utiliser comme baseline.
- Naïve saisonnière : Demain = même jour la semaine/année dernière.
- Tendance linéaire : Ajustez une ligne aux données historiques. Seulement pour des tendances clairement linéaires.
- Prévision par moyenne mobile : Utilisez la moyenne historique comme prévision.
Communiquez toujours l'incertitude. Fournissez une plage, pas une estimation ponctuelle :
- « Nous attendons 10 000–12 000 inscriptions le mois prochain selon la tendance sur 3 mois »
- PAS « Nous obtiendrons exactement 11 234 inscriptions le mois prochain »
Quand escalader vers un data scientist : Tendances non-linéaires, saisonnalités multiples, facteurs externes (budget marketing, jours fériés), ou quand la précision de la prévision est importante pour l'allocation des ressources.
Détection d'Anomalies et d'Valeurs Extrêmes
Méthodes Statistiques
Méthode Z-score (pour données normalement distribuées) :
z_scores = (df['value'] - df['value'].mean()) / df['value'].std()
outliers = df[abs(z_scores) > 3] # Plus de 3 écarts-types
Méthode IQR (robuste pour distributions non-normales) :
Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['value'] < lower_bound) | (df['value'] > upper_bound)]
Méthode percentile (la plus simple) :
outliers = df[(df['value'] < df['value'].quantile(0.01)) |
(df['value'] > df['value'].quantile(0.99))]
Traitement des Anomalies
NE supprimez PAS automatiquement les anomalies. À la place :
- Enquêtez : Est-ce une erreur de données, une valeur réellement extrême, ou une population différente ?
- Erreurs de données : Corriger ou supprimer (ex. âges négatifs, timestamps en 1970)
- Extrêmes authentiques : Conservez-les mais considérez d'utiliser des statistiques robustes (médiane plutôt que moyenne)
- Population différente : Segmentez-les pour une analyse séparée (ex. clients entreprise vs. PME)
Rapportez ce que vous avez fait : « Nous avons exclu 47 enregistrements (0,3 %) avec des montants de transaction > 50 000 $, qui représentent des commandes en masse d'entreprise analysées séparément. »
Détection d'Anomalies en Série Temporelle
Pour détecter des valeurs inhabituelles dans une série temporelle :
- Calculez la valeur attendue (moyenne mobile ou même période année dernière)
- Calculez l'écart par rapport à l'attendu
- Signalez les écarts au-delà d'un seuil (typiquement 2–3 écarts-types des résidus)
- Distinguez les anomalies ponctuelles (une seule valeur inhabituelle) des points de rupture (décalage soutenu)
Bases des Tests d'Hypothèses
Quand les Utiliser
Utilisez les tests d'hypothèses quand vous devez déterminer si une différence observée est probablement réelle ou pourrait être due au hasard. Scénarios courants :
- Résultats de test A/B : La variante B est-elle vraiment meilleure que A ?
- Comparaison avant/après : Le changement produit a-t-il vraiment affecté la métrique ?
- Comparaison de segments : Les clients entreprise ont-ils réellement une meilleure rétention ?
Le Cadre
- Hypothèse nulle (H0) : Il n'y a pas de différence (l'hypothèse par défaut)
- Hypothèse alternative (H1) : Il y a une différence
- Choisissez le niveau de signification (alpha) : Typiquement 0,05 (5 % de chance de faux positif)
- Calculez la statistique de test et la p-valeur
- Interprétez : Si p < alpha, rejetez H0 (preuve d'une différence réelle)
Tests Courants
| Scénario | Test | Quand l'Utiliser |
|---|---|---|
| Comparer deux moyennes de groupe | t-test (indépendant) | Données normales, deux groupes |
| Comparer deux proportions de groupe | z-test pour proportions | Taux de conversion, résultats binaires |
| Comparer des mesures appariées | t-test apparié | Avant/après sur mêmes entités |
| Comparer 3+ moyennes de groupe | ANOVA | Plusieurs segments ou variantes |
| Données non-normales, deux groupes | Test Mann-Whitney U | Métriques asymétriques, données ordinales |
| Association entre catégories | Test du chi-deux | Deux variables catégoriques |
Signification Pratique vs. Signification Statistique
Signification statistique signifie que la différence est peu probable due au hasard.
Signification pratique signifie que la différence est assez grande pour importer aux décisions métier.
Une différence peut être statistiquement significative mais pratiquement sans importance (courant avec grands échantillons). Rapportez toujours :
- Taille de l'effet : À quel point la différence est-elle grande ? (ex. « La variante B a amélioré la conversion de 0,3 point de pourcentage »)
- Intervalle de confiance : Quelle est la plage des vrais effets plausibles ?
- Impact métier : À quoi cela se traduit en revenu, utilisateurs, ou autres termes métier ?
Considérations de Taille d'Échantillon
- Les petits échantillons produisent des résultats peu fiables, même avec des p-valeurs significatives
- Règle d'or pour les proportions : Besoin d'au moins 30 événements par groupe pour une fiabilité basique
- Pour détecter petits effets (ex. changement de 1 % du taux de conversion), vous pouvez avoir besoin de milliers d'observations par groupe
- Si votre échantillon est petit, dites-le : « Avec seulement 200 observations par groupe, nous avons peu de puissance pour détecter des effets plus petits que X % »
Prudence face aux Affirmations Statistiques
Corrélation n'est pas Causalité
Quand vous trouvez une corrélation, considérez explicitement :
- Causalité inverse : Peut-être B cause A, pas l'inverse
- Variables confondantes : Peut-être C cause à la fois A et B
- Coïncidence : Avec assez de variables, les corrélations spurieuses sont inévitables
Ce que vous pouvez dire : « Les utilisateurs qui utilisent la feature X ont une rétention 30 % plus élevée » Ce que vous ne pouvez pas dire sans plus de preuves : « La feature X cause une rétention 30 % plus élevée »
Problème de Comparaisons Multiples
Quand vous testez nombreuses hypothèses, certaines seront « significatives » par chance :
- Tester 20 métriques à p=0,05 signifie ~1 sera faussement significative
- Si vous avez regardé nombreux segments avant d'en trouver un différent, notez-le
- Ajustez pour comparaisons multiples avec correction de Bonferroni (divisez alpha par le nombre de tests) ou rapportez combien de tests ont été exécutés
Paradoxe de Simpson
Une tendance dans données agrégées peut s'inverser quand les données sont segmentées :
- Vérifiez toujours si la conclusion tient dans tous les segments clés
- Exemple : La conversion globale monte, mais la conversion baisse dans chaque segment -- parce que le mix s'est décalé vers un segment à conversion plus élevée
Biais de Survivance
Vous ne pouvez analyser que les entités qui ont « survécu » pour être dans votre dataset :
- Analyser les utilisateurs actifs ignore ceux qui se sont désabonnés
- Analyser les entreprises réussies ignore celles qui ont échoué
- Demandez toujours : « Qui manque de ce dataset, et leur inclusion changerait-elle la conclusion ? »
Sophisme Écologique
Les tendances globales peuvent ne pas s'appliquer aux individus :
- « Les pays avec X plus élevé ont Y plus élevé » ne signifie PAS « les individus avec X plus élevé ont Y plus élevé »
- Soyez prudent en appliquant des conclusions au niveau groupe aux cas individuels
Ancrage sur des Nombres Spécifiques
Méfiez-vous de la fausse précision :
- « Le churn sera 4,73 % le trimestre prochain » implique plus de certitude que justifiée
- Préférez les plages : « Nous attendons un churn entre 4–6 % selon les motifs historiques »
- Arrondissez correctement : « Environ 5 % » est souvent plus honnête que « 4,73 % »