Compétence Analyse Statistique

Statistiques descriptives, analyse de tendances, détection d'anomalies, tests d'hypothèses, et conseils sur la prudence face aux affirmations statistiques.

Méthodologie des Statistiques Descriptives

Tendance Centrale

Choisissez la bonne mesure de centre en fonction des données :

Situation	Utiliser	Pourquoi
Distribution symétrique, pas d'anomalies	Moyenne	Estimateur le plus efficace
Distribution asymétrique	Médiane	Robuste face aux anomalies
Données catégoriques ou ordinales	Mode	Seule option pour les non-numériques
Très asymétrique avec anomalies (ex. revenu par utilisateur)	Médiane + moyenne	Rapporter les deux ; l'écart montre l'asymétrie

Rapportez toujours moyenne et médiane ensemble pour les métriques métier. S'ils divergent significativement, les données sont asymétriques et la moyenne seule est trompeuse.

Dispersion et Variabilité

Écart-type : À quelle distance typique les valeurs s'écartent de la moyenne. À utiliser avec des données normalement distribuées.
Écart interquartile (IQR) : Distance du p25 au p75. Robuste face aux anomalies. À utiliser avec des données asymétriques.
Coefficient de variation (CV) : EcartType / Moyenne. À utiliser pour comparer la variabilité entre métriques à différentes échelles.
Étendue : Maximum moins minimum. Sensible aux anomalies mais donne une rapide impression de l'étendue des données.

Percentiles dans un Contexte Métier

Rapportez les percentiles clés pour raconter une histoire plus riche que la moyenne seule :

p1:   Bottom 1% (plancher / valeur typique minimale)
p5:   Bas de la plage normale
p25:  Premier quartile
p50:  Médiane (utilisateur typique)
p75:  Troisième quartile
p90:  Top 10% / utilisateurs puissants
p95:  Haut de la plage normale
p99:  Top 1% / utilisateurs extrêmes

Exemple de narration : « La durée médiane de session est 4,2 minutes, mais les 10 % les plus actifs passent plus de 22 minutes par session, tirant la moyenne à 7,8 minutes. »

Description des Distributions

Caractérisez chaque distribution numérique que vous analysez :

Forme : Normale, asymétrique à droite, asymétrique à gauche, bimodale, uniforme, à queue lourde
Centre : Moyenne et médiane (et l'écart entre elles)
Dispersion : Écart-type ou IQR
Anomalies : Combien et à quel point extrêmes
Bornes : Y a-t-il un plancher naturel (zéro) ou un plafond (100 %) ?

Analyse de Tendances et Prévisions

Identification des Tendances

Moyennes mobiles pour lisser le bruit :

# Moyenne mobile sur 7 jours (idéale pour des données quotidiennes avec saisonnalité hebdomadaire)
df['ma_7d'] = df['metric'].rolling(window=7, min_periods=1).mean()

# Moyenne mobile sur 28 jours (lisse les motifs hebdomadaires ET mensuels)
df['ma_28d'] = df['metric'].rolling(window=28, min_periods=1).mean()

Comparaison période sur période :

Semaine sur semaine (WoW) : Comparer au même jour la semaine précédente
Mois sur mois (MoM) : Comparer au même mois précédent
Année sur année (YoY) : Standard d'or pour les entreprises saisonnières
Même jour année dernière : Comparer le jour calendaire spécifique

Taux de croissance :

Croissance simple : (actuel - précédent) / précédent
TCAC : (fin / début) ^ (1 / années) - 1
Croissance log : ln(actuel / précédent)  -- meilleure pour les séries volatiles

Détection de Saisonnalité

Vérifiez les motifs périodiques :

Tracez la série temporelle brute -- inspection visuelle en premier
Calculez les moyennes par jour de la semaine : y a-t-il un motif hebdomadaire clair ?
Calculez les moyennes par mois de l'année : y a-t-il un cycle annuel ?
Quand vous comparez des périodes, utilisez toujours des comparaisons YoY ou de même période pour éviter de confondre tendance et saisonnalité

Prévisions (Méthodes Simples)

Pour les analystes métier (non data scientists), utilisez des méthodes directes :

Prévision naïve : Demain = aujourd'hui. À utiliser comme baseline.
Naïve saisonnière : Demain = même jour la semaine/année dernière.
Tendance linéaire : Ajustez une ligne aux données historiques. Seulement pour des tendances clairement linéaires.
Prévision par moyenne mobile : Utilisez la moyenne historique comme prévision.

Communiquez toujours l'incertitude. Fournissez une plage, pas une estimation ponctuelle :

« Nous attendons 10 000–12 000 inscriptions le mois prochain selon la tendance sur 3 mois »
PAS « Nous obtiendrons exactement 11 234 inscriptions le mois prochain »

Quand escalader vers un data scientist : Tendances non-linéaires, saisonnalités multiples, facteurs externes (budget marketing, jours fériés), ou quand la précision de la prévision est importante pour l'allocation des ressources.

Détection d'Anomalies et d'Valeurs Extrêmes

Méthodes Statistiques

Méthode Z-score (pour données normalement distribuées) :

z_scores = (df['value'] - df['value'].mean()) / df['value'].std()
outliers = df[abs(z_scores) > 3]  # Plus de 3 écarts-types

Méthode IQR (robuste pour distributions non-normales) :

Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['value'] < lower_bound) | (df['value'] > upper_bound)]

Méthode percentile (la plus simple) :

outliers = df[(df['value'] < df['value'].quantile(0.01)) |
              (df['value'] > df['value'].quantile(0.99))]

Traitement des Anomalies

NE supprimez PAS automatiquement les anomalies. À la place :

Enquêtez : Est-ce une erreur de données, une valeur réellement extrême, ou une population différente ?
Erreurs de données : Corriger ou supprimer (ex. âges négatifs, timestamps en 1970)
Extrêmes authentiques : Conservez-les mais considérez d'utiliser des statistiques robustes (médiane plutôt que moyenne)
Population différente : Segmentez-les pour une analyse séparée (ex. clients entreprise vs. PME)

Rapportez ce que vous avez fait : « Nous avons exclu 47 enregistrements (0,3 %) avec des montants de transaction > 50 000 $, qui représentent des commandes en masse d'entreprise analysées séparément. »

Détection d'Anomalies en Série Temporelle

Pour détecter des valeurs inhabituelles dans une série temporelle :

Calculez la valeur attendue (moyenne mobile ou même période année dernière)
Calculez l'écart par rapport à l'attendu
Signalez les écarts au-delà d'un seuil (typiquement 2–3 écarts-types des résidus)
Distinguez les anomalies ponctuelles (une seule valeur inhabituelle) des points de rupture (décalage soutenu)

Bases des Tests d'Hypothèses

Quand les Utiliser

Utilisez les tests d'hypothèses quand vous devez déterminer si une différence observée est probablement réelle ou pourrait être due au hasard. Scénarios courants :

Résultats de test A/B : La variante B est-elle vraiment meilleure que A ?
Comparaison avant/après : Le changement produit a-t-il vraiment affecté la métrique ?
Comparaison de segments : Les clients entreprise ont-ils réellement une meilleure rétention ?

Le Cadre

Hypothèse nulle (H0) : Il n'y a pas de différence (l'hypothèse par défaut)
Hypothèse alternative (H1) : Il y a une différence
Choisissez le niveau de signification (alpha) : Typiquement 0,05 (5 % de chance de faux positif)
Calculez la statistique de test et la p-valeur
Interprétez : Si p < alpha, rejetez H0 (preuve d'une différence réelle)

Tests Courants

Scénario	Test	Quand l'Utiliser
Comparer deux moyennes de groupe	t-test (indépendant)	Données normales, deux groupes
Comparer deux proportions de groupe	z-test pour proportions	Taux de conversion, résultats binaires
Comparer des mesures appariées	t-test apparié	Avant/après sur mêmes entités
Comparer 3+ moyennes de groupe	ANOVA	Plusieurs segments ou variantes
Données non-normales, deux groupes	Test Mann-Whitney U	Métriques asymétriques, données ordinales
Association entre catégories	Test du chi-deux	Deux variables catégoriques

Signification Pratique vs. Signification Statistique

Signification statistique signifie que la différence est peu probable due au hasard.

Signification pratique signifie que la différence est assez grande pour importer aux décisions métier.

Une différence peut être statistiquement significative mais pratiquement sans importance (courant avec grands échantillons). Rapportez toujours :

Taille de l'effet : À quel point la différence est-elle grande ? (ex. « La variante B a amélioré la conversion de 0,3 point de pourcentage »)
Intervalle de confiance : Quelle est la plage des vrais effets plausibles ?
Impact métier : À quoi cela se traduit en revenu, utilisateurs, ou autres termes métier ?

Considérations de Taille d'Échantillon

Les petits échantillons produisent des résultats peu fiables, même avec des p-valeurs significatives
Règle d'or pour les proportions : Besoin d'au moins 30 événements par groupe pour une fiabilité basique
Pour détecter petits effets (ex. changement de 1 % du taux de conversion), vous pouvez avoir besoin de milliers d'observations par groupe
Si votre échantillon est petit, dites-le : « Avec seulement 200 observations par groupe, nous avons peu de puissance pour détecter des effets plus petits que X % »

Prudence face aux Affirmations Statistiques

Corrélation n'est pas Causalité

Quand vous trouvez une corrélation, considérez explicitement :

Causalité inverse : Peut-être B cause A, pas l'inverse
Variables confondantes : Peut-être C cause à la fois A et B
Coïncidence : Avec assez de variables, les corrélations spurieuses sont inévitables

Ce que vous pouvez dire : « Les utilisateurs qui utilisent la feature X ont une rétention 30 % plus élevée » Ce que vous ne pouvez pas dire sans plus de preuves : « La feature X cause une rétention 30 % plus élevée »

Problème de Comparaisons Multiples

Quand vous testez nombreuses hypothèses, certaines seront « significatives » par chance :

Tester 20 métriques à p=0,05 signifie ~1 sera faussement significative
Si vous avez regardé nombreux segments avant d'en trouver un différent, notez-le
Ajustez pour comparaisons multiples avec correction de Bonferroni (divisez alpha par le nombre de tests) ou rapportez combien de tests ont été exécutés

Paradoxe de Simpson

Une tendance dans données agrégées peut s'inverser quand les données sont segmentées :

Vérifiez toujours si la conclusion tient dans tous les segments clés
Exemple : La conversion globale monte, mais la conversion baisse dans chaque segment -- parce que le mix s'est décalé vers un segment à conversion plus élevée

Biais de Survivance

Vous ne pouvez analyser que les entités qui ont « survécu » pour être dans votre dataset :

Analyser les utilisateurs actifs ignore ceux qui se sont désabonnés
Analyser les entreprises réussies ignore celles qui ont échoué
Demandez toujours : « Qui manque de ce dataset, et leur inclusion changerait-elle la conclusion ? »

Sophisme Écologique

Les tendances globales peuvent ne pas s'appliquer aux individus :

« Les pays avec X plus élevé ont Y plus élevé » ne signifie PAS « les individus avec X plus élevé ont Y plus élevé »
Soyez prudent en appliquant des conclusions au niveau groupe aux cas individuels

Ancrage sur des Nombres Spécifiques

Méfiez-vous de la fausse précision :

« Le churn sera 4,73 % le trimestre prochain » implique plus de certitude que justifiée
Préférez les plages : « Nous attendons un churn entre 4–6 % selon les motifs historiques »
Arrondissez correctement : « Environ 5 % » est souvent plus honnête que « 4,73 % »

statistical-analysis