L’A/B testing a quelque chose de rassurant. On lance deux versions, on attend les chiffres, on choisit la gagnante. Scientifique. Data-driven. Objectif. Sauf que dans la pratique, la majorité des tests A/B sont invalides — non pas parce que les équipes sont incompétentes, mais parce que des erreurs très spécifiques glissent dans le process. Résultat : de mauvaises décisions prises avec une fausse confiance. Voici les sept pièges les plus courants, et comment les éviter concrètement.
1. Les erreurs de conception qui faussent vos résultats dès le départ
Avant même de regarder vos données, le mal est souvent déjà fait. Deux erreurs structurelles peuvent invalider un test dès sa mise en place.
Arrêter le test trop tôt (Peek & Stop)
Vous lancez votre test un lundi. Mercredi, le tableau de bord affiche +14 % de conversions avec un p-value de 0,03. Vous arrêtez et déployez. Erreur classique.
Pendant un test, les résultats fluctuent naturellement. Si vous vérifiez souvent et stoppez dès que le seuil est franchi, votre taux de faux positifs (erreurs de type I) explose. Des simulations montrent que ce taux peut dépasser 50 % — même avec un seuil théorique de 95 %.
La solution : définissez avant de lancer la durée du test et la taille d’échantillon nécessaire, puis tenez-vous y. Si vous devez surveiller en cours de route, utilisez des méthodes adaptées comme le Sequential Testing ou l’Always Valid Inference.
Tester trop de variantes en simultané
Tester cinq variantes en même temps semble efficace. En réalité, chaque comparaison supplémentaire crée sa propre probabilité de faux positif. Avec cinq comparaisons à p < 0,05, la probabilité d’obtenir au moins un faux positif dépasse 22 %. C’est le problème des comparaisons multiples — aussi appelé inflation du taux d’erreur de type I.
La solution : testez une ou deux variantes à la fois si votre trafic est limité. Si vous en testez plusieurs, appliquez une correction statistique comme la correction de Bonferroni ou la méthode Benjamini-Hochberg. Et surtout : formulez une hypothèse claire avant de tester. Un test sans hypothèse, c’est de l’exploration déguisée en expérimentation.
2. Les pièges statistiques qui gonflent vos résultats
Même avec un test bien conçu, des erreurs d’ordre statistique peuvent vous faire croire à des gains qui n’existent pas — ou passer à côté de ceux qui existent vraiment.
Un échantillon trop petit ou mal calculé
La puissance statistique mesure la probabilité de détecter un effet réel s’il existe. Un test à 50 % de puissance rate la moitié des effets réels — c’est un pile ou face avec une étape en plus.
Pour calculer la bonne taille d’échantillon, vous avez besoin de trois paramètres : le taux de base de votre métrique, le Minimum Detectable Effect (MDE) et le niveau de puissance souhaité (généralement 80 %). Un test sous-dimensionné produit deux effets pervers : il rate les vrais effets positifs (faux négatifs), et quand il détecte quelque chose, l’effet estimé est souvent gonflé — c’est le winner’s curse.
La solution : calculez la taille d’échantillon avant de lancer, avec des outils comme le calculateur d’Evan Miller ou la librairie Python statsmodels.
Confondre significativité statistique et importance pratique
Un résultat peut être statistiquement significatif et pratiquement inutile. p = 0,01 avec un gain de +0,3 % de taux de conversion : est-ce que ça vaut le coût de développement et la dette technique associée ? Probablement pas.
La significance statistique répond à : “Cet effet est-il dû au hasard ?” Elle ne répond pas à : “Cet effet est-il assez grand pour avoir de l’importance ?” Pour cela, utilisez des mesures d’effect size — Cohen’s d, lift relatif, impact absolu projeté sur votre base d’utilisateurs. Définissez aussi en amont un Minimum Business Impact : quel est le plus petit résultat qui justifierait d’implémenter le changement ? C’est cette barre qui doit guider vos décisions, pas uniquement le p-value.
3. Les biais comportementaux et de mesure qui trompent l’interprétation
Un test peut être techniquement valide et statistiquement correct — et quand même vous induire en erreur. C’est là qu’interviennent les biais liés aux utilisateurs et aux métriques.
L’effet de nouveauté et le Sample Ratio Mismatch
Deux phénomènes distincts peuvent corrompre vos conclusions à ce stade. Le premier est l’effet de nouveauté : une variante performe mieux simplement parce qu’elle est différente. Les utilisateurs explorent par curiosité, cliquent davantage — mais cet effet est transitoire. Si vous mesurez trop tôt, votre gain apparent disparaîtra une fois la nouveauté passée. À l’inverse, l’effet Hawthorne pousse des utilisateurs qui se sentent observés à se comporter différemment. Pour distinguer un vrai gain d’un artefact, surveillez l’évolution de la métrique dans le temps et attendez au minimum deux semaines avant de conclure sur un changement d’interface important.
Le second phénomène est le Sample Ratio Mismatch (SRM) : le ratio d’utilisateurs entre les variantes ne correspond pas au ratio prévu. Si votre test est conçu en 50/50 et que vous obtenez 52/48, toutes vos conclusions sont invalidées. Avant toute analyse, effectuez un chi-square test sur les tailles de vos groupes. Les causes fréquentes incluent des bugs de tracking, des redirections mal configurées, des bots filtrés après l’assignation, ou une cross-contamination entre groupes.
Des métriques mal choisies
C’est le piège le plus stratégique. Un test parfaitement exécuté peut mener à une mauvaise décision si vous mesurez la mauvaise chose. Exemple classique : vous optimisez le taux de clics sur un bouton d’ajout au panier. Il monte. Mais le taux de complétion d’achat chute. Vous avez créé de la friction en aval sans le voir.
Tout bon test doit embarquer des guardrail metrics — des métriques que vous ne cherchez pas à améliorer, mais que vous ne voulez pas dégrader : revenu par utilisateur, taux de rétention, NPS, temps de chargement. Si une guardrail metric se dégrade, la variante “gagnante” sur la métrique principale n’est peut-être pas une victoire. Avant de lancer, posez-vous cette question : “Si cette métrique augmente de X %, suis-je certain que c’est bon pour le business ?” Si la réponse est “pas forcément”, cherchez une meilleure métrique.


