{"id":1005534,"date":"2026-04-28T13:43:38","date_gmt":"2026-04-28T11:43:38","guid":{"rendered":"https:\/\/www.iterates.be\/?p=1005534"},"modified":"2026-04-17T14:08:06","modified_gmt":"2026-04-17T12:08:06","slug":"les-7-pieges-qui-invalident-vos-tests-a-b-et-comment-les-eviter","status":"publish","type":"post","link":"https:\/\/www.iterates.be\/fr\/les-7-pieges-qui-invalident-vos-tests-a-b-et-comment-les-eviter\/","title":{"rendered":"A\/B testing : les 7 pi\u00e8ges qui invalident vos tests"},"content":{"rendered":"<div class=\"vgblk-rw-wrapper limit-wrapper\">\n<p>L&#8217;<strong>A\/B testing<\/strong> a quelque chose de rassurant. On lance deux versions, on attend les chiffres, on choisit la gagnante. Scientifique. <em>Data-driven<\/em>. Objectif. Sauf que dans la pratique, la majorit\u00e9 des tests A\/B sont invalides \u2014 non pas parce que les \u00e9quipes sont incomp\u00e9tentes, mais parce que des erreurs tr\u00e8s sp\u00e9cifiques glissent dans le process. R\u00e9sultat : de mauvaises d\u00e9cisions prises avec une fausse confiance. Voici les sept pi\u00e8ges les plus courants, et comment les \u00e9viter concr\u00e8tement.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">1. Les erreurs de conception qui faussent vos r\u00e9sultats d\u00e8s le d\u00e9part<\/h2>\n\n\n\n<p>Avant m\u00eame de regarder vos donn\u00e9es, le mal est souvent d\u00e9j\u00e0 fait. Deux erreurs structurelles peuvent invalider un test d\u00e8s sa mise en place.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Arr\u00eater le test trop t\u00f4t (Peek &amp; Stop)<\/h3>\n\n\n\n<p>Vous lancez votre test un lundi. Mercredi, le <strong>tableau de bord<\/strong> affiche +14 % de conversions avec un <strong>p-value<\/strong> de 0,03. Vous arr\u00eatez et d\u00e9ployez. Erreur classique.<\/p>\n\n\n\n<p>Pendant un test, les r\u00e9sultats fluctuent naturellement. Si vous v\u00e9rifiez souvent et stoppez d\u00e8s que le seuil est franchi, votre <strong>taux de faux positifs<\/strong> (erreurs de <strong>type I<\/strong>) explose. Des simulations montrent que ce taux peut d\u00e9passer 50 % \u2014 m\u00eame avec un seuil th\u00e9orique de 95 %.<\/p>\n\n\n\n<p>La solution : d\u00e9finissez avant de lancer la dur\u00e9e du test et la <strong>taille d&#8217;\u00e9chantillon<\/strong> n\u00e9cessaire, puis tenez-vous y. Si vous devez surveiller en cours de route, utilisez des m\u00e9thodes adapt\u00e9es comme le <strong>Sequential Testing<\/strong> ou l&#8217;<strong>Always Valid Inference<\/strong>.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Tester trop de variantes en simultan\u00e9<\/h3>\n\n\n\n<p>Tester cinq variantes en m\u00eame temps semble efficace. En r\u00e9alit\u00e9, chaque comparaison suppl\u00e9mentaire cr\u00e9e sa propre probabilit\u00e9 de <strong>faux positif<\/strong>. Avec cinq comparaisons \u00e0 p &lt; 0,05, la probabilit\u00e9 d&#8217;obtenir au moins un faux positif d\u00e9passe 22 %. C&#8217;est le probl\u00e8me des <strong>comparaisons multiples<\/strong> \u2014 aussi appel\u00e9 inflation du <strong>taux d&#8217;erreur de type I<\/strong>.<\/p>\n\n\n\n<p>La solution : testez une ou deux variantes \u00e0 la fois si votre trafic est limit\u00e9. Si vous en testez plusieurs, appliquez une correction statistique comme la <strong>correction de Bonferroni<\/strong> ou la m\u00e9thode <strong>Benjamini-Hochberg<\/strong>. Et surtout : formulez une hypoth\u00e8se claire <em>avant<\/em> de tester. Un test sans hypoth\u00e8se, c&#8217;est de l&#8217;exploration d\u00e9guis\u00e9e en exp\u00e9rimentation.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">2. Les pi\u00e8ges statistiques qui gonflent vos r\u00e9sultats<\/h2>\n\n\n\n<p>M\u00eame avec un test bien con\u00e7u, des erreurs d&#8217;ordre statistique peuvent vous faire croire \u00e0 des gains qui n&#8217;existent pas \u2014 ou passer \u00e0 c\u00f4t\u00e9 de ceux qui existent vraiment.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Un \u00e9chantillon trop petit ou mal calcul\u00e9<\/h3>\n\n\n\n<p>La <strong>puissance statistique<\/strong> mesure la probabilit\u00e9 de d\u00e9tecter un effet r\u00e9el s&#8217;il existe. Un test \u00e0 50 % de puissance rate la moiti\u00e9 des effets r\u00e9els \u2014 c&#8217;est un pile ou face avec une \u00e9tape en plus.<\/p>\n\n\n\n<p>Pour calculer la bonne taille d&#8217;\u00e9chantillon, vous avez besoin de trois param\u00e8tres : le <strong>taux de base<\/strong> de votre m\u00e9trique, le <strong>Minimum Detectable Effect (MDE)<\/strong> et le <strong>niveau de puissance<\/strong> souhait\u00e9 (g\u00e9n\u00e9ralement 80 %). Un test sous-dimensionn\u00e9 produit deux effets pervers : il rate les vrais effets positifs (<strong>faux n\u00e9gatifs<\/strong>), et quand il d\u00e9tecte quelque chose, l&#8217;effet estim\u00e9 est souvent gonfl\u00e9 \u2014 c&#8217;est le <strong>winner&#8217;s curse<\/strong>.<\/p>\n\n\n\n<p>La solution : calculez la taille d&#8217;\u00e9chantillon <em>avant<\/em> de lancer, avec des outils comme le calculateur d&#8217;Evan Miller ou la librairie Python <code>statsmodels<\/code>.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Confondre significativit\u00e9 statistique et importance pratique<\/h3>\n\n\n\n<p>Un r\u00e9sultat peut \u00eatre statistiquement <strong>significatif<\/strong> et pratiquement inutile. p = 0,01 avec un gain de +0,3 % de taux de conversion : est-ce que \u00e7a vaut le co\u00fbt de d\u00e9veloppement et la dette technique associ\u00e9e ? Probablement pas.<\/p>\n\n\n\n<p>La <strong>significance statistique<\/strong> r\u00e9pond \u00e0 : &#8220;Cet effet est-il d\u00fb au hasard ?&#8221; Elle ne r\u00e9pond pas \u00e0 : &#8220;Cet effet est-il assez grand pour avoir de l&#8217;importance ?&#8221; Pour cela, utilisez des mesures d&#8217;<strong>effect size<\/strong> \u2014 <strong>Cohen&#8217;s d<\/strong>, <strong>lift relatif<\/strong>, impact absolu projet\u00e9 sur votre base d&#8217;utilisateurs. D\u00e9finissez aussi en amont un <strong>Minimum Business Impact<\/strong> : quel est le plus petit r\u00e9sultat qui justifierait d&#8217;impl\u00e9menter le changement ? C&#8217;est cette barre qui doit guider vos d\u00e9cisions, pas uniquement le <strong>p-value<\/strong>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">3. Les biais comportementaux et de mesure qui trompent l&#8217;interpr\u00e9tation<\/h2>\n\n\n\n<p>Un test peut \u00eatre techniquement valide et statistiquement correct \u2014 et quand m\u00eame vous induire en erreur. C&#8217;est l\u00e0 qu&#8217;interviennent les biais li\u00e9s aux utilisateurs et aux m\u00e9triques.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">L&#8217;effet de nouveaut\u00e9 et le Sample Ratio Mismatch<\/h3>\n\n\n\n<p>Deux ph\u00e9nom\u00e8nes distincts peuvent corrompre vos conclusions \u00e0 ce stade. Le premier est l&#8217;<strong>effet de nouveaut\u00e9<\/strong> : une variante performe mieux simplement parce qu&#8217;elle est <em>diff\u00e9rente<\/em>. Les utilisateurs explorent par curiosit\u00e9, cliquent davantage \u2014 mais cet effet est transitoire. Si vous mesurez trop t\u00f4t, votre gain apparent dispara\u00eetra une fois la nouveaut\u00e9 pass\u00e9e. \u00c0 l&#8217;inverse, l&#8217;<strong>effet Hawthorne<\/strong> pousse des utilisateurs qui se sentent observ\u00e9s \u00e0 se comporter diff\u00e9remment. Pour distinguer un vrai gain d&#8217;un artefact, surveillez l&#8217;\u00e9volution de la m\u00e9trique dans le temps et attendez au minimum deux semaines avant de conclure sur un changement d&#8217;interface important.<\/p>\n\n\n\n<p>Le second ph\u00e9nom\u00e8ne est le <strong>Sample Ratio Mismatch (SRM)<\/strong> : le ratio d&#8217;utilisateurs entre les variantes ne correspond pas au ratio pr\u00e9vu. Si votre test est con\u00e7u en 50\/50 et que vous obtenez 52\/48, toutes vos conclusions sont invalid\u00e9es. Avant toute analyse, effectuez un <strong>chi-square test<\/strong> sur les tailles de vos groupes. Les causes fr\u00e9quentes incluent des bugs de <strong>tracking<\/strong>, des redirections mal configur\u00e9es, des <strong>bots<\/strong> filtr\u00e9s apr\u00e8s l&#8217;assignation, ou une <strong>cross-contamination<\/strong> entre groupes.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Des m\u00e9triques mal choisies<\/h3>\n\n\n\n<p>C&#8217;est le pi\u00e8ge le plus strat\u00e9gique. Un test parfaitement ex\u00e9cut\u00e9 peut mener \u00e0 une mauvaise d\u00e9cision si vous mesurez la mauvaise chose. Exemple classique : vous optimisez le <strong>taux de clics<\/strong> sur un bouton d&#8217;ajout au panier. Il monte. Mais le <strong>taux de compl\u00e9tion d&#8217;achat<\/strong> chute. Vous avez cr\u00e9\u00e9 de la friction en aval sans le voir.<\/p>\n\n\n\n<p>Tout bon test doit embarquer des <strong>guardrail metrics<\/strong> \u2014 des m\u00e9triques que vous ne cherchez pas \u00e0 am\u00e9liorer, mais que vous ne voulez pas d\u00e9grader : revenu par utilisateur, <strong>taux de r\u00e9tention<\/strong>, NPS, temps de chargement. Si une guardrail metric se d\u00e9grade, la variante &#8220;gagnante&#8221; sur la <strong>m\u00e9trique principale<\/strong> n&#8217;est peut-\u00eatre pas une victoire. Avant de lancer, posez-vous cette question : &#8220;Si cette m\u00e9trique augmente de X %, suis-je certain que c&#8217;est bon pour le business ?&#8221; Si la r\u00e9ponse est &#8220;pas forc\u00e9ment&#8221;, cherchez une meilleure m\u00e9trique.<\/p>\n\n\n\n<p><\/p>\n<\/div><!-- .vgblk-rw-wrapper -->","protected":false},"excerpt":{"rendered":"<p>L&#8217;A\/B testing a quelque chose de rassurant. On lance deux versions, on attend les chiffres, on choisit la gagnante. Scientifique. Data-driven. Objectif. Sauf que dans la pratique, la majorit\u00e9 des tests A\/B sont invalides \u2014 non pas parce que les \u00e9quipes sont incomp\u00e9tentes, mais parce que des erreurs tr\u00e8s sp\u00e9cifiques glissent dans le process. R\u00e9sultat&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[1238,1245,1239],"tags":[],"class_list":["post-1005534","post","type-post","status-publish","format-standard","hentry","category-developpement-dapplication","category-developpement-de-logiciel","category-developpement-web"],"acf":[],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/posts\/1005534","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/comments?post=1005534"}],"version-history":[{"count":1,"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/posts\/1005534\/revisions"}],"predecessor-version":[{"id":1005558,"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/posts\/1005534\/revisions\/1005558"}],"wp:attachment":[{"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/media?parent=1005534"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/categories?post=1005534"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.iterates.be\/fr\/wp-json\/wp\/v2\/tags?post=1005534"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}