L’A/B-testen is geruststellend. We lanceren twee versies, wachten op de cijfers en kiezen dan de winnaar. Wetenschappelijk. Datagestuurd. Objectief. Behalve dat in de praktijk de meeste A/B-tests ongeldig zijn - niet omdat de teams incompetent zijn, maar omdat er heel specifieke fouten in het proces sluipen. Het resultaat: slechte beslissingen met vals vertrouwen. Hier zijn de zeven meest voorkomende valkuilen en hoe je ze in de praktijk kunt vermijden.
1. Ontwerpfouten die je resultaten vanaf het begin vertekenen
Zelfs voordat je naar je gegevens kijkt, is de schade vaak al aangericht. Twee structurele fouten kunnen een test ongeldig maken zodra deze is opgezet.
De test te vroeg stoppen (Peek & Stop)
Je start je test op maandag. Op woensdag dashboard postte +14 % in conversies met een p-waarde van 0,03. Je stopt en zet in. Klassieke fout.
Tijdens een test fluctueren de resultaten natuurlijk. Als je vaak controleert en stopt zodra de drempel wordt overschreden, zal je percentage fout-positieve uitslagen (fouten in type I) explodeert. Simulaties tonen aan dat deze snelheid 50 % kan overschrijden - zelfs met een theoretische drempel van 95 %.
De oplossing: bepaal voordat u de test start de duur van de test en de steekproefomvang houd je er dan aan. Als je onderweg een oogje in het zeil moet houden, gebruik dan geschikte methoden zoals de Sequentieel testen of de’Altijd geldige gevolgtrekking.
Te veel varianten tegelijk testen
Vijf varianten tegelijk testen lijkt effectief. In werkelijkheid creëert elke extra vergelijking zijn eigen waarschijnlijkheid van fout-positief. Met vijf vergelijkingen bij p < 0,05 is de kans op ten minste één fout-positief groter dan 22 %. Dit is het probleem met meervoudige vergelijkingen - ook bekend als Type I foutenpercentage.
De oplossing: test één of twee varianten tegelijk als je verkeer beperkt is. Als je er meerdere test, pas dan een statistische correctie toe zoals de Bonferroni-correctie of de Benjamini-Hochberg. En vooral: formuleer een duidelijke hypothese voor om te testen. Een test zonder hypothese is onderzoek vermomd als experiment.
2. Statistische valkuilen die je resultaten opblazen
Zelfs met een goed ontworpen test kunnen statistische fouten ertoe leiden dat je gelooft in winsten die er niet zijn - of winsten mist die er wel zijn.
Een te klein of verkeerd berekend monster
La statistische kracht meet de waarschijnlijkheid van het detecteren van een echt effect als het bestaat. Een test met 50 % vermogen mist de helft van de echte effecten - het is een munt opgooien met een extra stap.
Om de juiste steekproefgrootte te berekenen, heb je drie parameters nodig: de basistarief van je metriek, de Minimaal Detecteerbaar Effect (MDE) en de vermogensniveau (over het algemeen 80 %). Een te kleine test heeft twee perverse effecten: het mist de echte positieve effecten (valse negatieven), en als het iets detecteert, wordt het geschatte effect vaak opgeblazen - dit is de vloek van de winnaar.
De oplossing: bereken de steekproefgrootte voor te starten, met hulpmiddelen zoals Evan Miller's calculator of de Python-bibliotheek statsmodellen.
Statistische significantie verwarren met praktisch belang
Een resultaat kan statistisch belangrijke en praktisch nutteloos. p = 0,01 met een winst van +0,3 % in conversiesnelheid: is dit de ontwikkelingskosten en de bijbehorende technische schuld waard? Waarschijnlijk niet.
La statistische significantie antwoordt : “Komt dit effect door toeval?” Het geeft geen antwoord op de vraag: “Is dit effect groot genoeg om ertoe te doen?” Gebruik hiervoor maatregelen van’effectgrootte - Cohen's d, relatieve lift, De absolute impact geprojecteerd op je gebruikersbestand. Definieer een Minimale bedrijfsimpact Wat is het kleinste resultaat dat het doorvoeren van de verandering rechtvaardigt? Het is deze lat die als leidraad moet dienen voor je beslissingen, niet alleen de p-waarde.
3. Vertekeningen in gedrag en metingen die leiden tot verkeerde interpretaties
Een test kan technisch geldig en statistisch correct zijn en je toch misleiden. Dit is waar gebruikersvooroordelen en statistieken om de hoek komen kijken.
Het nieuwheidseffect en de verkeerde steekproefratio
Twee verschillende fenomenen kunnen je conclusies in dit stadium bederven. Het eerste is de’nieuwheidseffect een variant beter presteert omdat hij gewoon verschillende. Gebruikers gaan op onderzoek uit nieuwsgierigheid en klikken meer - maar dit effect is van voorbijgaande aard. Als je te vroeg meet, zal je ogenschijnlijke winst verdwijnen zodra de nieuwigheid wegebt. Omgekeerd’Hawthorne-effect Gebruikers die het gevoel hebben dat ze in de gaten worden gehouden, gaan zich anders gedragen. Om een echte verbetering van een artefact te onderscheiden, moet je de evolutie van de metriek in de tijd opvolgen en minstens twee weken wachten voor je een grote interfacewijziging doorvoert.
Het tweede fenomeen is de Mismatch monsterverhouding (SRM) De verhouding van gebruikers tussen de varianten komt niet overeen met de verwachte verhouding. Als je test is ontworpen op basis van 50/50 en je krijgt 52/48, dan zijn al je conclusies ongeldig. Voer voor elke analyse een chi-kwadraat toets op de grootte van je groep. Veel voorkomende oorzaken zijn volgen, s, verkeerd geconfigureerde omleidingen en bots gefilterd na toewijzing, of een kruisbesmetting tussen groepen.
Slecht gekozen statistieken
Dit is de meest strategische valkuil. Een perfect uitgevoerde test kan tot de verkeerde beslissing leiden als je de verkeerde dingen meet. Klassiek voorbeeld: je optimaliseert de doorklikpercentage op een knop Toevoegen aan winkelwagentje. Hij gaat omhoog. Maar de aankoop voltooiingspercentage val. Je hebt stroomafwaarts wrijving gecreëerd zonder het te beseffen.
Alle goede tests moeten het volgende bevatten vangrail statistieken - statistieken die je niet probeert te verbeteren, maar ook niet wilt verslechteren: inkomsten per gebruiker, retentiegraad, NPS, laadtijd. Als een vangrailmetriek verslechtert, is de “winnende” variant op de hoofdmetriek misschien geen winst zijn. Stel jezelf de volgende vraag voordat je van start gaat: “Als deze metriek met X % toeneemt, weet ik dan zeker dat dat goed is voor het bedrijf?” Als het antwoord “niet noodzakelijk” is, zoek dan naar een betere metriek.


