Konfidenz sollte man kennen. (Grundlagen zur Statistik beim A/B Testing)
Data Analytics
Data Sciences
Tipps
Data Science

11 min Lesezeit

Konfidenz sollte man kennen. (Grundlagen zur Statistik beim A/B Testing)

Konfidenz Testing Visual Website Optimizer Test&Target Optimizely Statistik CTBO Uplift Berechnung

Inhalt

  • Was sollen die Zahlen uns überhaupt sagen?
  • Konfidenzniveau und Konfidenzintervall
  • Uplift
  • Chance to Beat
  • Konfidenz
  • Rechnen mit Revenue oder Score
  • Wie lange muss der Test laufen?
  • Sieben vermeidbare Testing-Fallstricke

Endlich kein Kopfzerbrechen mehr bei Testauswertungen

E-Book und Präsentations-Folien im Doppelpack

Du willst sicher sein, was dein Test wirklich aussagt und deinem Team helfen, dieselbe Klarheit zu gewinnen? Dieses Bundle gibt dir alles, was du brauchst, um souverän mit Statistik im Testing-Alltag umzugehen.

Täglich werden Case Studies veröffentlich, in denen von teilweise erstaunlich hohen Uplifts die Rede ist. Doch wie belastbar sind diese Zahlen wirklich? Die Grafiken und Angaben, die in der Testing-Software zu sehen sind, mögen auf den ersten Blick recht einfach und plausibel wirken – bei näherer Betrachtung kommen dann aber die ersten Fragen:

„In der Testing-Software wird ein Uplift von 4% bei einer CTBO von 92% angezeigt. Heißt das nun, dass mit 92% Prozent Wahrscheinlichkeit der Uplift 4% ist?“

Jeder, der ohne eine Statistikvorlesung im Lebenslauf beginnt, sich in der Praxis mit Testing zu befassen, wird sich über kurz oder lang die gleichen Fragen stellen und auch mit Missverständnissen bei der Interpretation der Testergebnisse konfrontiert werden. Auch die Frage, wie lange ein Test laufen sollte bzw. wann er gestoppt werden kann, wird gerne diskutiert. Daher möchte ich in diesem Blogpost versuchen, das für die Praxis im Testing relevante Wissen verständlich und einfach und ganz ohne Formeln zusammenzufassen.

Befasst man sich näher mit dem Thema und hinterfragt die angezeigten Werte, sieht man sich schnell mit den zugrunde liegenden statistischen Formeln, Annahmen und Methoden konfrontiert. Hinzu kommt, dass die Anzeige je nach verwendeter Software unterschiedlich ist und daher die Werte nicht direkt miteinander verglichen werden können. Es wird noch komplizierter, wenn nicht mit einer einfachen Conversion-Rate, sondern mit Revenue oder Engagement-Score gerechnet wird.

Du solltest aufgrund dieser Begriffe jedoch keine Angst vor der Kultur des Experimentierens haben! Gerne kannst du dich für unser Growth Ambassador Programm bewerben, um dich mit anderen Expert:innen unserer Community in regelmäßigen Meetups über A/B-Testing auszutauschen. Es wartet zudem ein sehr interessanter Videokurs auf dich, der dir beibringt, wie du erfolgreich experimentierst.

Aber zuvor noch einmal zurück zu den Grundlagen:

Was sollen die Zahlen uns überhaupt sagen?

Die Statistik beim Testing dient dem Ziel, aus einer kleinen Menge von „Samples“ – also für uns z.B. aus den einzelnen Nutzersitzungen, in denen eine Conversion entweder stattgefunden hat – oder eben nicht  – auf die „echten“ Werte zu schließen. Daraus soll eine Zukunftsprognose darüber abgeleitet werden, wie denn die Varianten, die in den Test geschickt wurden, weiterhin „performen“ werden und mit welcher Variante unser Auftraggeber das meiste Geld verdienen kann.

Dabei müssen wir uns allerdings stets bewusst machen, dass Formeln und Software die reale Welt stark vereinfachen müssen, um sie überhaupt abzubilden.

Die erste und gravierendste Annahme ist, dass der Test überhaupt ein sinnvolles Experiment darstellt, auf dessen Basis eine Zukunftsprognose abgegeben werden kann. Bereits dies ist ein häufiger Fallstrick. Wir setzen nämlich voraus, dass die Conversion-Rate jeder einzelnen Variante im Durchschnitt nach dem Testzeitraum die gleiche ist wie während des Testzeitraums. Dass sie sich auf einen Durchschnittswert „einpendelt“. In der Praxis ist diese aber vielen Einflüssen unterworfen. Saisonale Schwankungen, Sportereignisse, langfristige Trends durch sich stetig ändernde Mindsets der Nutzer, die neue TV-Kampagne des Wettbewerbers, sich ändernde Endgeräte oder der frisch versendete neue Katalog sind nur einige Beispiele dafür.

Konfidenzniveau und Konfidenzintervall

Ein Test liefert eine Aussage über ein Intervall, in dem die Conversion-Rate wahrscheinlich liegt. Die Aussage wird um so präziser, je mehr Samples die Stichprobe umfasst – d.h. das Intervall wird kleiner.

Die Aussage bezüglich einer einzigen Variante kann folgendermaßen formuliert werden:

„Auf Grundlage der bereits gemessenen Werte liegt die Conversion-Rate mit 95% Wahrscheinlichkeit zwischen 5,5 und 7,5%.“

Dabei wird „95%“ als das Konfidenzniveau bezeichnet. Dieses ist in unterschiedlichen Testing-Tools auf unterschiedliche Werte voreingestellt. Somit können sich die Angaben unterschiedlicher Testing-Tools schon alleine dadurch unterscheiden, wie „optimistisch“ sie mit dem Konfidenzniveau umgehen.

Mehr dazu kann man im folgenden Wikipedia-Artikel nachlesen:

http://de.wikipedia.org/wiki/Konfidenzintervall

Die statistischen Formeln basieren auf der Annahme, dass die Mittelwerte von Testreihen annähernd normalverteilt um den tatsächlichen Mittelwert sind. Das ist insbesondere bei sehr niedrigen Conversionraten eventuell gar nicht der Fall – die reale Verteilung könnte eher „schief“ sein. Viele Testingtools rechnen zudem direkt mit den Formeln der Normalverteilungskurve und gehen davon aus, dass der Mittelwert aus der Testreihe auch dem tatsächlichen Mittelwert enspricht – bei einer geringen Anzahl von Conversions führt dies dazu, dass das Konfidenzintervall kleiner ausgewiesen wird, als es tatsächlich ist.

Das alles bedeutet jedoch nicht, dass die Ergebnisse der Testing-Tools völlig unbrauchbar sind – für die Conversion-Optimierung ist das letzte Prozent Konfidenzniveau nicht wirklich entscheidend, man sollte nur nicht den Fehler machen, die Ergebnisse zu optimistisch zu interpretieren!

Uplift

Der Uplift wird üblicherweise berechnet, indem die Mittelwerte zweier Varianten ins Verhältnis gesetzt werden. Diese Zahl ist allerdings mit noch einem höheren Fehler behaftet, als die einzelnen Conversion-Rates – eine Aussage über den Uplift lässt sich als Intervall (von-bis) bei einem gewissen Konfidenzniveau ausdrücken. Vereinfacht kann man für den maximalen Uplift die beiden weiter auseinander liegenden Conversionraten-Intervallgrenzen ins Verhältnis setzen, für den minimalen Uplift die beiden eng beieinander liegenden Werte.

VWO-Beispiel

Visual Website Optimizer gibt den Fehler hier mit +/- 3 Prozentpunkte bezüglich der Conversion Rate an. Für den minimalen Uplift rechne ich also pessimistisch mit 24% CR für die Control und 28,5% CR für die Variante 1, macht rund 19% Uplift. Gewonnen hat die Variante in jedem Fall, daher ist die Chance das Original zu besiegen (Chance-To-Beat-Original = CTBO) hier 100%. Der maximal zu erwartende Uplift ergibt sich aus 18% für die Control und 34,5% für Variante 1, das ergibt 92% CR. Würde VWO eine Konfidenz für den Mittelwert von 50% anzeigen, wäre diese ebenfalls sehr hoch.

Übrigens: Ich erbitte bei der Gelegenheit sinnvolle Vorschläge (auf Deutsch oder Denglisch) für das Gegenteil von Uplift!

Chance to Beat

Je nach Software werden auch die Werte „Chance to Beat Original“ (CTBO), „Chance to Beat Control“ (CTBC) oder „Chance to Beat Baseline“ – was in etwa das gleiche bedeutet – aber teilweise auch die „Chance to Beat All“ (CTBA), die eine andere Bedeutung hat, ausgewiesen.

Für die „CTBC“ wird die Überlappung der Intervalle der betrachteten Variante mit der Kontrollvariante berechnet. Je weniger sie sich überlappen, desto größer die Wahrscheinlichkeit.

Die Aussage ist also bei 95% CTBO:

„Mit 95% Wahrscheinlichkeit ist die Variante irgendwie besser als das Original“ – was schon gegeben ist, wenn der reale Uplift nur minimal über Null liegt.

Eine häufige Fehlinterpretation ist, anzunehmen, dass CTBO die Wahrscheinlichkeit angibt, mit der der angezeigte Uplift (mindstens) erreicht wird, oder der „Konfidenz“ des Uplifts entspricht. Um Wahrscheinlichkeit zu berechnen, mit der ein bestimmter Uplift mindestens erreicht wird, müsste man nämlich nur den „rechten“ Abschnitt der Verteilungskurve heranziehen. Die entsprechenden Berechnungen sind jedoch nicht einfach, und leider sieht keines der mir bekannten Testingtools eine derartige Möglichkeit vor.

Wenn die betrachtete Variante „am verlieren ist“, ist die CTBO kleiner als 50%. Je kleiner die CTBO ist, desto klarer wird, dass es sich um eine Verlierervariante handelt.

Für die „Chance To Beat All“ (CTBA) wird eine entsprechende Berechnung gegen jede andere Variante durchgeführt, die Ergebnisse werden wiederum miteinander verrechnet.

Konfidenz

Einige Tools, beispielsweise Adobe Test&Target, zeigen zusätzlich Konfidenzwerte für den Uplift an. Dieser Wert darf keinesfalls mit der CTBO verwechselt werden. Sie sagt nämlich überhaupt nichts über die Änderung der Conversion-Rate aus oder darüber ob es sich um eine Gewinner- oder Verlierer-Variante handelt. Sie ist vielmehr um so größer, je valider die gezeigten Uplift- oder Verringerungs-Zahlen sind, und kann selbst dann hoch sein, wenn die Variante weder besser, noch schlechter „performt“ als das Original.

Adobe Test&Target Beispielbild

Adobe Test&Target zeigt nicht die CTBO an, sondern die Konfidenz, die sich auf den ermittelten Uplift bezieht. Bewegt man den Mauszeiger über einen Wert, wird das Konfidenzintervall angezeigt, in dem die jeweilige Zahl sich bei einem Konfidenzniveau von 95% befindet (hier für die Conversion Rate von Variante C).

Zur Berechnung wird die „Signal-To-Noise-Ratio“ in Anspruch genommen – diese wiederum setzt den ermittelten Unterschied der Varianten ins Verhältnis mit dem Fehler, mit dem die Zahlen behaftet sind.

Aber heute keine Formeln! Wichtig ist nur, dass der Unterschied klar ist!

Rechnen mit Revenue oder Score

Ein Experiment, bei dem lediglich eine Conversion Rate ermittelt wird, ist „binomial“ – der Kunde kauft entweder, oder er lässt es bleiben. Ein wenig komplizierter wird es hingegen, wenn andere Metriken ins Spiel kommen, wie z.B. Revenue – für die Optimierung von E-Commerce-Angeboten Pflicht – oder auch ein Engagement Score.

Die Formeln in den Testing-Tools werden hierbei ein klein wenig geringer – das ist für den nächsten Post spannend – die ausgegebenen Werte sind aber im Grunde die gleichen.

Es wird lediglich zusätzlich ein weiterer Wert angegeben: „Revenue per Conversion“ – oder „Average Order Value“. Eine Größe, die durchaus ebenso optimierenswert ist, wie die Conversion-Rate, aber leider oft vernachlässigt wird.

Das Resultat beider Größen ist die „Revenue per Visitor“ – also die Angabe, wieviel durchschnittlich mit einem Besucher (egal, ob er bestellt, oder nicht) verdient wird.

„Conversion Rate“  * „Revenue per Conversion“ = „Revenue per Visitor“

Diese steigt bei steigender Conversion Rate, aber auch bei steigendem durchschnittlichen Bestellwert. Es ist die wirklich wichtige Metrik für einen Shop, die onsite noch ermittelbar ist, ohne Zahlungsausfälle und Retouren zu berücksichtigen.

Die Revenue-basierten Angaben (Uplift, CTBO usw.) werden um so schneller valide, je weniger die Revenues der einzelnen Conversions auseinander liegen. Oder umgekehrt: Wenn man im gleichen Shop Socken und komplette Einbauküchen kaufen kann, und man alle Kunden in den gleichen Test schickt, sollte man davon ausgehen, dass man den Testergebnissen nicht so schnell trauen kann. Da die Software nämlich nach einer Woche Socken und Blusen noch nicht wissen kann, dass morgen ausnahmsweise jemand eine Küche bestellen wird, wird sie brav heute noch ein hohes Konfidenzniveau zeigen, das morgen komplett zunichte ist.

Einige Testing-Tools bieten eine Funktion an, mit der extrem hohe oder auch extrem niedrige Bestellwerte aus der Berechnung eliminiert werden. Sie zählen dann zwar noch als Conversion, aber als Bestellwert wird der Mittelwert der restlichen Bestellungen eingesetzt. Das kann das Ergebnis verfälschen – man optimiert auf ein Mal nur noch für Nutzer mit „normalen“ Warenkörben und nicht für die Küchenkäufer – aber wenn man andererseits das Ziel hat, einen Shop auf den Kauf von Küchen zu optimieren, sollte man vielleicht zunächst nachrechnen, ob man nach einer entsprechenden Segmentierung noch genügend Conversions hat, um den Test valide zu bekommen – ich fürchte, kaum jemand verkauft so viele Einbauküchen online…

Wie lange muss der Test laufen?

Wie lange ein Test laufen muss, hängt von unterschiedlichen Faktoren ab.

Der einfachste Faktor wird von der Software während des Tests permanent berechnet und lässt sich auch mit einem „Test Duration Calculator“ prognostizieren: Die statistische Konfidenz. Diese wird erst erreicht, wenn eine gewisse Anzahl von Conversions vorliegt – abhängig vom „Kontrast“ und der Anzahl der Varianten im Test.

Test duration calculator von Visual Website Optimizer:

http://visualwebsiteoptimizer.com/ab-split-test-duration/

Allerdings gibt es noch einige weitere Faktoren zu beachten:

  • Ein Test sollte nicht zu kurz laufen, damit die periodischen Schwankungen (zumindest Uhrzeit, Wochentage) abgedeckt sind. Hat man zwei Wochenenden im Test, aber nur eine Woche dazwischen, betont man das Wochende über.

  • Ein Test sollte auch nicht zu lange laufen. Wer so wenig Traffic hat, dass zwei Monate nicht ausreichen, sollte über andere Mittel nachdenken.

  • Revenue wird i.d.R. weniger schnell valide als Conversion Rate.

  • Die äußeren Rahmenbedingungen eines Tests haben oft mehr Einfluss auf die Ergebnisse, als man zunächst erwartet. Wenn ich den gleichen Test im Weihnachtsgeschäft und im Frühjahr starte, kann ich mit Unterschieden rechnen. Eventuell kann ich aus diesen aber interessante Erkenntnisse für das nächste Weihnachtsgeschäft ableiten.

  • Wird für den Stopp eines Tests bewusst ein Zeitpunkt gewählt, bei dem eine gewünschte Variante eine besonders hohe oder niedrige CTBO anzeigt, hat man den Test bereits dadurch manipuliert.

  • Je früher der Test im Entscheidungsprozess eingreift, desto wahrscheinlicher ist es, dass eine gewisse Zeit verstreichen muss, um Kunden mit längeren Customer Journeys sauber zu erfassen. Wieviel Tage verstreichen im Durchschnitt vom ersten Site-Kontakt zur Conversion?

Verlaufskurve

Typischer Testverlauf mit vergleichsweise wenig Traffic. Hier ist eine eindeutige Aussage fraglich, selbst wenn das Testing-Tool schon eine hohe CTBO zeigt.

Sieben vermeidbare Testing-Fallstricke

  • Erstens: Achten Sie darauf, dass der Test unter den Bedingungen erfolgt, für die auch optimiert werden soll.
    Nur so sind seine Ergebnisse verwertbar. Wenn Sie Werbung für Grillzubehör im November testen, sagt das nichts über deren Wirkung im Juni aus. Läuft ein Test auf der Startseite, nachdem ein Katalog an Bestandskunden versendet wurde, sagt das nichts über die Resultate für Neukunden aus, die über SEA auf dem Shop landen.

  • Die CTBO garantiert Ihnen keinesfalls den angezeigten Uplift, sondern sagt nur etwas darüber aus, welche Variante überhaupt die bessere ist. Schauen Sie sich das Konfidenzintervall an, um den zu erwartenden Uplift abzuschätzen.

  • Verwechseln Sie nicht CTBO mit Konfidenz. Die Konfidenz kann hoch sein, auch wenn der Test ergibt, dass die Varianten sich wenig voneinander unterscheiden.

  • Unterschiedliche Tools rechnen mit unterschiedlichen Konfidenzniveaus. – die Resultate lassen sich nur bedingt vergleichen.

  • Die Conversion Rate ist meist nicht die wichtigste Metrik, wird aber schneller valide und zeigt daher in vielen Fällen früher Trends an.

  • Die Testdauer sollte nicht ausschließlich davon abhängig gemacht werden, welche Konfidenz das Testing-Tool anzeigt. Wenn trotz viel Traffic unerklärliche Schwankungen im zeitlichen Verlauf der Conversion Rates zu sehen sind, könnten äußere Einflüsse schuld sein.

  • Will ein Test partout keinen validen Uplift bringen, hat man wohl daneben gelegen. Man sollte nicht ewig warten, sondern lieber abbrechen und andere Varianten ins Rennen schicken.

Und das wichtigste zum Schluss: Stets das Ganze im Auge behalten und das Denken nicht der Software überlassen! In diesem Sinn viel Erfolg beim Testen!

In weiteren Artikeln werde ich demnächst darauf eingehen, wie man die Berechnungen selbst (z.B in Excel) durchführen kann, wenn man z.B. nicht alle Daten zentral in der Testing-Software vorliegen hat – und wo auch dort Fallstricke liegen können.