Glossar: Testing

Methoden des Testings werden eingesetzt, um die Performance der eigenen Website oder App hinsichtlich bestimmter KPIs iterativ zu verbessern.

Varianten des Testings

Es gibt verschiedene Varianten von Tests, die eingesetzt werden können. Am weitesten verbreitet ist der klassische A/B-Test (Vergleich zwischen zwei Versionen der Seite). Eine weitere Methode ist der Multivarianten– (bzw. Multivariaten-) Test, bei dem jeweils ein Teil des Besucherstroms auf abgeänderte Versionen der Seite geleitet wird. Des weiteren kann ein einfacher Vorher-Nachher-Vergleich eingesetzt werden, dieser ist allerdings meist ungenau und nicht immer aussagekräftig.

Möglichkeiten des Testings

Da es unzählige Möglichkeiten zum Testing gibt, sollten zunächst immer die KPIs ermittelt werden, die für die Bewertung des Testergebnisses ausschlaggebend sein sollen. Hierbei sollte zusätzlich zwischen einem primären (ausschlaggebenden) KPI und sekundären KPIs unterschieden werden. Häufig benutzte Messwerte, die als primäre KPIs eingesetzt werden können, sind zum Beispiel die Click-Through-Rate (CTR) und die Conversion Rate. Ein Beispiel für eine sekundäre KPIs ist die Messung der Klicks auf einzelne Elemente, um noch mehr über die Auswirkungen des Tests auf das Userverhalten herauszufinden.

Testing einsetzen

Wenn es um kleinere Veränderungen auf der Webseite geht, wie zum Beispiel der Austausch einer Schriftart, oder um einen Bugfix, ist in der Regel kein Testing erforderlich.
Aber schon Änderungen an Call to Actions (CTA) – zum Beispiel Farbe des Buttons oder CTA-Text – oder beim Austausch einer Headline, lohnt sich das Aufsetzen eines Tests. Seitenelemente, mit denen User interagieren, bergen dabei grundsätzlich ein großes Potential für Verbesserungen.

In kritischen Bereichen des Bestellprozesses sollte wiederum in Hinsicht auf Veränderungen mit Bedacht vorgegangen werden. Zusätzlich ist auch der Traffic auf der Seite ausschlaggebend. Bei einem zu geringen Besucherstrom werden keine aussagekräftigen Ergebnisse am Ende des Tests stehen. Gegebenenfalls kann bei geringem Traffic aber auf eine andere KPI, wie zum Beispiel die CTR, ausgewichen werden.

Aussagekraft eines Tests

Generell dienen Tests erst dann als fundierte Entscheidungsgrundlage, wenn sie durch eine ausreichend große Testgruppe signifikant werden.

Auch ein Test mit vorläufig negativer Tendenz sollte abgewartet werden, da sich das Testergebnis mit steigenden Nutzerzahlen ändern kann. Die Belastbarkeit eines Ergebnisses kann durch einen Signifikanzrechner ermittelt werden. Als signifikantes Ergebnis gilt gemeinhin eine Schwelle von mehr als 95%. Die entscheidenden Faktoren hierfür sind die Anzahl der User, die mit dem Test in Berührung gekommen sind und der Unterschied in der Conversion Rate. Je geringer die Userzahl, desto größer muss der Unterschied zwischen den Varianten sein. Umgekehrt gilt: je größer die Userzahl ist, desto schneller wird ein Test auch bei kleineren Unterschieden signifikant. Die meisten Testing-Tools bieten für die Berechnung Signifikanzrechner oder haben Indikatoren für die Signifikanz eines Tests eingebaut.

Ein weiterer Faktor der häufig außer acht gelassen wird, sind wochentägliche oder saisonale Schwankungen. Entsprechend sollte ein Test, selbst wenn die statistische Signifikanz bereits gegeben ist, nur in Ausnahmefällen vor Ablauf einer vollen Woche beendet werden.

Gefahren und häufige Fehler

Mangelnde Vergleichbarkeit der Test- und Kontrollgruppe
Um verwertbare Ergebnisse zu erzeugen ist es wichtig, genau auf die Vergleichbarkeit der Testgruppen zu achten. Wenn User in der Testgruppe zu Beispiel bis zu einer bestimmten Stelle scrollen sollen, um eine Impression zu generieren, dann sollte in der Nullgruppe ebenfalls erst ab dieser Stelle eine Impression gemessen werden. Denn ein Teil der User wird vermutlich abspringen, bevor sie bis zu dieser Stelle scrollen und somit die Ergebnisse verzerren.
Zu globale oder falsche KPIs
Globale KPIs (wie z.B. die Conversion Rate) eignen sich für Tests auf z.B. der Startseite weniger, da User meist nicht direkt von der Startseite in den Warenkorb geleitet werden. Auch wenn der Traffic nicht sehr hoch ist, lassen sich Effekte nur sehr schwer mit statistischer Signifikanz nachweisen. Alternativ könnte man in diesem Fall die CTR oder Arrival-Rate heranziehen.
Mehrere sich gegenseitig beeinflussende Tests
Wenn gleichzeitig mehrere Tests durchgeführt werden, können sich diese gegenseitig beeinflussen und somit das Ergebnis verfälschen. Man kann dem entgegenwirken, indem für jeden Test eine eigene Nullgruppe festgelegt wird. Aber dieser Methode wird durch die Höhe des Traffics Grenzen gesetzt.

Testing

Let's get personal

Let's get personal

Zünde den trbo