Der Shopify Blog

A/B Testing - Der ultimative Guide mit Expertentipps von Google, HubSpot und anderen

a/b testing guide anleitung

Dies ist wahrscheinlich nicht das erste Mal, dass du etwas über das Thema A/B-Tests liest. Artikel über Ergebnisse von A/B-Tests werden gern und oft geteilt. Vielleicht testest du sogar selbst bereits die Betreffzeilen deiner E-Mails oder deine Social-Media-Beiträge.

Trotz der Tatsache, dass bereits viel zum Thema A/B-Tests geschrieben und berichtet wurde, gehen viele Marketingverantwortliche das Thema noch immer falsch an. Das Ergebnis? Es werden wichtige geschäftliche Entscheidungen auf Basis ungenauer Ergebnisse aus unsachgemäßen Tests getroffen.

Das Problem ist, dass A/B-Tests oft stark vereinfacht umgesetzt werden, besonders dann, wenn es um Inhalte für Shop-Besitzer geht.

Die Lösung? Hier findest du alles, was du für den Einstieg in die Welt der A/B-Tests für den Bereich E-Commerce wissen musst – und das so einfach erklärt, wie nur irgendwie möglich.

 Inhaltsverzeichnis

  • Was sind A/B-Tests?
  • Wie A/B-Tests funktionieren
  • Was sind A/B/n-Tests?
  • Wie lange sollten A/B-Tests laufen?
  • Warum solltest du A/B-Tests nutzen?
  • Priorisierung von A/B-Testideen
  • Crash-Kurs A/B-Teststatistiken
  • Aufsetzen eines A/B-Tests
  • Ergebnisse aus A/B-Tests analysieren
  • Abgelaufene A/B-Tests archivieren
  • A/B-Tests: Die Prozesse der Profis 
  • Was sind A/B-Tests?

    Ein A/B-Test, manchmal auch unter dem englischen Begriff Split Testing bekannt, ist der Prozess, bei dem zwei Versionen der gleichen Webseite verglichen werden, um festzustellen, welche davon besser funktioniert. 

    Dieser Prozess ermöglicht es dir, wichtige Fragen im geschäftlichen Kontext zu beantworten. Er unterstützt dich dabei, mehr Einnahmen aus dem bereits bestehenden Traffic zu generieren und legt den Grundstein für eine datengestützte Marketing-Strategie.

    Wie A/B-Tests funktionieren

    Du zeigst 50 % der Besuchern die Variante A (dies nennen wir “Kontrolle”) und den anderen 50 % die Variante B (dies nennen wir “Alternative”).

    Die Version der Webseite, welche die höchste Konvertierungsrate generiert, gewinnt. Nehmen wir z. B. an, dass die Alternative (also Variante B) die höchste Konvertierungsrate erzielt. Daraufhin solltest du diese Variante zum Gewinner erklären und 100 % der Besucher darauf leiten.

    Anschließend wird die Alternative zur neuen Kontrollversion, sodass du eine neue Alternative für das weitere Testen konzipieren müssen.

    In diesem Zusammenhang sei gesagt, dass die Konvertierungsrate ein eher unvollkommener Maßstab für den Erfolg ist. Warum ist das so? Weil du deine Konvertierungsrate im Handumdrehen erhöhen kannst, indem du alles in deinem Shop kostenlos anbietest. Natürlich wäre das eine denkbar schlechte Geschäftsentscheidung.

    Aus diesem Grund solltest du jedoch den Wert einer Wandlung komplett und bis zum wohlklingenden Ton einer klingelnden Registrierkasse messen.

    Was sind A/B/n-Tests?

    Mit A/Bn-Tests kannst du mehr als nur eine Variante gegen die Kontrollversion testen. Anstatt also 50 % der Besucher die Kontrollversion und den anderen 50 % die Alternative zu zeigen, könntest du 25 % der Besucher die Kontrollversion sowie jeweils 25 % die erste, zweite und dritte Alternative zeigen.

    Hinweis: Dieser Prozess unterscheidet sich vom multivariaten Testverfahren, das ebenfalls mehrere Alternativen umfasst. Bei multivariaten Tests testest du jedoch nicht nur unterschiedliche Varianten, sondern zudem verschiedene Elemente. Das Ziel hierbei ist es, herauszufinden, welche Kombination am besten funktioniert.

    Multivariate test

    Image Source

    Du benötigst eine Menge Traffic, um solche multivariaten Tests durchführen zu können. Von daher kannst du diese vorerst ignorieren.

    Wie lange sollten A/B-Tests laufen?

    Lass deine A/B-Tests für die Dauer von mindestens einem, idealerweise zwei vollen Geschäftszyklen laufen. Beende deinen Test nicht einfach, weil er eine gewisse Aussagekraft erreicht hat. Zudem musst du deine vorab definierte Stichprobengröße erreichen. Zu guter Letzt solltest du nicht vergessen, deine Tests in Inkrementen von ganzen Wochen durchzuführen.

    Warum zwei vollständige Geschäftszyklen? Für den Anfang gilt Folgendes:

    1. Du kannst damit auch “Ich muss erst darüber nachdenken”-Käufer berücksichtigen.
    2. Du kannst sämtliche verschiedenen Traffic-Quellen berücksichtigen (Facebook, E-Mail, Newsletter, organische Suche etc.).
    3. Du kannst Anomalien berücksichtigen. (z. B. deinen besonderen Freitags-Newsletter).

    Falls du bereits ein Tool für A/B-Tests verwendet hast, bist du wahrscheinlich auch mit dem kleinen grünen Symbol “Statistisch signifikant” vertraut.

    Für viele ist dies leider bereits das allgemeingültige Signal dafür, dass der Test durch ist und beendet werden kann. Wie du im Verlauf des Crash-Kurses Statistik lernen wirst, ist die statistische Signifikanz jedoch kein Grund für den Testabbruch. Nur weil dieser Wert erreicht wurde, heißt dies noch lange nicht, dass du den Test beenden solltest.

    Und deine vorab definierte Stichprobengröße? Dies ist nicht so einschüchternd, wie es scheint. Öffne einen Rechner für die Stichprobengröße wie diesen hier von Evan Miller.

    Sample size calculator

    Die Berechnung sagt aus, dass bei deiner angenommenen Konvertierungsrate von derzeit 5 % und einer erkennbaren Auswirkung von gewünscht 15 %, eine Stichprobengröße von 13.533 je Variante benötigt wird. Sofern es sich um einen normalen A/B-Test handelt, sind also insgesamt 25.000 Besucher erforderlich.

    Schau dir an, was passiert, wenn du eine kleinere Auswirkung messen möchtest:

    Sample size calculator

    Das einzige, was sich hier verändert hat, ist die minimal nachweisbare Auswirkung (minimum detectable effect oder MDE). Dieser Wert wird von 15 % auf 8 % reduziert. In diesem Fall benötigst du bereits eine Stichprobengröße von 47.127 je Variante. Sofern es sich also auch hier um einen normalen A/B-Test handelt, sind 100.000 Besucher erforderlich.

    Deine Stichprobengröße sollte im Voraus berechnet werden, bevor der Test beginnt. Bis dein Test die vorab definierte Stichprobengröße erreicht hat, sollte er nicht gestoppt werden (auch dann nicht, wenn er bereits statistische Signifikanz erreicht hat). Wird er trotzdem gestoppt, ist der Test ungültig.

    Von daher solltest du dich nicht ziellos auf “Best Practices”, die z. B. einen Stopp nach 100 Konvertierungen empfehlen, verlassen.

    Außerdem ist es wichtig, Tests für den Zeitraum ganzer Wochen laufen zu lassen. Warum ganze Wochen? Dein Traffic kann abhängig vom jeweiligen Wochentag und der Tageszeit variieren. Aus diesem Grund solltest du darauf achten, jeden Tag der Woche in deinen Test aufzunehmen

    Warum solltest du A/B-Tests nutzen?

    Angenommen, du gibst 100 EUR für Facebook-Anzeigen aus, um zehn Leute auf deine Seite zu leiten. Dein durchschnittlicher Bestellwert liegt bei 25 EUR. Acht dieser Besucher verlassen deine Seite, ohne etwas zu kaufen. Die anderen beiden geben jeweils 25 EUR aus. Das Ergebnis? Du hast 50 EUR verloren.

    Nun lass uns annehmen, dass du 100 EUR für Facebook-Anzeigen ausgibst, um 10 Leute auf deine Seite zu leiten. Dein durchschnittlicher Bestellwert liegt ebenfalls bei 25 EUR. Dieses Mal gehen jedoch nur 5 von diesen Besuchern, ohne etwas zu kaufen. Die anderen fünf geben jeweils 25 EUR aus. Das Ergebnis? Glückwunsch, du hast 25 EUR verdient.

    Natürlich ist dies lediglich ein vereinfachtes Beispiel. Durch die Erhöhung der Konvertierungsrate hast du in diesem Fall jedoch den gleichen Traffic weitaus wertvoller gemacht.

    A/B-Tests helfen dir auch dabei, Erkenntnisse zu gewinnen – ganz egal, ob du Gewinner oder Verlierer testest. Solche Ergebnisse sind durchaus übertragbar. So kann z. B. eine aus einem A/B-Test einer Produktbeschreibung gewonnene Erkenntnis bei der Konzeption deines Leistungsversprechens und anderer Produktbeschreibungen helfen.

    Zudem lässt sich der Wert, den eine fortlaufende Konzentration auf die Verbesserung der Effektivität deines Shops mit sich bringt, nicht ignorieren.

    Solltest du A/B-Tests nutzen?

    Nicht unbedingt. Falls du eine Seite mit nur geringem Traffic betreibst, sind A/B-Tests wahrscheinlich nicht die beste Optimierungsmethode. Eventuell wirst du einen höheren ROI mit dem Testen von Benutzern oder direkten Befragungen deiner Kunden verzeichnen.

    Trotz der landläufigen Meinung beginnt und endet die Optimierung der Konvertierungsrate nicht mit dem Testen.

    Betrachte die Zahlen aus dem obigen Beispiel mit dem Rechner für die Stichprobengröße. Wenn deine Ausgangsbasis eine Konvertierungsrate von 5 % ist, sind 47.127 Besucher pro Variante nötig, um einen Effekt von 8 % zu ermitteln. Nehmen wir an, du möchtest eine Produktseite testen. Hast du eine Produktseite, die annähernd 100.000 Besucher in zwei bis vier Wochen verzeichnet?

    Einen Moment. Warum zwei bis vier Wochen? Denk daran: Wir wollen Tests für die Dauer von mindestens zwei vollen Geschäftszyklen laufen lassen. Dies läuft in der Regel auf zwei bis vier Wochen hinaus. Jetzt wirst du wahrscheinlich denken: “Kein Problem. Ich lasse den Test einfach länger als zwei bis vier Wochen laufen, um so die erforderliche Stichprobengröße zu erreichen.” Das wird jedoch so nicht funktionieren.

    Warum? Je länger ein Test läuft, desto anfälliger ist er hinsichtlich externer Validitätsrisiken und Verunreinigungen der Probe. So kann es z. B. sein, dass Besucher ihre Cookies löschen und so als neue Besucher erneut in den A/B-Test aufgenommen werden. Oder sie wechseln von ihrem Handy auf den Desktop-PC und sehen dort eine andere Variante der Seite.

    Von daher gilt im Wesentlichen, dass ein zu langes Laufenlassen deines Tests auch keine wirkliche Option ist.

    Kurz und knapp: Testen lohnt sich für Shops, welche die erforderliche Stichprobengröße in zwei bis vier Wochen erreichen können. Shops, die dies nicht gewährleisten können, sollten andere Arten der Optimierung in Betracht ziehen, bis sich ihr Traffic entsprechend erhöht.

    Julia Starostenko, Datenwissenschaftlerin bei Shopify, stimmt zu und erklärt:

    Expert Headshot

    Julia Starostenko, Shopify

    "Experimentieren macht Spaß! Dabei ist es jedoch wichtig, zu gewährleisten, dass die Ergebnisse auch genau sind..

    Frag dich selbst, ob deine Zielgruppe groß genug ist. Hast du genügend Daten erhoben? Um eine echte statistische Signifikanz zu erreichen (innerhalb eines angemessenen Zeitrahmens), muss die Zielgruppe eine ausreichende Größe aufweisen."

    Was solltest du per A/B-Tests testen?

    Ich kann dir nicht sagen, was du testen solltest. Ich weiß, ich weiß: Es würde dein Leben sicherlich einfacher machen, wenn ich an dieser Stelle eine Liste mit 99 Dingen zum Testen präsentieren würde. Es gibt keinen Mangel an Marketern, die für ein paar Klicks genau dazu bereit sind.

    Die Wahrheit ist jedoch, dass die einzig wirklich sinnvollen Tests solche sind, die auf deinen eigenen Daten basieren. Ich habe keinen Zugriff auf deine Daten, deine Kunden etc. und all diejenigen, die solch riesige Listen zusammenstellen, haben dies ebenso wenig. Keiner von uns kann eine aussagekräftige Aussage darüber treffen, was du testen solltest.

    Die einzig wirklich sinnvollen Tests sind solche, die auf deinen eigenen Daten basieren.

    Stattdessen empfehle ich dir, dir diese Frage selbst und auf Basis von qualitativer und quantitativer Analyse zu beantworten. Das könnte Folgendes bedeuten:

    • Technische Analyse: Wird dein Shop einwandfrei und schnell in jedem Browser geladen? Auf jedem Endgerät? Du hast vielleicht ein glitzernd neues iPhone X in der Tasche. Irgendwo gibt es aber sicher jemanden, der noch immer sein Motorola Razr aus dem Jahr 2005 rockt. Falls deine Seite nicht einwandfrei und schnell funktioniert, wir sie definitiv nicht so schnell für Konvertierungen sorgen, wie sie es könnte.
    • On-site-Befragungen Diese Befragungen erscheinen, während deine Besucher sich in deinem Shop umschauen. Eine solche On-site-Befragung könnte die Besucher, die sich längere Zeit auf einer bestimmten Seite aufgehalten haben, fragen, ob sie etwas Bestimmtes vom Kauf heute abhält. Wenn ja, was ist das genau? Du kannst solche qualitativen Daten nutzen, um deinen Text und deine Konvertierungsrate zu optimieren.
    • Kundengespräche: Nichts kann ein Ersatz dafür sein, ganz klassisch zum Telefonhörer zu greifen und mit deinen Kunden zu sprechen. Warum haben sie deinem Shop den Vorzug gegenüber der Konkurrenz gegeben? Welches Problem wollten sie lösen, als sie auf deiner Seite gelandet sind? Du kannst eine Million Fragen stellen, um zu ergründen, wer deine Kunden wirklich sind und warum sie tatsächlich von dir kaufen.
    • Kundenumfragen: Kundenumfragen sind umfangreiche Umfragen, die sich an Leute richten, die bereits bei dir eingekauft haben (statt lediglich Besucher). Wenn du eine solche Umfrage konzipierst, solltest du dich auf Folgendes konzentrieren: Definition deiner Kunden; Definition ihres Problems; Definition von Bedenken, die sie vor dem Kauf hatten; Identifikation von Wörtern und Aussagen, mit denen sie deinen Shop beschreiben.
    • Auswertung deiner Analytik Tracken und berichten deine Analytik-Tools deine Daten korrekt? Das mag sich vielleicht albern anhören, aber du wärst wahrscheinlich überrascht, wenn du wüsstest, wie viele Analytik-Tools tatsächlich falsch konfiguriert sind. Bei der Auswertung deiner Analytik geht es darum, tief in deine Zahlen einzusteigen und zu analysieren, wie sich deine Besucher verhalten. Du kannst dich beispielsweise auf deinen Funnel konzentrieren. Wo ist er undicht? In anderen Worten: An welcher Stelle deines Funnels springen die meisten Leute ab? Dies ist ein guter Ort, um mit dem Testen zu beginnen.
    • User-Tests: Hierbei beobachtest du echte Menschen dabei, wie sie bestimmte Aufgaben auf deiner Seite ausführen. Du könntest beispielsweise darum bitten, ein Videospiel in der Preiskategorie 40–60 EUR zu finden und dieses ihrem Warenkorb hinzuzufügen. Während die ausgewählten Personen die Aufgabe ausführen, werden sie im Verlauf ihre Gedanken und Handlungen laut kommentieren.
    • Session Replays: Session Replays sind den User-Tests ähnlich. Jedoch geht es hierbei um echte Personen mit echtem Geld und einer echten Kaufabsicht. Du schaust dabei zu, wie deine tatsächlichen Besucher sich durch deine Seite navigieren. Was fällt ihnen schwer zu finden? Wobei kommt Frustration auf? An welcher Stelle scheinen sie verwirrt zu sein. 

    Es gibt noch weitere Untersuchungsmethoden, diese sieben Ansätze sind jedoch bereits ein guter Ausgangspunkt. Wenn du einige davon nutzt und durchläufst, wirst du eine riesige Liste mit datenbasierten Ideen erhalten, die du im Anschluss testen kannst. Ich garantiere dir: Diese Liste bringt dir mehr als jeder Artikel á la “99 Dinge, die du jetzt testen solltest”.

    Priorisierung von A/B-Testideen

    Eine riesige Liste mit Ideen für A/B-Tests ist spannend, jedoch nicht gerade hilfreich bei der Entscheidung, was man testen sollte. Wo soll man anfangen? Genau an dieser Stelle kommt die Priorisierung ins Spiel.

    Es gibt ein paar allgemeine Frameworks für die Priorisierung, die du nutzen kannst:

    • ICE: ICE steht für Impact, Confidence und Ease, auf Deutsch so viel wie Wirkung, Zuversicht und Einfachheit. Jeder dieser Faktoren erhält ein Ranking von 1 bis 10. Wenn du z. B. den Test ganz leicht selbst und ohne die Unterstützung von Entwicklern oder Designern durchführen kannst, dann kannst du für den Faktor Ease (Einfachheit) eine 8 vergeben. Hierbei gilt zu beachten, dass du in diesem Szenario dein eigenes Urteilsvermögen nutzt. Wenn es mehr als eine Person gibt, die Tests durchführt, können Rankings schnell zu subjektiv werden. In diesem Kontext hilft es, eine Reihe von Richtlinien zu haben, mit denen alle Beteiligten in Richtung maximaler Objektivität angeleitet werden.

    • PIE: PIE steht für Potential, Importance und Ease, auf Deutsch so viel wie Potenzial, Bedeutung und Einfachheit. Auch hierbei erhält jeder der drei Faktoren eine Bewertung von 1 bis 10. Wenn dein Test z. B. 90 % deines Traffics erreicht, könntest du dem Faktor Importance (Bedeutung) eine 8 vergeben. PIE ist genauso subjektiv wie ICE. Von daher können auch hier Richtlinien hilfreich sein.

    • PXL: PXL ist das Framework für die Priorisierung des amerikanischen Marketing-Dienstleisters CXL. Es ist ein bisschen anders und anpassbarer, was zu objektiveren Entscheidungen beiträgt. Anstelle von drei Faktoren finden sich hier Ja/Nein-Fragen und eine Frage zur Einfachheit der Umsetzung. Zum Beispiel könnte das Framework fragen: “Soll der Test die Motivation steigern?” Falls ja, bekommt er eine 1. Falls nein, bekommt er eine 0. Hier kannst du mehr über dieses Framework erfahren und sich die entsprechende Tabelle herunterladen.

      Jetzt hast du eine Vorstellung, wie du anfangen kannst. Zudem kann dir das Ganze bei der Kategorisierung deiner Ideen helfen. Ich selbst habe z. B. während einer kürzlich durchgeführten Konvertierungsrecherche drei Kategorien verwendet: Implementieren, Untersuchen und Testen.

      • Implementieren: Einfach machen. Etwas funktioniert nicht oder ist offensichtlich.
      • Untersuchen: Erfordert zusätzliche Überlegungen, um das Problem zu definieren und eine Lösung zu finden.
      • Testen: Die Idee ist fundiert und die Daten aussagekräftig. Zeit zum Testen!

      Mit dieser Kategorisierung und Priorisierung bist du gut aufgestellt.

      Crash-Kurs A/B-Teststatistiken

      Bevor du einen Test durchführst, ist es wichtig, sich einen Überblick über die Statistik zu verschaffen. Ich weiß: Niemand ist ein Fan von Statistik. Aber betrachte diese Aufgabe einfach als diesen einen Kurs, den du für deinen Abschluss brauchst.

      Statistik ist ein großer Teil von A/B-Tests. Glücklicherweise haben Test-Tools die Aufgabe eines Optimierers leichter gemacht. Allerdings ist ein grundlegendes Verständnis der Geschehnisse hinter den Kulissen von entscheidender Bedeutung für die spätere Analyse der Testergebnisse.

      Alex Birkett, Growth Marketing Manager bei HubSpot, erklärt

      Expert Headshot

      Alex Birkett, HubSpot

      "Statistik ist keine magische Zahl für Konvertierungen oder ein binäres Konzept, was Erfolg oder Scheitern 😞 definiert. Es ist vielmehr ein Prozess, der zum Treffen von Entscheidungen bei gegebenen Unsicherheiten verwendet wird. Zudem sollen damit Risiken abgeschwächt werden, indem die Unklarheiten mit Blick auf das Resultat einer bestimmten Entscheidung reduziert werden.

      In diesem Sinne ist es aus meiner Sicht am wichtigsten, die Grundlagen zu kennen: Was ist ein Mittelwert, eine Varianz, eine Stichprobe, eine Standardabweichung, die Regression zur Mitte und was macht eine repräsentative Stichprobe aus? Darüber hinaus hilft es, wenn du mit A/B-Tests beginnst, um spezifische Leitplanken zu etablieren, mit denen so viel menschliches Versagen wie nur möglich vermieden werden kann.

      Was ist ein Mittelwert?

      Der Mittelwert ist der Durchschnitt. Dein Ziel ist es, einen Mittelwert zu finden, der für das große Ganze repräsentativ ist.

      Angenommen, du versuchst, den durchschnittlichen Preis von Videospielen zu finden. Dafür würdest du wahrscheinlich nicht die Preise jedes einzelnen Videospiels der Welt aufaddieren und dies dann durch die Anzahl aller Videospiele der Welt teilen. Stattdessen würdest du eine kleine Stichprobe verwenden, die für alle Videospiele der Welt repräsentativ sein würde.

      So hättest du dann am Ende den Durchschnittspreis von vielleicht zweihundert Videospielen herausgefunden. Handelt es sich hierbei um eine repräsentative Stichprobe, sollte der durchschnittliche Preis dieser zweihundert Videospiele repräsentativ für alle Videospiele der Welt sein.

      Was ist Varianz?

      Die Varianz ist die durchschnittliche Variabilität oder Schwankungsbreite. Im Wesentlichen gilt: je höher die Variabilität ist, desto weniger genau wird der Mittelwert in Bezug auf die Vorhersage eines einzelnen Datenpunkts sein.

      Wie nah liegt der Mittelwert also am tatsächlichen Preis für jedes einzelne Videospiel?

      Was ist die Probenahme?

      Je größer die Stichprobengröße ist, desto geringer wird die Variabilität sein. Dies wiederum bedeutet, dass der Mittelwert mit großer Wahrscheinlichkeit entsprechend genauer sein wird.

      Wenn du also deine Stichprobe von zweihundert Videospielen auf zweitausend Videospiele ausweiten würdest, hättest du dementsprechend eine geringere Varianz und einen genaueren Mittelwert.

      Was ist statistische Signifikanz?

      Nehmen wir an, es gibt keinen Unterschied zwischen A und B. Wie oft wirst du den Effekt rein zufällig beobachten?

      Je niedriger das Niveau der statistischen Signifikanz, desto größer ist die Wahrscheinlichkeit, dass deine Gewinner-Variante gar kein Gewinner ist.

      Einfach ausgedrückt bedeutet eine geringe statistische Signifikanz, dass dein Gewinner im Endeffekt alles andere als ein Siegertyp ist (auch bekannt als Falsch-Positiv).

      Sei dir bewusst, dass die meisten Tools für A/B-Tests eine statistische Signifikanz signalisieren, ohne das Erreichen einer vorab definierte Stichprobengröße oder eines entsprechenden Zeitpunkts abzuwarten. Aus diesem Grund wirst du vielleicht bemerken, dass dein Test zwischen statistisch signifikant und nicht signifikant hin und her springt.

      Peep Laja, Gründer des CXL Institute, wünscht sich, dass mehr Menschen das Phänomen statistische Signifikanz und warum sie so wichtig ist wirklich verstehen würden:

      Expert Headshot

      Peep Laja, CXL Institute

      "Statistische Signifikanz ist nicht gleich Validität und auch keine Stopp-Regel. Wenn man eine statistische Signifikanz von 95 % oder mehr erzielt, bedeutet dies, bevor nicht zwei andere, wichtigere Bedingungen erfüllt wurden, zunächst relativ wenig


      1. Die Stichprobengröße ist ausreichend, was mithilfe eines Stichprobenrechners bestimmt werden kann. Dies bedeutet, dass genügen Leute am Experiment teilgenommen haben, sodass wir überhaupt Schlüsse ziehen können.

      2. Der Test ist lang genug gelaufen, sodass die Stichprobe repräsentativ ist (und nicht zu lang, um eine Verunreinigung der Stichprobe zu vermeiden). In den meisten Fällen empfiehlt es sich, Tests zwei, drei oder vier Wochen laufen zu lassen. Die tatsächliche Laufzeit hängt davon ab, wie schnell du die benötigte Stichprobe erheben kannst."

      Was ist die Regression zur Mitte?

      Vielleicht hast du zu Beginn deines A/B-Tests starke Schwankungen bemerkt.

      Die Regression zur Mitte ist das Phänomen, das Folgendes aussagt: Wenn etwas bei der ersten Messung extrem ausfällt, wird es bei der zweiten Messung sehr wahrscheinlich näher am Durchschnittswert liegen.

      Wenn der einzige Grund für das Beenden deines Tests im Erreichen der statistischen Signifikanz liegt, könnte ein Falsch-Positiv-Ergebnis vorliegen. Deine gewinnende Variante wird sich im Laufe der Zeit wahrscheinlich dem Durchschnittswert annähern.

      Was ist statistische Aussagekraft?

      Nehmen wir an, es gibt einen Unterschied zwischen A und B. Wie oft wirst du den entsprechenden Effekt beobachten?

      Je niedriger die Aussagekraft, desto größer ist die Wahrscheinlichkeit, dass ein Gewinner unerkannt bleibt. Je höher die Aussagekraft, desto niedriger ist die Wahrscheinlichkeit, dass ein Gewinner unerkannt bleibt. Alles, was du eigentlich wissen musst, ist, dass eine statistische Aussagekraft von 80 % bei den meisten Tools für A/B-Tests Standard ist.

      Ton Wesseling, Gründer von Online Dialogue, wünscht sich, dass mehr Menschen das Konzept der statistischen Aussagekraft verstünden:

      Expert Headshot

      Ton Wesseling, Online Dialogue

      "Viele Menschen machen sich Gedanken über Falsch-Positiv-Ergebnisse. Wir dagegen sorgen uns mehr um Falsch-Negativ-Ergebnisse. Warum sollte man Experimente durchführen, bei denen die Chance, herauszufinden, dass die positive Veränderung echte Auswirkungen zeitigt, wirklich niedrig ist ...?"

      Was sind Bedrohungen der externen Validität?

      Es gibt externe Faktoren, welche die Validität deines Tests bedrohen. So zum Beispiel:

      • Black-Friday- oder Cyber-Monday-Verkaufsaktionen
      • Eine positive oder negative Erwähnung in der Presse
      • Der Start einer großangelegten Werbekampagne
      • Der Tag der Woche
      • Die wechselnden Jahreszeiten

      Sagen wir z.B., dass du im Dezember einen Test durchführen möchtest. Die Feiertage und der damit verbundene Anstieg des Konsums würden während dieses Zeitraums einen Anstieg deines Traffics mit sich bringen. Im Januar stellst du dann vielleicht fest, dass dein Gewinner aus dem Dezember nicht mehr so gut funktioniert.

      Warum ist das so?

      Wegen einer externen Bedrohung der Validität: in diesem Fall die Feiertage.

      Bei den Daten, auf denen du deine Test-Entscheidung basiert hast, hat es sich um eine Anomalie gehandelt. Wenn die Dinge im Januar wieder zur Normalität zurückkehren, wirst du womöglich überrascht sein, wenn dein Gewinner plötzlich auf der Verliererseite steht.

      Du kannst solch externe Bedrohungen der Validität nicht beseitigen. Du kannst sie jedoch verringern, indem du Tests für ganze Wochen laufen lässt (z. B. solltest du einen Test nicht an einem Montag beginnen und ihn dann am Freitag beenden), verschiedene Traffic-Arten einschließen (z. B. solltest du nicht ausschließlich bezahlten Traffic testen und die Ergebnisse dann auf alle anderen Traffic-Quellen anwenden) und zudem auf potenzielle Bedrohungen achten.

      Falls du einen Test während einer geschäftigen Einkaufszeit (z. B. Black Friday oder Cyber Monday) oder angesichts einer maßgeblichen Bedrohung der Validität durchführst, wird dieser Artikel hilfreich für dich sein.

      Aufsetzen eines A/B-Tests

      Bevor du überhaupt irgendetwas testest, benötigst du eine solide Hypothese. (Toll, jetzt haben wir gerade die Auffrischung in Mathematik abgeschlossen, um direkt mit Wissenschaft weiter zu machen.)

      Keine Sorge, es ist gar nicht so kompliziert: Grundsätzlich musst du eine Hypothese testen, und keine Idee. Eine Hypothese ist messbar, strebt danach, ein bestimmtes Konvertierungsproblem zu lösen, und konzentriert sich auf Erkenntnisse statt schneller Erfolge.

      Mit einem A/B-Test testest du eine Hypothese und keine Idee.

      Wann immer ich eine Hypothese formuliere, verwende ich eine Formel, die ich mir aus dem Hypothesis Kit von Craig Sullivan abgeschaut habe.

      • Weil ich [Daten einfügen / Forschungsergebnisse] beobachtet habe
      • erwarte ich, dass [getestete Veränderung] sich folgendermaßen auswirken wird: [Auswirkung, die du erwartest]
      • Ich werde diesen anhand von [Datenkennzahl] messen

      Einfach, nicht wahr? Du musst also nur die entsprechenden Lücken mit Inhalt füllen und schon verwandelt sich deine Testidee in eine echte Hypothese.

      Auswahl eines Tools für A/B-Tests

      Jetzt kannst du dich mit der Auswahl eines Tools für deine A/B-Tests befassen. Meistens denkt man hier zuerst an Google Optimize, Optimizely oder VWO.

      Dies sind alles sehr gute und sichere Optionen:

      • Google Optimize: Kostenlos, jedoch mit einigen Einschränkungen in puncto multivariater Tests. Wenn du jedoch gerade erst anfängst, sollte dies keine Rolle spielen. Enge Verknüpfung mit Google Analytics, was ein Plus ist.
      • Optimizely: Einfach, kleinere Tests einzurichten und durchzuführen, auch ohne technische Kenntnisse. Die Stats Engine macht das Analysieren von Testergebnissen einfacher. In der Regel ist Optimizely die teuerste Variante dieser drei Optionen.
      • VWO: VWO verfügt über sogenannte SmartStats, welche die Analyse einfacher machen. Dazu erhältst du hier einen ausgezeichneten WYSIWYG-Editor für Anfänger. Jeder VWO-Tarif beinhaltet zudem Heatmaps, Onsite-Befragungen, Formular-Analytik und vieles mehr.

      Wir haben auch einige Test-Tools im App Store von Shopify, die evtl. hilfreich für sein könnten.

      Template Icon

      Kostenloses Ebook: Die besten Apps für Onlineshops

      In diesem Ebook stellen wir Apps und Integrationen vor, die für Online-Händler in Deutschland, Österreich und der Schweiz unerlässlich sind.

      Hol dir das Ebook!

      Sobald du ein passendes Tool ausgewählt hast, meldest du dich einfach an und folgst den Anweisungen. Die genaue Ausgestaltung dieses Verfahrens variiert von Tool zu Tool. In der Regel wirst du jedoch aufgefordert, ein Code-Snippet auf deiner Seite zu installieren und entsprechende Ziele festzulegen.

      Ergebnisse aus A/B-Tests analysieren

      Kannst du dich noch daran erinnern, als ich erwähnte, dass eine Hypothese den Fokus von schnellen Erfolgen auf Erkenntnisse verschiebt? Krista Seiden, Analytics-Expertin und Produktmanagerin bei Google, erklärt, was dies genau bedeutet:

      Expert Headshot

      Krista Seiden, Google

      "Der am häufigsten übersehene Aspekt bei A/B-Tests ist das Lernen von der Verlierern. So habe ich mir bei meinen Optimierungsprogrammen angewöhnt, einen Fehlerbericht herauszugeben, in denen ich einige der größten Verlierer des Quartals benenne und erkläre, was wir von ihnen gelernt haben.

      Einer meiner absoluten Favoriten war Teil einer Kampagne, die wir monatelang vorbereitet hatten. Es gelang uns, einen A/-B-Test der neuen Kampagnen-Landingpage einzustellen, kurz bevor diese live gehen sollte. Wie sich herausstellte, war das letztendlich eine sehr gute Entscheidung: Die Landingpage scheiterte kläglich. Hätten wir die Seite damals so wie ursprünglich angedacht gelauncht, hätten wir mit Blick auf unser Gesamtergebnis erhebliche Einbußen wegstecken müssen. So haben wir dem Unternehmen nicht nur eine Menge Geld gespart, sondern konnten uns auch nochmals mit den Details befassen und einige Annahmen bzgl. der schlechten Leistung der neuen Seite treffen (die wir dann später testeten). Dies hat uns letztlich zu besseren Marketern gemacht und auf unseren Erfolg bei nachfolgenden Kampagnen eingezahlt."

      Wenn du deine Hypothese richtig gestaltest, kann sogar ein Verlierer zum Gewinner werden. Denn so erhältst du Erkenntnisse, die du für zukünftige Tests und andere Geschäftsbereiche nutzen kannst. Wenn du also deine Testergebnisse analysierst, musst du dich auf die Erkenntnisse konzentrieren, und nicht darauf, ob der Test einen Gewinner oder Verlierer hervorgebracht hat. Es gibt immer etwas zu lernen und immer etwas zu analysieren. Ignoriere nicht die Verlierer!

      Wenn du deine Hypothese richtig gestaltest, kann sogar ein Verlierer zum Gewinner werden.

      Der wichtigste hierbei zu erwähnende Faktor ist die Notwendigkeit der Segmentierung. Ein Test mag insgesamt einen Verlierer hervorgebracht haben. Jedoch stehen die Chancen gut, dass der Test zumindest in einem Segment gute Ergebnisse generiert hat. Was meine ich mit Segment?

      • Neue Besucher
      • Wiederkehrende Besucher
      • Besucher über iOS
      • Besucher über Android
      • Besucher über Chrome
      • Besucher über Safari
      • Besucher über Desktop
      • Besucher über Tablets
      • Besucher über organische Suche
      • Bezahlte Besucher
      • Social-Media-Besucher
      • Angemeldete Käufer

      Jetzt wird es langsam klar, oder?

      Wenn du dir die Ergebnisse in deinem Test-Tool anschaust, betrachtest du die gesamte Packung Smarties. Was du jedoch tun musst, ist die Smarties farblich zu trennen, sodass du die roten zuletzt genießen kannst. Ich meine natürlich, damit du fundiertere, segmentierte Erkenntnisse gewinnen kannst.

      Die Chancen stehen gut, dass sich deine Hypothese zumindest in einigen Segmenten als richtig erwiesen hat. Auch daraus wirst du deine Schlüsse ziehen können.

      Kurz und knapp: Bei der Analyse geht es um so viel mehr, als die Frage, ob der Test einen Gewinner oder Verlierer hervorgebracht hat. Konzentrier dich auf die Erkenntnisse und segmentiere deine Daten, um unter der Oberfläche verborgene Erkenntnisse zu gewinnen.

      Tools für deine A/B-Tests werden die Analyse nicht für dich übernehmen. Von daher ist dies eine wichtige Fähigkeit, die im Laufe der Zeit entwickelt werden sollte.

      Abgelaufene A/B-Tests archivieren

      Nehmen wir an, dass du deinen ersten Test morgen durchführen wirst. Wirst du dich morgen in zwei Jahren noch an die Details des morgigen Tests erinnern? Wahrscheinlich nicht.

      Aus diesem Grund ist das Archivieren deiner A/B-Testergebnisse wichtig. Ohne ein gut gepflegtes Archiv werden all die gewonnenen Ergebnisse verloren gehen. Dazu kommt, und das ist kein Witz, dass es bei einem Verzicht auf eine angemessene Archivierung sehr schnell vorkommt, dass man die gleiche Sache zweimal testet.

      Es gibt hierbei jedoch nicht den “einen” richtigen Weg. Du kannst z. B. ein Tool wie Projects oder Effective Experiments nutzen oder auch mit Excel arbeiten. Es liegt ganz bei dir, vor allem dann, wenn du gerade erst loslegst. Du solltest nur sicherstellen, dass du die folgenden Dinge nachverfolgst:

      • Die Hypothese
      • Screenshots der Kontroll- und Testversion
      • Ob Letztere gewonnen oder verloren hat
      • Durch die Analyse gewonnene Erkenntnisse

      Im Verlauf deines Wachstums wirst du dich später für den Aufbau dieses Archivs bedanken. Es wird dabei nicht nur dir selbst eine Hilfe sein, sondern auch für neue Kollegen, Berater und andere Beteiligte.

      A/B-Tests: Die Prozesse der Profis

      Nun, da du den Standardprozess eines A/B-Tests kennengelernt hast, können wir einen Blick auf die Prozesse von Profis aus Unternehmen wie Google und HubSpot werfen.

      Krista Seiden, Google

      Mein Schritt-für-Schritt-Prozess für A/B-Tests beginnt mit der Analyse. Meiner Meinung nach ist dies der Kern eines jeden guten Test-Programms. In der Analysephase ist es das Ziel, deine Analytics-Daten, Umfrage- oder UX-Daten oder anderweitige Quellen mit Kundenerkenntnissen auszuwerten. So soll herausgefunden werden, wo genau Optimierungsmöglichkeiten liegen.

      Hast du aus der Analysephase ein angemessenes Portfolio mit Ideen gewonnen, kannst du Hypothesen dazu aufstellen, was schief laufen könnte und wie du diese Optimierungsbereiche potenziell beheben oder verbessern kannst.

      Als nächstes ist es an der Zeit, deine Tests zu erstellen und entsprechend durchzuführen. Achte darauf, sie für eine angemessene Zeit laufen zu lassen (bei mir standardmäßig zwei Wochen, um zu gewährleisten, dass auch wöchentlichen Veränderungen oder Anomalien Rechnung getragen wird). Und wenn du dann genug Daten gewonnen hast, analysierst du deine Ergebnisse, um den Gewinner zu bestimmen.

      Es ist ebenso wichtig, sich in dieser Phase etwas Zeit für die Analyse der Verlierer zu nehmen. Was kannst du aus diesen Varianten lernen?

      Abschließend, und evtl. erreichst du diese Phase erst, nachdem du das Fundament für ein fundiertes Optimierungsprogramm gelegt hast, ist es an der Zeit, sich mit dem Thema Personalisierung zu befassen. Dies erfordert nicht unbedingt ausgefallene Tools, sondern kann vielmehr aus den Daten abgeleitet werden, die dir bereits zu deinen Benutzern vorliegen.

      Personalisierung kann so einfach sein, wie gezielt die richtigen Inhalte an den richtigen Stellen auszuspielen, oder so komplex, wie ein auf den Aktionen individueller Benutzer basiertes Targeting. Lenke deine Aufmerksamkeit nicht sofort zu 100 % auf das Thema Personalisierung. Stell stattdessen sicher, dass du genügen Zeit für die Grundlagen einplanst.

      Alex Birkett, HubSpot

      Auf einem hohen Niveau versuche ich dem folgenden Prozess zu folgen:

      • Daten sammeln und sicherstellen, dass die Analytics-Implementierungen korrekt sind.
      • Daten analysieren und Erkenntnisse gewinnen.
      • Erkenntnisse in Hypothesen verwandeln.
      • Priorisierung basierend auf Auswirkung und Einfachheit und die Verteilung meiner Ressourcen maximieren (vor allem technische Ressourcen).
      • Test durchführen (unter Befolgung bewährter statistischer Verfahren nach bestem Wissen)
      • Ergebnisse analysieren und auf deren Basis implementieren (oder nicht).
      • Anpassen auf Basis der Ergebnisse und wiederholen.

      Einfacher ausgedrückt: Recherchieren, Testen, Analysieren, Wiederholen.

      Während dieser Prozess in Abhängigkeit des Kontexts abweichen oder sich ändern kann (Teste ich ein geschäftskritisches Produktmerkmal? Einen CTA eines Blog-Beitrags? Wie stellt sich das Risikoprofil und die Balance zwischen Innovation und Risikominimierung dar?), ist er für Unternehmen fast jeder Art und Größe geeignet.

      Der Punkt ist, dass dieser Prozess sehr agil ist und gleichzeitig genügend Daten sammelt, sowohl qualitatives Kundenfeedback als auch quantitative Daten. Anschließend können auf dieser Basis bessere Testkonzepte entwickelt und entsprechend priorisiert werden, um keinen Traffic zu verschwenden.

      Ton Wesseling, Online Dialogue

      Die erste Frage, die wir mit Blick auf die Optimierung einer Customer Journey beantworten, lautet: Wohin passt diese Produkt oder diese Dienstleistung im ROAR-Modell, das wir hier bei Online Dialogue entwickelt haben? Befindest du dich noch immer in der Risikophase, in der wir zwar viel Forschung betreiben könnten, unsere Ergebnisse jedoch nicht durch Online-Experimente validieren können (unter 1.000 Konvertierungen pro Monat)? Oder steckst du bereits mitten in der Optimierungsphase? Oder bist sogar schon einen Schritt weiter?

      • Risikophase: Eine Menge Forschung, auf deren Basis sich dann Dinge wie ein neuer Angelpunkt des bestehenden Geschäftsmodells bis hin zu einem komplett neuen Design und Leistungsversprechen entwickeln lassen.
      • Optimierungsphase: Groß angelegte Experimente, die das Leistungsversprechen und das Geschäftsmodell optimieren werden.
      • Optimierungsphase: Kleinere Experimente, um Hypothesen zum Benutzerverhalten zu validieren, aus denen sich letztendlich Erkenntnisse für umfangreichere Designanpassungen ergeben können.
      • Automatisierung: Du hast immer noch genügend Ressourcen (Besucher) übrig, was bedeutet, dass für die Validierung deiner User Journey nicht dein gesamtes Test-Potenzial benötigt wird. Was davon übrig bleibt, sollte für ein schnelleres Wachstum eingesetzt werden (mit Fokus auf langfristigen Erkenntnissen). Dies kann durch Ausführen von entsprechenden Algorithmen automatisiert werden.
      • Re-think (Überdenken): Du beendest das Hinzufügen weiterer Forschungsbemühungen, es sei denn, es weist den Weg zu etwas Neuem.

        ROOAR

        Vor diesem Hintergrund sind A/B-Tests nur in der Optimierungsphase des ROAR-Modells und darüber hinaus (bis zum Überdenken) eine große Sache.

        Unser Ansatz für das Durchführen von Experimenten ist das FACT- und ACT-Modell.

        FACT & ACT

        Die von uns vorgenommene Forschungsleistung basiert auf unserem 5V-Modell.

        5V Model

        Wir sammeln all diese Erkenntnisse, um dann eine durch die Forschung gestützte Haupthypothese zu entwickeln. Diese wird wiederum zu Unterhypothesen führen, die wir dann auf unseren Daten basierend priorisieren. Umso größer die Wahrscheinlichkeit, dass die Hypothese wahr ist, desto höher wird sie auch eingestuft werden.

        Sobald wir feststellen, ob unsere Hypothese wahr oder falsch ist, können wir damit beginnen, Erkenntnisse miteinander zu kombinieren und größere Schritte zu unternehmen, indem wir umfangreichere Teile der Customer Journey neu entwickeln oder ausrichten. Ab einem gewissen Punkt werden sämtliche gewinnenden Implementierungen jedoch zu einem lokalen Maximum führen. Hier erfordert es dann einen größeren Schritt, um ein potenzielles globales Maximum zu erreichen.

        Natürlich werden die wichtigsten Erkenntnisse im gesamten Unternehmen verbreitet. Dies führt zu allerlei weiteren Optimierungen und Innovationen, die auf unseren zuvor validierten Erkenntnissen basieren.

        Julia Starostenko, Shopify

        Ein Experiment soll überprüfen, ob das Vornehmen von Änderungen an einer bestehende Website einen positiven Einfluss auf das Unternehmen haben wird.

        Vor dem Start sollte unbedingt festgestellt werden, ob ein Experiment überhaupt notwendig ist. Stell dir das folgende Szenario vor: Es gibt einen Button mit einer extrem niedrigen Klickrate. Es wäre hier fast unmöglich, die Leistung dieses Buttons weiter zu verschlechtern. Die Validierung der Wirksamkeit einer Änderung an diesem Button (d. h. Durchführung eines Experiments) ist daher nicht erforderlich.

        Analog dazu lohnt es sich wahrscheinlich nicht, Zeit für das Aufsetzen, Ausführen und Analysieren eines Experiments zu investieren, wenn die vorgeschlagene Änderung nur klein ist. In einem solchen Fall sollten die entsprechenden Änderungen einfach umgesetzt und anschließend die Performance des Buttons beobachtet werden.

        Wenn festgestellt wird, dass ein Experiment tatsächlich nützlich wäre, sollten im nächsten Schritt die Unternehmenskennzahlen definiert werden, die verbessert sollen (z. B. Steigerung der Konvertierungsrate eines Buttons). Dann stellen wir sicher, dass wir über eine korrekte Datenerfassung verfügen.

        Sobald dies abgeschlossen ist, wird die Zielgruppe nach dem Zufallsprinzip in zwei Gruppen aufgeteilt. Einer Gruppe wird die bestehende Version des Buttons angezeigt, während die andere die neue Version ausgespielt bekommt. Es wird dann die Konvertierungsrate jeder Teilzielgruppe überwacht. Sobald die statistische Signifikanz erreicht ist, werden die Ergebnisse des Experiments bestimmt.

        Peep Laja, CXL Institute

        Wenn es um die Konvertierungsoptimierung geht, sind A/B-Tests ein Teil des großen Ganzen. Aus meiner Sicht geht es zu 80 % um die Forschung und nur 20 % um das eigentliche Testen. Die Konvertierungsforschung wird dir helfen festzustellen, was du zu Beginn testen solltest.

        Mein Prozess sieht in der Regel wie folgt aus (vereinfachte Zusammenfassung):

        • Nimm die Konvertierungsforschung mit einem Framework wie ResearchXL vor, um Probleme auf deiner Website zu identifizieren.
        • Wähle ein Problem mit hoher Priorität (betrifft eine große Anzahl an Benutzern und ist relativ gravierend) aus und trage so viele Lösungsansätze wie nur möglich zusammen. Basiere deinen Ideenfindungsprozess dabei auf den Erkenntnissen deiner Konvertierungsforschung. Bestimme, auf welchem Gerät du den Test laufen lassen willst (separate Tests für Desktop und Mobile).
        • Bestimme, wie viele Varianten du testen kannst (basierend auf deinem Traffic / Transaktionslevel). Wähle dann deine besten ein bis zwei Ideen für eine Lösung aus, um diese gegen die Kontrollversion zu testen.
        • Erstelle eine Testmatrix mit den exakten Bestandteilen des Tests (schreibe  den Text, nimm Design-Anpassungen vor etc.). Je nach Umfang der Anpassungen musst du eventuell auch einen Designer mit ins Boot holen, um neue Elemente entsprechend gestalten zu lassen.
        • Lass deinen Front-End-Entwickler die Änderungen in deinem Test-Tool implementieren. Richte notwendige Integrationen ein (Google Analytics) und lege geeignete Ziele fest.
        • Nimm eine Qualitätskontrolle des Tests vor (fehlerhafte Tests sind bei weitem der größte Killer von A/B-Tests), um zu gewährleisten, dass er auch in allen möglichen Kombinationen aus Browser und Endgerät funktioniert.
        • Starte den Test!
        • Nachdem der Test abgeschlossen ist, gehe auf die nachfolgende Analyse an.
        • Je nach Ergebnis implementierst du dann entweder den Gewinner, passt die Änderungen weiter an oder testest etwas komplett anderes.

          Du bist am Zug

          Du hast den Prozess und damit die Macht! Also leg los und teste deinen Shop. Ehe du dich versiehst, werden diese Erkenntnisse zu einem deutlichen Plus auf deinem Bankkonto führen.

          Starte deinen eigenen Onlineshop mit Shopify!

          14 Tage lang kostenlos testen—keine Kreditkarte erforderlich.


          Which method is right for you?Geposted von Hendrik Breuer: Hendrik ist Redakteur des deutschen Shopify-Blogs. Möchtest du einen Gastbeitrag veröffentlichen? Dann lies bitte zuerst diesen Leitfaden.

          Dieser Artikel erschien ursprünglich auf Englisch im Shopify.com-Blog und wurde übersetzt.