Wie Voice Search das User-Verhalten verändert und was das für Ihr Unternehmen bedeutet

Wie Voice Search das User-Verhalten verändert und was das für Ihr Unternehmen bedeutet

Wie Voice Search funktioniert, komplett erklärt

von Philipp Boelsen

Die Voice Search geht mit der Entwicklung der sogenannten Virtual Assistants einher. Egal, ob Alexa, Siri, Cortana oder Google Assistant - die sprachgesteuerten digitalen Helfer, haben das User-Verhalten verändert und zu höherem Bedienkomfort geführt.

Die Sprachsteuerung soll zwar vieles einfacher machen, sorgt allerdings oft auch für Pannen und Aufreger. Was tun, wenn das eigene Haustier auf Shoppingtour geht? So wurde kürzlichen die Londoner Papageienbesitzerin Corinne von einer Amazon-Lieferung überrascht, weil ihr Graupapagei Buddy einfach eine Bestellung nachgeplappert hatte. Die Ausbeute: Goldene Geschenkkartons im Wert von insgesamt €11,50.

Wer von diesen und ähnlichen Alexa-Missgeschicken hört, der zweifelt zwangsläufig am Entwicklungsstand der Sprachsteuerung. Doch zwischen den Pannen liegen enorme Chancen für Unternehmen und User zugleich.

Umfragen zeigen, dass die Nutzung von Voice Search sozial zunehmend akzeptiert wird.

Das neue User-Verhalten: Voice Search in der Öffentlichkeit ist bald ganz normal

Die Stimme ist ein besonderes Kommunikationsmedium, denn wer sich mit einem Assistenten unterhält, der tut dies womöglich vor Zuhörern. Hier gibt es tatsächlich Barrieren, doch Umfragen zeigen, dass die Nutzung von Voice Search sozial zunehmend akzeptiert wird.

Die Firma Stone Temple Consulting kam in einer aktuellen Umfrage (Abb. 1.1)  zu dem Ergebnis, dass sowohl Voice Search als auch die allgemeine Sprachsteuerung verstärkt an öffentlichen Orten genutzt werden. 20 bis 30 Prozent der User nehmen Voice Search und Sprachsteuerung im öffentlichen Raum in Anspruch - Tendenz steigend. Ob in öffentlichen Verkehrsmitteln, im Restaurant oder im Fitnessstudio: Die Kommunikation mit der Maschine wird immer mehr zur Normalität; die Hemmschwelle gegenüber dem sozialen Umfeld sinkt konstant.

Voice Search Studie

Abb. 1.1: Studie der Stone Temple Consulting: Die Nutzung von Voice Search im öffentlichen Raum hat deutlich zugenommen.

Die entscheidende Frage: In welchen Kontexten haben wir es mit Voice-to-Voice-Anfragen zu tun? Wie verändern sich die Anfragen und wie strukturieren die Systeme die Antworten auf Voice-basierte Nachfragen? Was ist der Game-Changer beim Voice-Search?

Das disruptive Momentum des Voice Search liegt allerdings nicht unbedingt in der Technologie selbst, sondern in der Vielfältigkeit der Anbieter. Während Google den Desktop-Search-Markt dominiert, sieht es im Voice-Search-Bereich ganz anders aus.

Hier haben beispielsweise Alexa und Siri sehr viel höhere Marktanteile. Plötzlich muss der User nicht mehr nur für Google optimieren; Alexa benutzt zum Beispiel Sub-Plattformen wie Qype oder Bing, die für den User punktuell wichtigere Rollen einnehmen. Und Siri schien 2017 laut einer Umfrage der britischen Digitalagentur Ovum (Abb. 1.1.1.) der momentan meistgenutzte Sprachassistent zu sein.

Welche Sprachassistenten werden benutztAbb. 1.1.1: Laut einer Umfrage der britischen Digital-Agentur Ovum GmbH sind Apples Siri und der Google Assistent die Spitzenreiter unter den verwendeten Sprachassistenten in Großbritannien und den USA.

Die Zufriedenheit der Nutzer im Umgang mit Sprachassistenten scheint sich zu verbessern: Laut der Umfrage Stone Temple Consulting empfinden rund 70 Prozent der Befragten den sprachlichen Austausch und das Sprachverständnis der virtuellen Assistenten als ausreichend bis sehr gut. Aus Nutzersicht seien die Vorteile der Sprachsteuerung beispielsweise die Schnelligkeit der Antworten, auch wenn man mal keine Hand frei hat, sowie das Gefühl der direkten Interaktion mit einem Assistenten. Das Statistik-Unternehmen Comscore schätzt, dass bis zum Jahr 2020 jede zweite Suchanfrage sprachbasiert sein wird.

Was kann Voice Search und was bedeutet das für den User?

Google selbst arbeitet bereits seit einigen Jahren an der “Conversational Search”, die sich durch Machine-Learning-Mechanismen beständig selbst verbessern und damit optimal auf den User einstellen kann. Gerade im Hinblick auf das RankBrain-Rollout, einer Art KI-Software-Upgrade für die Suchmaschine, wird es spannend zu beobachten, welche Suchergebnisse bei der Voice Search bevorzugt behandelt werden. So gibt es beispielsweise auf manche Fragen eine Direct Answer: Die Antwort-Boxen bei organischen Suchergebnissen auf dem Desktop zu den jeweiligen Suchanfragen sind oft nahezu identisch mit den entsprechenden Antworten in der Voice Search. Das Problem: Die Inhalte in der Antwortbox sind meist unbefriedigend oder mangelhaft; sie sind meist nicht in der Lage, das Informationsbedürfnis der User zu befriedigen. Zudem hat der User bei der Voice Search bisher nicht die Möglichkeit, zwischen Antworten zu wählen oder weiter nachzufragen. Stattdessen muss er wieder zum Screen wechseln, um nach weiteren Beiträgen zu suchen.

Generell lässt sich ein zentrales Erfolgsprinzip für die Voice Search prognostizieren: Je hochwertiger der Inhalt in der Antwortbox, desto besser auch die User Experience zu der jeweiligen Frage in der Voice Search. Dies bedeutet aus Sales-Funnel-Sicht: Je zufriedenstellender die Antwort dem User erscheint, desto stärker ist er gewillt, weiter zu fragen und letztlich die Homepage zu besuchen oder gar einen Kaufabschluss zu tätigen. Das Voice-Search-Game im E-Commerce gewinnt, wer prägnante und hilfreiche Antworten in kompakter Form zu bieten hat. 

Das Voice-Search-Game im E-Commerce gewinnt, wer prägnante und hilfreiche Antworten in kompakter Form zu bieten hat.

Wie kann das Zusammenspiel von Werbung und Voice Search funktionieren?

Google bietet bei der Voice Search bisher kaum Voice Answers auf transaktionale Fragen wie “Wer ist der Waschmaschinen-Testsieger?” oder “Wo kann ich Schuhe günstig kaufen?”. Lediglich Optionen (Abb. 1.3), wie sie auch in der Desktop-Suche erscheinen (Abb. 1.2), werden angezeigt. Der User muss sich in dem Fall selber durchklicken. Hier macht sich ein Interessenkonflikt bemerkbar, schließlich verdient die Suchmaschine durch die Schaltung mehrerer Anzeigen zu einem Keyword via AdWords ihr Geld. Eine Schaltung von Audible Ads wäre dagegen sehr User-unfreundlich. Der Nutzer hätte nicht die Möglichkeit, der Werbung auszuweichen, wenn diese vor der gewünschten Antwort wie Radiowerbung ausgespielt werden würde.

Voice Search im Einsatz Abb. 1.2: Bei der Desktop-Suche erhält der User zu einer transaktionalen Suchanfrage mehrere Optionen auf einen Blick, welche Above the Fold vor allem von Anzeigen und Shopping-Optionen dominiert werden.

transaktionale Fragen im Voice Search

Abb. 1.3: Auf transaktionale Fragen in der Voice Search antwortet Google meist mit einem Slide mit mehreren Suchergebnissen zu dem Thema, ohne jedoch ein Ergebnis vorzulesen. Der User muss hier also wieder zum Screen wechseln.

Alexa besitzt durch die direkte Anbindung an den Amazon-Shop einen klaren Vorteil hinsichtlich der transaktionalen Voice Search. Dieser Umstand kann sich tatsächlich zu einem Wettbewerbsvorteil generieren und deutlich mehr Marktanteile zur Folge haben als sie bei Google Assistant momentan möglich sind. Bei Alexa gilt bei transaktionalen Suchen das Credo “The Winner Takes it All”. Entweder werden generische Produkte gesucht, wie Nägel oder USB Kabel, oder spezifische Brand-Produkte. Durch den Voice-to-Voice-Assistant gewöhnt sich der User bei Alexa schnell an eine beschränkte Auswahl an Produkt-Ergebnissen und hört sich womöglich noch Ergebnis 2 und 3 an, wird sich aber nicht die gesamte Produktpalette vorlesen lassen. Auch dies kann ein disruptives Momentum entfalten, weil entweder Amazons eigene Produkte bevorzugt als erstes Ergebnis ausgespielt werden oder die großen Brands den Vorzug erhalten.

Google bremst sich derzeit noch durch sein eigenes Geschäftsmodell in diesem Segment aus. Eine klare Lösung scheint noch nicht in Sicht, dennoch ist es nur eine Frage der Zeit, bis sich auch in diesem Kanal Werbung durchsetzen wird. Jedoch steigt der Anspruch an die Werbung; sie muss tatsächlich relevant für den Voice Search-Gebrauch sein. Brüche zwischen informationalen und transaktionalen Inhalten fallen in der auditiven Search Experience ungleich stärker ins Gewicht als bei allen anderen gängigen Kanälen. So werden Ads womöglich organisch in einen Gesprächsverlauf “eingestrickt”; die Paid-Inhalte können einerseits durch Vorschläge des Google Assistant getriggert, andererseits als zweite oder dritte Antwort automatisch ausgespielt werden - je nachdem, wie nah die Frage an einem transaktionalen Bedürfnis ist und ohne dabei zu werblich zu wirken. Mit Sicherheit wird die Voice Search dazu beitragen, dass die Zielgruppen-Datensätze für AdWords-Kunden komplexer werden und sich auf die Schaltung von Werbung in anderen Kanälen auswirken. Ein Zeichen hierfür ist die Ankündigung Googles, Voice-Search-Daten in sein Webmasters-Tool zu integrieren.

Informational Voice Search: Welche Inhalte ausgelesen und verwendet werden

Doch wie gut funktioniert die informationale Suche bei der Voice Search? Vor allem kurze und prägnante Antworten, die möglichst nahe am Informationsbedürfnis des Users sind, sind erfolgreich. Die Suchergebnisse, die in der Voice Search am meisten aufgegriffen werden, sind die Direct Answer-Boxen (Abb. 1.4), welche in den Desktop-SERPs als erstes gelistet werden.

informationale Fragen im Voice Search

Abb. 1.4: Bei informationalen Fragen erhält der User in den Suchergebnissen häufig eine Direct Answer-Box, in der ein kurzer, definitorischer Text enthalten ist.

definitorische Texte im Voice Search

Abb. 1.5: Bei der Voice Search wird dem User der definitorische Text aus der Direct Answer-Box vorgelesen, wie sie auch in den Desktop-Suchergebnissen erscheint. Der User hat keine Möglichkeit, nachzufragen.

Jedoch weicht Google von dieser Auswahl gelegentlich ab, beispielsweise um auf einen definitorischen Text von Wikipedia zurückzugreifen. Überhaupt scheint Wikipedia der Voice Search als Backup zu dienen, selbst wenn der entsprechende Artikel erst auf Platz fünf oder noch weiter unten rankt. Woran das liegt? Oft ist der Wikipedia-Text besser strukturiert und die URL besser ausgezeichnet; die Antwort erscheint aus Google-Perspektive in dem Fall relevanter für das gesprochene Wort zu sein als der Inhalt der Antwortbox. Doch auch andere Quellen, die weder in der Antwortbox, noch auf Wikipedia zu finden sind, erhalten gelegentlich den Vorzug, wenn das entsprechende Textsegment die User-Frage aus Google-Sicht am besten beantworten kann. Rechnen, Übersetzen sowie Zeit- und Ortsangaben ermitteln kann Googles Voice Search sehr gut. Bei aktuellen News zu Personen, politischen Sachverhalten und ähnlichem hakt es hingegen noch.

Wichtig zu beachten: Das gesprochene Wort wird vom User anders wahrgenommen als sein geschriebenes Pendant. Der Wortlaut muss daher der auditiven Erwartungshaltung des Users entgegenkommen. Die Verbindung von digitalen Inhalten mit der Sprache im Offline-Raum (nämlich klanglich) führt zu einer interessanten Gemengelage: Funktionalität und Sprachgefühl müssen für den User gleichermaßen gegeben sein. Der bloße Datentransfer wird plötzlich auf eine soziokulturelle Beziehungsebene gehoben. Inhalt ist nun nicht mehr bloß Text, sondern auch Stimme, Geschwindigkeit, Intonation - eine Konstellation, und in der Summe eine Konnotation. Die Maschine muss mehr denn je eine künstliche Empathie beherrschen, damit Voice Search alltagstauglich werden kann.

Hinzu kommt: Der User möchte sich keine langatmigen, detaillierten Texte anhören, denn komplexe Inhalte können per Sprachsteuerung nicht übersprungen oder überflogen werden. Entweder der User hört zu, oder er ignoriert den Inhalt. Daher wird von dem User momentan die Voice-to-Screen- anstelle der reinen Voice-to-Voice-Suche bevorzugt. Voice-to-Screen unterscheidet sich allerdings kaum von der getippten Anfrage, abgesehen von der Formulierung der Suchanfragen, welche in der Voice Search von ganzen Sätzen statt bloß von einzelnen Keywords dominiert werden.

Wie können Inhalte für Voice Search optimiert werden?

Der User und potentielle Kunde wird aufgrund des veränderten Nutzungsmusters zunehmend Longtail-Anfragen stellen.

Der bisherige Fokus der Suchmaschinenoptimierung lag auf Short-Tail-Keywords mit einem hohen Suchvolumen. Jedoch muss ein Umdenken stattfinden, wenn Webseiten und Inhalte auch für die Voice Search wahrnehmbar sein sollen. Der User und potentielle Kunde wird aufgrund des veränderten Nutzungsmusters zunehmend Longtail-Anfragen stellen. Statt einen Suchbegriff einzutippen, stellt er eine ausformulierte Frage. Durch den Einsatz seiner Stimme ist er sich bei der Suche stärker seiner selbst bewusst: Sein soziales Selbstverständnis wird durch die Sprachsteuerung unweigerlich auch auf den Umgang mit der Maschine übertragen. Die Informationssuche wird emotionalisiert und personalisiert. Unternehmen sollten sich deswegen die Frage stellen, wie ihre Zielgruppen denken und sich semantisch profilieren.

Content muss für die Longtail-Artikulation optimiert werden. Es sind nicht länger einzelne Wörter, die einen Inhalt für die Suche relevant machen. Stattdessen muss nun in ganzen Sätzen gedacht werden, um inhaltlich für die Voice Search zu optimieren.

Weitere wichtige Stellschrauben für die Voice-Search-Optimierung:

  • Der Content sollte für die Direct-Answer-Boxen (Snippets) optimiert werden. Wenn der Inhalt bei entsprechenden Keywords als Antwortbox rankt, ist die Wahrscheinlichkeit hoch, dass dieses Ergebnis als Direct Answer von Google Home und dem Google Assistant aufgegriffen und vorgelesen wird.
  • Grundsätzlich sollten im Content Fragen in den Überschriften und Zwischenüberschriften verwendet werden - und zwar jene, welche von der Zielgruppe im jeweiligen Themen-Zusammenhang häufig gefragt werden. Dazu ist eine entsprechende Longtail-Keyword-Analyse notwendig. Zudem lohnt sich der Vergleich der Wettbewerber-Suchergebnisse zu dem Keyword sowie der Blick auf die Google Suggestions, um relevante Fragen zu ermitteln. Ein hilfreiches, kostenfreies Tool hierfür ist answerthepublic.com, da es zu bestimmten Begriffen im Netz häufig verwendete Fragen auflistet.
  • Antworttexte, die gezielt für die Direct Answer optimiert werden, sollten einen Umfang von ca. 40 bis 50 Wörtern haben oder als strukturierte Liste aufbereitet sein.
  • Local SEO wird eine immer zentralere Rolle für die Voice Search Experience spielen, da Voice Search primär nicht für die inhaltliche Recherche, sondern für den unmittelbaren Informationsnutzen eingesetzt wird; oft, wenn der User gerade unterwegs ist, sich orientieren oder etwas organisieren muss. Daher sollte ein besonderes Augenmerk auf die Optimierung der Rich Snippets gelegt werden. In diesen lassen sich unter anderem Bewertungen, Adressen oder Kontaktdaten hinterlegen. Auch ein Eintrag in das Branchenverzeichnis Google My Business ist unerlässlich.

Zudem wird die psycholinguistische Optimierung eine immer größere Rolle einnehmen. Das übergeordnete Ziel wird es sein, den Kunden zu verstehen. Das bedeutet auch, dessen Sprache wortwörtlich zu sprechen, um ihm nicht nur Information zu bieten, sondern ihn emotional abzuholen und die Information gemäß seines Bedürfnisses nahe zu bringen. Gerade beim gesprochenen Wort spielen Antizipation und Konnotation eine große Rolle - andernfalls wirken Antworten nur wie hölzerne Texte, ohne echten Mehrwert (so gut der Text auch sein mag). Der Kunde wird sich subjektiv merken, welche Antworten den Gesprächsverlauf bereichert haben.

Fazit

Die Zahlen sprechen eine klare Sprache: Bereits 20 Prozent der mobilen Suchanfragen werden via Voice Search getätigt. Das System dahinter wird langfristig zweitrangig sein - auch wenn Google die informationalen Suchen und Amazon die transaktionalen Suchen derzeit noch dominieren. Die tatsächliche, individuelle Nutzung ist noch immer abhängig von der Konstellation “Gerät und User-Intent”. Die zentrale Konstante aller Trends scheint dabei eine zunehmende Nähe zwischen Unternehmen und User im Alltag zu sein. Denn: Werbung und Branded Content werden noch stärker dem Anspruch einer alltagstauglichen Relevanz gerecht werden müssen, um für die Voice Search relevant zu sein.

Aufmacherfoto von  unsplash-logo Matheus Ferrero

Which method is right for you?Über den Autor: Philipp Boelsen ist Content Marketing Manager bei Suxeedo. Er publiziert regelmäßig in bekannten Fachmedien zu den Bereichen Content Marketing, Seeding und Digitalisierung. Sein journalistischer Hintergrund ermöglicht ihm spannende und fundierte Perspektiven auf und Erkenntnisse über die Symbiose von Mensch und Maschine.

Starten Sie Ihren kostenlosen 14-tägigen Shopify-Test