Start-alt – Crafting Voice Experiences

Die Interaktion mit dem Computer wird immer direkter und intuitiver. Ein weiterer Schritt auf dieser Reise ist die Voice-Technologie: Das „älteste Interface der Welt“, die gesprochene Sprache, begegnet uns u.a. in Form von Siri, Alexa, Google Assistant und Cortana, auf dem Smartphone, als Smart Speaker zuhause und im Auto.

Das Revolutionäre daran: Zum ersten Mal müssen nicht wir Menschen uns der Funktionsweise eines Gerätes anpassen. Jetzt ist es umgekehrt: Der Computer lernt unsere Sprache und orientiert sich dabei an unserem natürlichen Verhalten. Doch die Realität zeigt auch: So richtig gut funktioniert es noch nicht. Vor allem, wenn die Anwendungen komplexer werden, hapert es. So werden Eingaben zwar akustisch immer präziser erfasst, vom Sinngehalt her jedoch oft missverstanden.

Trotz aller Herausforderungen: Wir werden in Zukunft immer öfter und selbstverständlicher mit digitalen Systemen sprechen – und diese werden eine immer bessere Qualität haben. Ob Tastatur, Maus und Screens irgendwann ausgedient haben werden, kann niemand voraussagen. Entscheidend wird sein, welches Interface in welchem Kontext am besten funktioniert. Für die Voice-Technologie wird diese Frage insbesondere im Zusammenspiel von Technologie und Linguistik geklärt werden.

Linguistics and Voice

Als jemand, der Linguistik studiert hat und sich intensiv mit Sprache befasst, fasziniert mich die Frage, wie Menschen mit Computern sprechen können. Dabei geht es um folgende Themen:

Was machen wir, wenn wir kommunizieren? Welche mentalen, meist unbewussten Regeln wenden wir dabei an?
Wie „verstehen“ wir uns? Verstehen, nicht nur im akustischen Sinne (Prozessieren auditiver Signale), sondern vor allem semantisch (Konstruktion von Bedeutung)? Kurz: Wie en- und decodieren wir Information?
Wie können wir unsere menschliche Sprache so weit abstrahieren und in einer Systematik abbilden, damit ein Computer sie verarbeiten kann. Sprich: Wie baut man einen „Simultanübersetzer für Mensch und Maschine“? Einen, der nicht nur Worte, sondern auch Sinn erfassen kann?

Die genannten Themen beziehen sich natürlich auch auf unseren Gesprächspartner, den Computer. Da würde man beispielsweise fragen:

Welche Architektur muss ein Computersystem aufweisen, um menschliche Sprache prozessieren zu können? Wie greifen die Komponenten ineinander, wie lassen sie sich jeweils für sich genommen und im Zusammenspiel optimieren?
Welche Limitierungen kennzeichnen die Kommunikation von Mensch und Maschine – und wie lassen sie sich umgehen, vielleicht sogar lösen?

Nicht minder spannend ist die Frage, was wir mit dieser Technologie machen. Sprich:

Welche Use-Cases sind jetzt schon denkbar, welche stellen wir uns für die nähere Zukunft vor?

Die Entwicklung digitaler Assistenten basiert auf den neuesten Erkenntnissen unterschiedlicher Fachgebieten, so ist eine interdisziplinäre Herangehensweise unumgänglich. Gerade diese Notwendigkeit, verschiedene Perspektiven miteinander in Einklang zu bringen, macht Voice zu einer attraktiven Herausforderung.

About

Tanja Kessenbrock

Studium in Linguistik und Fremdsprachen (M.A.)
Beraterin für Kommunikation und Markenführung
Webentwicklung, Digital Design
Usability und UX, Google Analytics
Heute: Voice Designer

Linguistics and Voice

About

Kontakt