Registration is wrong! Please check form fields.
Publication detail:

Jürg Schleier, Country Manager DACH bei Spitch, im Interview

smm_.jpgMoneycab: Herr Schleier, schon seit Jahren werden Sprachtechnologien als “the next hot thing” gehandelt. Künstliche Intelligenz, Sprachsteuerung von Suchmaschinen und von Anwendungen in der Virtuellen Realität scheinen nun einen zusätzlichen Schub gebracht zu haben. Wo stehen wir heute, welches sind die wichtigsten Anwendungsgebiete?

Jürg Schleier: Wir stehen am Anfang einer Entwicklung, die unseren Umgang mit elektronischen Geräten massiv verändert. Die Spracherkennung wird auf unser zukünftiges Leben einen ähnlichen gravierenden Einfluss haben, wie die Einführung der ersten Handys in der Mitte der Neunziger Jahre. Das zeigen auch die diversen Artikel mit der Überschrift «Mobile First war gestern – heute gilt Voice First», die in letzter Zeit erschienen sind.

„Die Spracherkennung wird auf unser zukünftiges Leben einen ähnlichen gravierenden Einfluss haben, wie die Einführung der ersten Handys in der Mitte der Neunziger Jahre.“ Jürg Schleier, Country Manager DACH bei Spitch

Die wichtigsten Einsatzbereiche sehe ich in den Bereichen Voice-Interfaces, Speech-2-Text und Voice-Biometrie. Grundsätzlich kann gesagt werden, dass ein Grossteil der Computer- oder Mobile-Texteingaben, die bisher über die Tastatur erfolgten in der Zukunft über Spracheingabe erfolgen werden. Das gilt im Besonderen für Mobiles, wo jede Eingabe, die über drei Worte hinausgeht sowieso mühsam ist. Und jeglichen Kundenkommunikation, die einfach und strukturiert abläuft eignet sich für die Automation oder Halb-Automation mittels Speech-2-Text-Erkennung.

Nebst der Fähigkeit, das gesprochene Wort in Text zu wandeln und strukturiert zu verarbeiten (digitale Sprachanalyse), gewinnt der Aspekt der Sicherheit (biometrische Stimmerkennung) zunehmend an Bedeutung. Wie sicher ist diese Art der Identifikation, wo wird sie heute schon eingesetzt?

Die Voice-Biometrie ist mindestens so sicher wie ein Schweizer Pass. Fälschung sind theoretisch möglich, aber der technische Aufwand für eine gute Fälschung ist sehr gross und die meisten Betrugsversuche, sind einfach erkennbar. Das wichtigste Argument für die Voice-Biometrie ist die Benutzerfreundlichkeit. Die für die Kunden mühsamen (und unsicheren) Sicherheitsfragen für die Verifikation können durch eine Prüfung der Stimme im Hintergrund ersetzt werden und das Gespräch mit dem Kunden kann sich von Beginn weg auf das Kundenanliegen konzentrieren. Einige Schweizer Retailbanken haben mit entsprechenden Pilotprojekten mit Spitch begonnen. Das erste Kunden-Feedback ist sehr positiv.

„Die Voice-Biometrie ist mindestens so sicher wie ein Schweizer Pass.“

Sie haben gerade mit Avaloq für deren Bankenlösung ein Sprachinterface entwickelt. Wo kommt die neue Lösung zum Einsatz und was bedeutet das für die Bankkunden?

Zusammen mit Avaloq haben wir einen ersten einfachen Prototypen entwickelt, der aufzeigt, wie der Kunde einer Avaloq-Bank ganz einfach per Stimme über das Telefon seinen Kontostand abfragen kann. Für die Implementierung und die Integration in Avaloq haben wir ca. zwei Wochen benötigt. Zusammen mit Avaloq denken wir aber noch über weitere Use-cases nach. Die automatische Erstellung von Kundenberater-Gesprächs-Protokollen und die voicebiometrische Erkennung des Avaloq-Bankkunden gehört mit dazu.

Die offensichtlichen Kosteneinsparungen durch Sprachtechnologien in Call Center und im Kundendienst mal beiseite gelassen, welche neuen Geschäftsbereiche können sich zum Beispiel Banken und Versicherungen mit den neuen Sprachtechnologien erschliessen?

Da gibt es eine ganze Reihe von sinnvollen Anwendungsmöglichkeiten: «Voice-User-Interfaces» für Chatbots ist eine Anfrage, die wir häufig hören. Viele Unternehmen haben damit begonnen, Ihren Kunden «Chatbot» Dialoglösungen anzubieten. In den meisten Fällen sind diese Chatbots aber auf dem Handy nur sehr umständlich zu bedienen und ein (Spitch-)Sprach-Interface kann die Bedienerfreundlichkeit und die Akzeptanz des Chatbot durch den Kunden massiv erhöhen.

„Mit der Spitch-Emotion-Detection- oder der Spitch Sentiment-Lösung kann die Kundenzufriedenheit direkt während dem laufenden Kundengespräch ermittelt werden.“

Die automatische Messung der Kundenzufriedenheit (NPS) ist ein weiterer spannender Anwendungsbereich. Mit der Spitch-Emotion-Detection- oder der Spitch Sentiment-Lösung kann die Kundenzufriedenheit direkt während dem laufenden Kundengespräch ermittelt werden. Das hat den Vorteil, dass das Unternehmen noch während des laufenden Gesprächs Einfluss auf die Kundenzufriedenheit nehmen kann. Zudem muss der Kunden nach dem Gespräch nicht nochmals separat befragt werden, um seine Zufriedenheit zu erfahren.

Eine besondere Herausforderung dürften in der Schweiz die verschiedenen Dialekte und deren unzählige Färbungen sein. Wie geht Spitch damit um?

Wir beschäftigen ein erfahrenes Team von Linguisten, die sich schon seit vielen Jahren mit Spracherkennung und der Komplexität von Schweizerdeutsch beschäftigen. Ein Teil unseres Engineeringteams hat auch ein paar Jahre für den grössten US Anbieter für Sprachlösungen gearbeitet und ist dort zur Erkenntnis gelangt, dass die grossen US Anbieter noch sehr, sehr lange nicht in der Lage sein werden Lösungen für Schweizerdeutsch zu entwickeln. Das hat unter anderem zur Gründung von Spitch geführt. Basierend auf diesen Erkenntnissen hat unser Forschungsteam eine phonetische Erkennung für Schweizerdeutsch entwickelt. Diese Basis-Technologie wird jeweils mit echten Kundengesprächsdaten erweitert und anschliessend in mehreren «tuning cylces» auf den jeweiligen Einsatz-Zweck des Kunden trainiert.

„Die grossen US Anbieter werden noch sehr, sehr lange nicht in der Lage sein werden Lösungen für Schweizerdeutsch zu entwickeln.“

Ein weiterer Bereich der Sprache, nachdem diese erkannt und analysiert wurde, ist die Übersetzung in eine andere Sprache zur verbesserten Kommunikation. Ist dieser Bereich für Spitch ein Thema, eventuell in Kooperation mit anderen Unternehmen?

Nein, zum heutigen Zeitpunkt liegen Übersetzungsprogramme nicht in unserem Fokus. In diesem Bereich gibt es bereits sehr gute Lösungen und Anbieter und wir wollen uns auf unsere Core-Kompetenz, die Spracherkennung konzentrieren. Mit einer kleinen Ausnahme: Bei der Erkennung der unterschiedlichen Schweizer Dialekte verwenden wir Hochdeutsch als «Normalisierung». Da heisst, dass die von uns erkannten Schweizerdeutschen Dialekttexte automatisch auf Hochdeutsch übersetzt werden. Das ist auch einer der Forschungsbereiche unseres Linguistik-Teams, da schweizerdeutsche Texte bekannterweise nicht 1:1 auf hochdeutsch übersetzt werden können.

Der Mangel an IT-Spezialisten, welche in der Lage sind, die neuen Technologien auch in benutzerfreundliche Anwendungen zu überführen, dürfte für die weitere Verbreitung kritisch sein. Wie adressiert Spitch dieses Problem, wie kann die Umsetzung von der Idee zur Anwendung möglichst einfach gehalten werden?

Häufige fehlen die IT und die Business-Spezialisten. Genau aus diesem Grund haben wir die Spitch Lingware-Suite entwickelt. Vereinfacht gesagt, haben wir unsere jahrelange Forschungs- und Entwicklungsarbeit in eine Cloud basierte Lösung zusammengepackt und stellen diese Lingware-Suite jetzt unseren Partner zur Verfügung. Die Partner sind damit in der Lage ohne grosse Vorkenntnisse schnell und einfach Kunden-Sprach-Lösungen zu entwickeln. So hat zum Beispiel unser Partner Adnovum auf dieser Basis innerhalb von ein paar wenigen Wochen ein produktive Kunden-Lösung entwickelt.

„Die Zusammenarbeit mit unseren Partner und der Einsatz der Spitch Lingware Suite ergibt für uns einen ausserordentlichen Skalierungseffekt.“

Und selbstverständlich verfügen unsere Partner über das jeweils notwendige Branchen-Know-how und die entsprechenden IT Spezialisten, um auch grosse Projekte zu realisieren. Die Zusammenarbeit mit unseren Partner und der Einsatz der Spitch Lingware Suite ergibt für uns einen ausserordentlichen Skalierungseffekt.

Eine Möglichkeit, die Verbreitung einer Plattform zu beschleunigen, ist die Öffnung für die Entwickler mittels OpenSource oder offenen Schnittstellen. Wie gehen Sie bei Spitch mit dem Thema um?

Absolut. Wir sind ein grosser Verfechter für den Einsatz von OpenSource Technologie und unterstützen diese auch entsprechend.

Als Spin-Off der ETH hat Spitch den Sitz in der Schweiz. Das Team von mittlerweile 40 Personen ist weltweit tätig, Spitch hat Niederlassungen in Mailand und London. Wo sehen Sie die grössten Entwicklungspotenziale, und welche Bedeutung wird die Schweiz in Zukunft haben für Spitch?

Der weltweite Sprach-Erkennungs-Market wächst aktuelle in einem hohen zweistelligen Bereich. Technologie-bedingt ist aber die Konkurrenz im englischsprachigen Raum viel grösser. Bei der geografischen Ausrichtung adressieren wir jetzt, nach Italien und UK primär Deutschland als nächsten grossen Zielmarkt.

Bei der Produkte-Entwicklung sehen wir viel Potential im Bereich «Omni-Channel Communication», also der Kombination der diversen Kunden-Kommunikations-Kanäle, wo Video-Conferencing, Chatbot, Mobile-Apps, Social-Media und Telefonie zusammenwachsen.

Welche technologischen Entwicklungen sind in nächster Zukunft entscheidend, um Sprachtechnologien noch schneller zum Durchbruch zu verhelfen, in welche Bereiche investiert Spitch selbst?

Ich sehe drei primäre Stossrichtungen:

a) Wir unterstützen heute Englisch, Französisch, Italienisch, Russisch, Hochdeutsch und Schweizerdeutsch. Wir werden in der Nahen Zukunft sicher noch weitere Sprachen hinzufügen. Der Consumer-Markt und die Unterstützung von fünfzig und mehr Sprachen ist aber aktuell nicht unser Ziel.

b) Wir werden unsere Core Produkte, die biometrische Stimmen-Erkennung und die Sprach-Erkennung laufend weiter verbessern.

c) Ein grosser der Teil der Entwicklung fokussiert sich auf vor- und nachgelagerte Komponenten. So werden wir unsere Lingware-Suite für die Partner weiter ausbauen. Wir werden demnächst mit einem graphischen IVR-Builder auf den Markt kommen, mit der unsere Kunden und Partner einfache IVR Lösungen selbst bauen können. Wir werden die Palette von vorgefertigten Telefonie/PBX-APIs erweitern. Etc.

„Wir werden demnächst mit einem graphischen IVR-Builder auf den Markt kommen.“

Wenn Sie unlimitierte Mittel hätten, EINE Killer-App zu entwickeln, was würde die App können?

Mein Traum ist der «Remot-Controll» aus Star-Trek. Das Gerät wurde verwendet, um Personen von einer Stelle zu einer anderen zu beamen, das Raumschiff mit WOK-Geschwindigkeit fliegen zu lassen und es konnte auch als universeller simultan Übersetzter, auch für unbekannte Sprachen, eingesetzt werden. Ich glaube aber, dass ich noch ein paar Jahre warten muss, bis eines davon Wirklichkeit wird