Registration is wrong! Please check form fields.
Publication detail:

Spitch interview: "Bye bye, classic call center"

The coronavirus crisis clearly shows how quickly conventional call centers can run into capacity bottlenecks. And not only in the healthcare sector. Read more in the current interview of the Swiss Unternehmerzeitung with Jürg Schleier, Country Manager DACH. Download PDF.

UZ_news.jpgObwohl es einige Zeit dauern wird, die realen wirtschaftlichen Auswirkungen des Coronavirus zu erfassen, sind die sozialen Folgen klar erkennbar. Die öffentliche Verwaltung, die Regierungsbehörden, das Gesundheitssystem, alle versuchen, dem dringenden Bedürfnis nach Information nachzukommen. Die Bürger wollen Antworten. Sofort.

So hat die Lombardei in Italien eine gebührenfreie Nummer aktiviert, über die bereits mehr als 300‘000 Anrufe pro Tag, im Schnitt 12‘500 Anrufe pro Stunde, eingehen. Die Folge sind lange und frustrierende Warteschlangen für die Bürger, trotz eines spezialisierten Teams von 60 Betreibern und 90 Standleitungen.

So grosse Mengen an Information und auskunftsbedürftiger Menschen sind nicht einfach zu handhaben. Schon gar nicht von klassischen Call-Centern. Es scheint, als sei jetzt der Zeitpunkt von Smart-Working mit Home-Office und smarten Factorys definitiv gekommen. Wir haben mit Jürg Schleier gesprochen, Country Manager DACH bei Spitch. Die können Künstliche Intelligenz mit Spracherkennung sowie Big Data kombinieren und einen richtigen Smart-Service anbeiten.

Herr Schleier, in Zeiten von Corona-Virus & Co. – haben Sie jetzt mehr zu tun?

Sicher nicht weniger (schmunzelt). Die sich jetzt bietende Krisensituation mit dem Coronavirus legte einen starken Schwerpunkt auf zwei reale Bedürfnisse, nämlich darauf, wie die Menschen aus der Ferne auf öffentliche Dienste zugreifen können und wie wichtig das «smartworking» geworden ist und noch wird. Gleichzeitig machte der internationale Notfall deutlich, wie sehr die traditionellen Telefonzentralen noch weit davon entfernt sind, mit plötzlichen Anrufspitzen fertig zu werden. Und ja, wir können das lösen, wie unser jüngstes Projekt mit Casa della Salute, ein privater Gesundheitskonzern mit Sitz in Norditalien, gezeigt hat.

Was haben Sie da anders gemacht?

Für den Kunden Casa della Salute haben wir bereits 2019 als Reaktion auf die zunehmende Zahl medizinischer Terminanfragen über das Callcenter eine Mehrkanal-Lösung entwickelt, die als Kontaktpunkte eine sprachfähige IVR-Lösung (Anm. d. Red.: Interactive Voice Response), einen Bot auf der Website mit Text und Stimme sowie und Facebook umfasst. Die auf künstlicher Intelligenz und natürlicher Sprachverarbeitung basierende Lösung verwaltet einen automatisierten Termin-Buchungsprozess über die drei Kanäle, der nicht die unmittelbare Beteiligung eines menschlichen Operators erfordert.

Und das kommt jetzt dem Gesundheitszentrum zu Gute.

Genau. Diese Art von Lösung ermöglicht ein echtes Management der eingehenden Anrufspitzen, nicht nur in Notfallsituationen wie der aktuellen, sondern auch bei üblichen Geschäftsprozessen. Die Bereitstellung eines besseren Dienstes für die Bürger durch die Verringerung der Wartezeiten, die Verbesserung des Serviceniveaus der öffentlichen Verwaltung oder der Unternehmen sowie der internen Prozesse durch die Bereitstellung von menschlichen Operatoren für komplexere Aufgaben. Das sind nur einige der Vorteile dieser Lösung. In der Coronavirus-Situation könnten beispielsweise alle Anrufe zu einfachen und sich wiederholenden Informationen leicht automatisiert werden.

Aber jetzt mal von Anfang an. Erklären Sie einem unbedarften, grösseren KMU Geschäftsführer, was Spitch kann.

Wir machen grundsätzlich Stimm- und Spracherkennung, das beinhaltet zwei Komponenten. Zum einen die biometrische Erkennung einer Stimme. Wenn man irgendwo anruft, können wir der Stimme zuhören und nach 10 Sekunden sagen, jawohl, das ist die Stimme von Matej Mikusik. Das ist ähnlich wie ein Fingerabdruck, das heisst die biometrische Identifizierung einer Stimme am Telefon. Das ist der eine Anwendungsfall.

Zu welchem Prozentsatz funktioniert das?

Ich muss das vielleicht anders formulieren. Kunden aus der Finanzbranche fragen immer, wie genau und wie sicher ist das. Ich sage dann, so genau, wie die drei Fragen, die sie normalerweise stellen. Die technische Antwort auf diese Frage ist: Man kann die Schärfe des Systems selber einstellen. Zwei Faktoren spielen da eine Rolle, die sogenannte «False Acception Rate» und die «False Rejection Rate».

Bitte erklären!

False Acception Rate heisst, dass die Maschine jemanden akzeptiert hat, der falsch war und die False Rejection Rate bedeutet, dass man jemanden zurückweist, der eigentlich richtig war. An diesen beiden Schrauben kann man justieren. Wenn ich die False Acception Rate sehr tief halte, dann erhöhe ich damit auch die False Rejection Rate. Wenn ich also das System auf super scharf stelle, dann weist es fälschlicherweise mehr Leute zurück. Angewendet auf den Business Case bedeutet dies: Nehmen wir das Beispiel einer Bank. Wenn ein Kunde anruft, und einfach nur den Kontostand wissen möchte, dann ist das nicht super-kritisch. Man kann dann mit einer geringeren False Acception Rate leben als wenn es um Überweisungen geht. In diesem Fall muss das System super scharf eingestellt sein. Man kann also selber definieren, wie scharf das System sein soll.

Wenn wir schon bei diesem Thema sind, eine Frage, die immer wieder auftaucht, ist die nach der Fälschungssicherheit.

Fälschungen sind überall möglich. Man kann einen Schweizer Pass fälschen. Mit genügend krimineller Energie und einem Investment kann man auch einen Stimmabdruck fälschen, aber es ist sehr aufwändig. Der Hauptnutzen von biometrischer Stimmerkennung ist, dass die Kontaktaufnehme für den Kunden komfortabler wird. Ein Beispiel: Ich rufe bei einer Bank an, die stellen mir ihre drei Fragen und nach einer halben Stunde rufe ich nochmals an, weil ich etwas abklären musste. Die Bank muss mir dann nochmals die drei Fragen stellen und ich das am gleichen Tag dann nochmals dreimal beantworten, dann nervt. Bei unserer Lösung kann der Kunde ganz normal mit dem Bankmitarbeiter reden und wir sagen dem Mitarbeiter nach zehn Sekunden mit einem Signal, dass es sich am anderen Ende um die berechtigte Person handelt. Der Kunde braucht keine Fragen zu beantworten. Der Prozess ist für den Kunden komfortabler.

Und zum zweiten Punkt, den Sie vorher erwähnt haben?

Das ist Text to Speech. Was jemand sagt, wird bei uns sofort in Text umgewandelt – fast in Realtime. Dazu ein Beispiel eines unserer im Finanzwesen tätige Kunden. Der Kunde ruft an und das automatische System sagt: «Guten Tag, sie sind bei der Firma XY, bitte schildern sie uns ihr Anliegen.» Der Kunde kann dann sagen, was immer er will, zum Beispiel mein Name ist Schleier, ich habe eine Mastercard, bin in Afrika in den Ferien, habe die Karte verloren und möchte diese gerne sperren lassen. Mit dem Text, den der Kunde gesprochen hat, machen wir dann Text to Speech, transferieren also Schweizerdeutsch in Hochdeutsch.

Das tönt komplex.

Sagen wir mal so. Es ist nicht ohne. Danach wird der Anruf einer vordefinierten Kategorie zugeteilt, in diesem Fall würde der Text in der Kategorie «Kartensperrung international» landen. Der zuständige Mitarbeiter erhält diesen Text vor Annahme des Anrufes als Pop-up Fenster auf seinem Bildschirm und weiss bereits bei Annahme des Anrufs, wo das Problem liegt. Er nimmt dann den Anruf entgegen, weiss bereits den Namen des anrufenden Kunden und worum es geht. Das Anliegen ist dann für den Kunden in kürzester Zeit ohne weitere Erklärungen und Weiterverbinden erledigt.

Das heisst, Sie verstehen was der Kunden sagt, wandeln dies in geschriebenen Text um, erkennen das Anliegen und die Semantik und leiten das Anliegen an den richtigen Ort.

Ja, das kann ein Anwendungsfall sein. Ein weiterer Anwendungsfall ist die Behandlung von einfachen, wiederkehrenden Anrufen, wie Fragen nach Öffnungszeiten, Bancomat, Kontoeröffnung, Kontostand und viele mehr. 50 Prozent der Anrufe sind bei den meisten Unternehmen extrem repetitiv. Wenn ich nun ein System habe, welches mit biometrischer Erkennung versteht, wer anruft und weiss, dass der Anrufende nur seinen Kontostand wissen möchte, dann kann in solchen Fällen das System diese Anfrage automatisiert – ohne Beizug eines Mitarbeiters – erledigen.

Das funktioniert aber nur bei einfachen, repetitiven Anfragen. Oder?

Ja, wenn der Kunde beispielsweise eine Beratung betreffend Hypothek wünschen würde, dann wäre ein solches System komplett überfordert. Fragen nach dem Kontostand, die Bestellung eines Kontoauszugs, Öffnungszeiten lassen sich hervorragend automatisieren. Die Beantwortung solcher Anfragen sind zudem auch für die Call Center Mitarbeitende auf die Dauer extrem langweilig.

Dann ist das klassische Call Center eigentlich ein Auslaufmodell?

Das ist es sowieso. Viele Firmen versuchen die Call Center-Funktionen in den Osten zu verlagern oder die englischsprachigen nach Indien zu migrieren. Die Genauigkeit unserer Spracherkennung liegt bei rund 90 Prozent. Gemäss Experten erreichen nicht im eigenen Sprachraum angesiedelte Callcenters nie einen Erkennungsgrad von 90 Prozent. Da sind wir mit unserer automatisierten Lösung also klar viel besser.

Das heisst, Spitch kann alle Sprachen und Dialekte abdecken?

Diese Frage beinhaltet einen sehr wichtigen Punkt. Wenn man die Spracherkennung von Apple oder Google und anderen nimmt, dann machen die Spracherkennung, die alles versteht. Die verfügen über extrem viele Daten und verstehen alles – vor allem in Englisch. Wir von Spitch dagegen machen immer nur Spracherkennung für einen bestimmten Kunden. Dabei verwenden wir bestehend Kundengespräche als Referenzdaten. Normalerweise benötigen wir dazu 20‘000 Kundengespräche als Referenzdaten. Und wenn darunter beispielsweise einen Walliser war, der für «bergauf» den Walliser Begriff «embrüf» braucht, dann wird das System das nächste Mal diesen Begriff als «bergauf» erkennen.

Und wenn es keinen Walliser in der Referenzgruppe gibt?

Dann wird das System den Begriff auch nicht erkennen. Das heisst, das System muss spezifisch für jeden unserer Kunden entsprechend seinem Umfeld angelernt werden. Entsprechend angelernt, versteht das System jeden Dialekt. Das ist unser grosser Vorteil. Heute unterstützen wir bereits Schweizerdeutsch, Hochdeutsch, Englisch, Französisch, Italienisch und Russisch. Für eine weitere Sprache benötigen wir etwa drei Monate Entwicklungszeit. Dabei müssen wir immer das Potenzial einer solchen Entwicklung abwägen.

Die Stimme verändert sich im Alter oder bei Krankheit. Was sind die Auswirkungen dieser Veränderungen auf die Spracherkennung?

Das ist wesentlich. Die Altersveränderung spielt da gar nicht so eine grosse Rolle. Wichtiger ist das Körpervolumen. Der Resonanzkörper hat einen grossen Einfluss auf die Stimme. Eine enorme Gewichtszu- oder -abnahme hat den grösseren Einfluss wie die Alterung. Ruft man bei Heiserkeit oder einer Stimmveränderung die Bank an, dann kann es sein, dass das System die Stimme nicht erkennt. In diesem Fall kommt wieder der Bankmitarbeiter ins Spiel, der seine Identifikationsfragen stellt. Wird der Anrufer dann identifiziert dann wird geleichzeitig sein Stimmprofil ergänzt. Damit wird das Stimmprofil über die Zeit hinweg besser. Grundsätzlich macht Stimmerkennung Sinn, wenn der Kunde mehr als einmal jährlich anruft. Andernfalls ist der Bau eines Stimmprofils zu aufwändig.

Zum Business. Ist Spitch noch am Wachsen oder verdient das Unternehmen schon Geld?

Die Antwort ist ja und ja. Wir wachsen und verdienen auch Geld. Stimm- und Spracherkennung ist ein schnell wachsender Markt. Erstes Ziel ist nicht Profitabilität, sondern Marktanteil. Den Marktanteil in einem schnell wachsenden Markt zu holen, ist jetzt zehnmal einfacher als in zehn Jahren in einem Verdrängungsmarkt. Da sind wir gut unterwegs. In der Schweiz – würde ich behaupten – haben wir in unserem Zielkundensegment einen unterstützten Bekanntheitsgrad von 90 Prozent. Jeder, der sich mit dem Thema professionell befasst, kennt Spitch.

Wo wird Spitch im Jahr 2030 stehen?

Wir werden sicher ein führender Anbieter für Business Sprachlösungen sein. Das ist der Fokus. Aktuell fahren wir eine europäischen Expansionsstrategie, die ihren Anfang in der Schweiz genommen hat, dann Italien, UK und jetzt Deutschland. Dann folgen die Nordics.

Und wohin geht die Entwicklung?

Wir sind heute noch nicht dort, wo HAL 9000, der Computer im Film Space Odyssey aus dem Jahr 1968, war. Dort in die Nähe werden wir aber hinkommen. Die Spracherkennung wird laufend besser. Wir können heute schon eine Spracherkennung bauen, die sich auf dem Niveau der menschlichen Erkennungsrate von etwa 95 Prozent befindet. Wir brauchen dazu aber viel Geld und viel Computingpower. Das lohnt sich heute in den meisten Fällen noch nicht.

Wann ist es so weit, dass wir Befehle und Texte nur noch per Voice eingeben?

Wir kommen diesem Ziel bereits heute sehr nahe, aber der Aufwand ist noch zu gross, um eine «Out oft the Box» Lösung anbieten zu können. Das dürfte noch zehn bis fünfzehn Jahre dauern. Zudem benötigt das auch einen Generationenwechsel. Unsere Generation hat noch Hemmungen im Tram Befehle ins Handy zu sprechen. Für 15-jährige ist das kein Problem. In 15 Jahren werden die heutigen fünfzehnjährigen aber die Entscheidungsträger sein und keine Mühe bekunden, so mit ihrem Handy umzugehen. Das Bedürfnis der Kunden und die technischen Möglichkeiten sind grundsätzlich vorhanden.

Herr Schleier, besten Dank für Ihre Zeit und Ihre Antworten.