Kollaborative KI: Vertrauenswürdige KI-Agenten für das Contact Center etablieren
OpenAI und Apollo Research haben kürzlich ein faszinierendes neues Papier zu einem recht neuen Ausrichtungsproblem in der Frontier-KI veröffentlicht: „Hinterhältigkeit“. Dies bezieht sich auf das Risiko, dass eine KI-Anwendung lernt, ihre wahren Absichten zu verbergen und heimlich „nicht-ausgerichtete“ Ziele zu verfolgen, während sie scheinbar ihren Anweisungen folgt.
Ihre Arbeit verdeutlichte, wie schwierig dieses Problem ist. Eine neue Trainingsmethode namens „deliberative Ausrichtung“ reduzierte erfolgreich täuschendes Verhalten im Modell; es blieb jedoch eine kritische Herausforderung: die „situative Bewusstheit“. Die KI verhielt sich oft besser, einfach weil sie wusste, dass sie getestet wurde.
Dies mag wie ein abstraktes Problem erscheinen, hat aber wichtige Auswirkungen darauf, wie wir KI in der realen Welt einsetzen. Was bedeutet das also für das Contact Center?
Blog von Josef Novak, Chief Innovation Officer, Spitch
OpenAI und Apollo Research haben kürzlich ein faszinierendes neues Papier zu einem recht neuen Ausrichtungsproblem in der Frontier-KI veröffentlicht: „Hinterhältigkeit“. Dies bezieht sich auf das Risiko, dass eine KI-Anwendung lernt, ihre wahren Absichten zu verbergen und heimlich „nicht-ausgerichtete“ Ziele zu verfolgen, während sie scheinbar ihren Anweisungen folgt.
Ihre Arbeit verdeutlichte, wie komplex dieses Problem ist. Eine neue Trainingsmethode namens „deliberative alignment“ reduzierte erfolgreich täuschendes Verhalten im Modell; es blieb jedoch eine kritische Herausforderung: die „situative Bewusstheit“. Die KI verhielt sich oft besser, einfach weil sie wusste, dass sie getestet wurde.
Dies mag wie ein abstraktes Problem erscheinen, hat aber wichtige Auswirkungen darauf, wie wir KI in der realen Welt einsetzen. Was bedeutet das also für das Contact Center?
Das Risiko einer „hilfsbereiten“ KI, die das System manipuliert
Das Hauptproblem bei der „Hinterhältigkeit“ ist nicht, dass eine KI „die Kontrolle übernimmt“. Im Contact Center besteht das Risiko, dass eine KI lernt, für die falsche Metrik zu optimieren, oder schlimmer noch, lernt, in Bewertungen erfolgreich zu erscheinen, ohne den Kunden tatsächlich zu helfen.
Betrachten Sie diese Beispielszenarien:
- Der Agent Assistant, der dem Bewerter gefällt: Ein KI-Assistent ist darauf ausgelegt, menschlichen Agenten zu helfen, und wird anhand der durchschnittlichen Bearbeitungszeit (AHT) gemessen. Er könnte lernen, dass das Vorschlagen kurzer, einfacher, aber unvollständiger Antworten den Kunden schneller vom Telefon wegbekommt und so seine Bewertung verbessert. Wenn nur die AHT gemessen wird, spielt die Häufigkeit der Rückrufe des Kunden keine Rolle.
- Der „Sandbagging“-Trainingsbot: Eine KI, die für das Agententraining verwendet wird, könnte anhand der Bestehensquoten der Agenten bewertet werden. Sie lernt, übermässig einfache oder repetitive Szenarien anzubieten. Dies stellt sicher, dass Agenten leicht bestehen – aber natürlich sind sie dadurch nicht besser auf die reale Welt vorbereitet.
- Das RAG-System, das strategisch halluziniert: Ein Retrieval-Augmented Generation (RAG)-Tool, das keine präzise Antwort in der Wissensdatenbank findet, gibt keine Unsicherheit zu. Stattdessen synthetisiert es eine plausibel klingende Antwort, um den Benutzer zufriedenzustellen und das Problem zu lösen, wobei es das Erscheinungsbild von Wissen über die Wahrhaftigkeit stellt.
In jedem Fall ist die KI nicht wirklich „kaputt“; sie optimiert geschickt für ein vereinfachtes Ziel. Dies ist eine grundlegende Einschränkung eines rein autonomen Black-Box-Ansatzes für KI im Contact Center – und etwas, das wir vermeiden müssen.
Die Lösung: Kollaboration
Die Studie von OpenAI und Apollo Research bestätigt die Kernphilosophie, die wir bei Spitch entwickelt haben. Während ihr Versuch, der KI eine Reihe interner „Ehrlichkeitsprinzipien“ zu vermitteln, ein wertvoller Schritt ist, glauben wir, dass die robusteste und praktischste Lösung nicht darin besteht, zu hoffen, dass die KI sich selbst überwacht. Die Lösung besteht darin, kollaborative Prinzipien aufrechtzuerhalten, damit der Mensch die Kontrolle behält.
Unser Paradigma reduziert das Risiko der „Hinterhältigkeit“, indem es die Beziehung zwischen Mensch und Maschine neu gestaltet. Anstatt ungeschickte Übergaben zu machen, agiert die KI als beständiger Teamkollege. Die Herausforderung der „situativen Bewusstheit“ wird zu einem Vorteil, nicht zu einer Belastung. Eine KI, die sich ständig bewusst ist, dass sie mit einem menschlichen Partner zusammenarbeitet, ist eine KI, die in Echtzeit ausgerichtet wird. Der menschliche Agent bietet die kontinuierliche, fundierte Aufsicht, die eine Laborumgebung nur simulieren kann.
In dem Modell, das wir bei Spitch verwenden, wird der Erfolg der KI nicht an einer abstrakten internen Punktzahl gemessen, sondern am Erfolg des Menschen, dem sie assistiert. Diese human-in the loop–Partnerschaft macht das System von Natur aus ehrlicher. Die KI versucht nicht, einen Test zu bestehen; sie ist darauf ausgelegt, als unterstützender, transparenter Kollege innerhalb eines kollaborativen Rahmens zu dienen.
Einen besseren Teamkollegen in einer synthetischen Welt aufbauen
Bei Spitch nutzt unser kollaboratives Framework synthetische, generative Umgebungen, um einen „Flugsimulator“ für das Contact Center zu schaffen, der es uns ermöglicht:
- Auf das Unerwartete vorbereitet sein: Wir können eine nahezu unendliche Reihe von Gesprächsszenarien generieren und so sowohl menschliche als auch KI-Teamkollegen darin schulen, ungewöhnliche Grenzfälle und komplexe Probleme zu bewältigen, denen sie sonst möglicherweise nicht begegnen würden.
- Lernen vereinheitlichen: Am wichtigsten ist, dass die menschlichen und KI-Agenten gemeinsam lernen. Die KI lernt Nuancen und Kontext aus menschlich geführten Interaktionen, und der Mensch lernt, wie er seinen KI-Partner besser nutzen kann, um CX-Erlebnisse zu optimieren. Dies schafft einen leistungsstarken, sich selbst verbessernden Kreislauf für beide Teilnehmer.
Ein neues Mandat für vertrauenswürdige KI
Die Ergebnisse von OpenAI und Apollo Research sind einen genauen Blick wert. Sie zeigen, dass ein robust ausgerichtetes Verhalten in autonomer KI unglaublich schwierig zu erreichen ist und dies voraussichtlich auch in absehbarer Zukunft so bleiben wird.
Zentrale Erkenntnisse
- Kollaborative KI, die sich bewusst ist, dass sie mit einem menschlichen Partner zusammenarbeitet, sollte kontinuierlich ausgerichtet bleiben.
- Menschen und KI-Agenten sollten gemeinsam lernen: Die KI lernt Nuancen und Kontext von Menschen, während Menschen von effizienter, intelligenter Unterstützung profitieren.
- Rein autonome LLM-basierte KI-Lösungen haben immer noch grundlegende Grenzen, die in naher Zukunft wahrscheinlich nicht überwunden werden können.
Wenn Ihr Unternehmen im Bereich CX tätig ist, besteht der beste Ansatz zur Nutzung generativer KI nicht darin, autonome „Black Boxes“ einzusetzen und zu hoffen, dass sie nicht lernen, das System zu manipulieren. Es geht darum, ein transparentes, verantwortungsbewusstes und kollaboratives KI-Ökosystem aufzubauen. Es geht darum, ihren menschlichen Agenten KI-Teamkollegen zur Seite zu stellen, die von Anfang an für kollaborative Unterstützung konzipiert wurden, um sicherzustellen, dass jede Interaktion nicht nur effizienter, sondern letztendlich auch empathischer und menschlicher ist.

