Registration is wrong! Please check form fields.

News

News detail:
2025
6
Februar

Multimodale Modelle und agentenbasierte KI: generative KI im Jahr 2025

6 Februar 2025

Multimodale Modelle und agentenbasierte KI: generative KI im Jahr 2025

1.jpg2025 wird die generative KI die Art und Weise, wie wir kommunizieren, Probleme lösen und mit Technologie und anderen Menschen interagieren, weiter verändern. Das wird durch bedeutende Fortschritte bei grossen multimodalen Modellen (Large Multimodal Models, LMMs) und das schnelle Wachstum der agentenbasierten KI noch weiter unterstrichen. Diese und andere Innovationen versprechen, KI schneller, leistungsfähiger und stärker in unser tägliches Leben zu integrieren, werfen aber auch wichtige Fragen zu Vertrauen, Regulierung und Umsetzung auf.

Grosse multimodale Modelle: Ausweitung der Möglichkeiten der KI

Multimodale Modelle – Systeme, die Text, Bild, Sprache und in manchen Fällen mehr integrieren – erweitern die Möglichkeiten von KI-Workflows weit über die weitgehend textbasierten Systeme hinaus, die noch vor einem Jahr dominierten. Das zeigt sich bereits an der Entwicklung der multimodalen Unternehmensservices von Google, OpenAI und Anthropic. Aber Open Source hält Schritt – mit Modellen wie Alibabas QVQ-72B Preview und der bevorstehenden Llama 4 Version von Meta, die sich auf „speech and reasoning” (Sprache und Begründung) konzentriert, wird Open Source AI weiterhin den Zugang demokratisieren und Innovationen in allen Branchen fördern.

Auch die visuelle KI macht grosse Fortschritte. Das Segment Anything Model (SAM) von Meta isoliert visuelle Elemente mit minimalem Input und ermöglicht so Anwendungen in der Videobearbeitung, Forschung und im Gesundheitswesen. Das ARMOR-System von Carnegie Mellon und Apple hat mit seinen verteilten Tiefensensoren das räumliche Bewusstsein von Robotern verbessert, Kollisionen um 63,7 % reduziert und verarbeitet Daten 26-mal schneller als herkömmliche Methoden.

Auch Sprachsysteme sind weiter auf dem Vormarsch. Modelle wie Hertz und Moshi von Kyutai erreichen beeindruckende Reaktionszeiten – in einigen Fällen unter 120 Millisekunden – und versprechen immer natürlichere Interaktionen. Dennoch gibt es weiterhin Herausforderungen: Die Anpassung der Stimme, die Beibehaltung des Kontexts und die Inferenzkosten bleiben kritische Herausforderungen.

2.jpg

Agentenbasierte KI: auf dem Weg zu grösserer Autonomie

Die agentenbasierte KI verändert die Arbeitsweise von LLMs, indem sie ihnen durch kontrollierten Zugang zu Tools und Arbeitsabläufen ein unterschiedliches Mass an Autonomie gewährt. Im Gegensatz zu den üblichen „KI-Contact-Center-Agenten”, die in erster Linie als Konversationsschnittstellen dienen, sind agentenbasierte KI-Systeme auf einem Kontinuum von integrativen Fähigkeiten aufgebaut. Diese Entwicklung ermöglicht es ihnen, reale Probleme zu lösen, die über ihre Trainingsdaten hinausgehen, indem sie mit externen Systemen interagieren.

Agentenbasierte KI im Contact Center kann im Grossen und Ganzen so verstanden werden, dass sie entlang eines Spektrums von Autonomie operiert, das wie folgt aussehen könnte:

  • Niedrige Handlungsfähigkeit (☆☆☆): LLMs erzeugen Textantworten auf Benutzereingaben.

  • Mittlere Handlungsfähigkeit (★☆☆ – ★★☆): LLMs klassifizieren und leiten Anrufe weiter, rufen Kundendaten ab oder interagieren mit Tools wie Auftragsabfrage und FAQ-Abfrage.

  • Hohe Handlungsfähigkeit (★★★): LLMs verwalten autonom den Gesprächsfluss, leiten Interaktionen ein oder beenden sie und treffen zielgerichtete Entscheidungen in Echtzeit.

Diese Sichtweise auf agentenbasierte KI wird von wichtigen Akteuren wie HuggingFace unterstützt: “Die Handlungsfähigkeit entwickelt sich kontinuierlich weiter, je nachdem, ob man dem LLM im Workflow mehr oder weniger Macht gibt.”, sowie von Branchenanalysten wie Gartner: „KI-Handlungsfähigkeit ist ein Spektrum.” Dieses Spektrum verdeutlicht, wie sich agentenbasierte KI an unterschiedliche Geschäftsanforderungen anpassen kann. Innerhalb der vereinheitlichten Plattform von Spitch zeichnen sich beispielsweise Lösungen mit hoher Handlungsfähigkeit wie der Coaching Simulator oder Voice Assistants und Chatbots durch anpassbare natürliche Antworten und fortschrittliches Call Routing aus, während toolintegrierte Systeme wie Agent Assist und Speech Analytics komplexe Automatisierungen hinter den Kulissen für Live-Interaktionen und Post-Call-Analysen durchführen.

Im Jahr 2025 wird die rasche Ausweitung von KI-Anwendungsfällen für Agenten – insbesondere im Bereich Customer Experience Management – Arbeitsabläufe neu definieren und Unternehmen in die Lage versetzen, ein Gleichgewicht zwischen Automatisierung, Effizienz und Benutzerfreundlichkeit herzustellen.

Kleiner, intelligenter, schneller: der Aufstieg der SLMs

Kleine Sprachmodelle (SLM) liegen ebenfalls im Trend. In einigen Fällen erreichen diese Modelle bei bestimmten Aufgaben die Leistung grösserer Systeme wie GPT-4 und laufen auf Standardhardware. Dieser Wandel entspricht dem Bedarf von Unternehmen an skalierbarer, kosteneffizienter KI. In diesem Zusammenhang haben Google Research und DeepMind vor kurzem einen neuen Ansatz für die Verwendung von SLMs als Lehrer zum Trainieren von viel grösseren Modellen vorgestellt.

3.jpg

Contact Center als Case Study

Die Auswirkungen der generativen KI werden besonders in Contact Centern deutlich. Einem kürzlich erschienenen Bericht von McKinsey zufolge spiegelt dieser Wandel drei wichtige Veränderungen in der Branche wider: Contact Center werden nun als Geschäftsmöglichkeit und nicht mehr als Anlaufstelle gesehen, Unternehmen bauen ihre KI-Ökosysteme aus, um diese Bestrebungen zu unterstützen, und es wird immer mehr Wert darauf gelegt, die Mitarbeitenden durch besseres Onboarding, Training und Coaching zu weiterzubilden.

Frühe Anwender wie Klarna haben eine Senkung der Kosten für den Customer Service um 14 % gemeldet, während KI-gesteuerte Systeme bis zu 80 % der Routine-Interaktionen abwickeln. KI-gestützte Schulungsplattformen, wie die von Spitch entwickelte, verändern auch die Personalentwicklung. Sie bieten Echtzeit-Coaching und personalisierte Simulationen, die die Einarbeitungszeit verkürzen und die Leistung der Mitarbeitenden verbessern.

Trotz dieser Fortschritte bleibt die Akzeptanz begrenzt. Nur 6,1 % der US-amerikanischen Unternehmen haben 2024 KI-Lösungen implementiert. Zu den Herausforderungen gehören die Integration mit Altsystemen, die hohen Schulungskosten und das grosse Misstrauen der Öffentlichkeit. Laut Qualtrics stehen 75 % der Verbraucher dem Einsatz von KI in Unternehmen weiterhin skeptisch gegenüber – ein Rückgang um 11 % gegenüber 2023.

Überwindung von Inferenzherausforderungen

Inferenz ist nach wie vor ein Engpass für die breite Einführung von KI. Unternehmen wie Groq und Cerebras entwickeln spezielle Hardware für Echtzeitanwendungen, die bis zu 70-mal schnellere Inferenzen ermöglicht. Andere, wie Acurast, nutzen das verteilte Rechnen, um fortschrittliche Modelle auf Standardgeräten auszuführen, und bieten skalierbare Lösungen für nicht zeitkritische Aufgaben. Inzwischen gewähren grosse Anbieter wie OpenAI ihren kundenorientierten Standardmodellen einen erheblichen Preisnachlass für Inferenzen.

4.jpg

Regulierung, Daten und Vertrauen

Mit dem jetzt in Kraft getretenen KI-Gesetz der EU verfügt Europa über einen der fortschrittlichsten Rechtsrahmen für den Einsatz von KI, der den Schwerpunkt auf technische Robustheit, Transparenz und Datenschutz legt. Das Problem der Bewertung der Einhaltung dieser Vorschriften bleibt jedoch ungelöst. Jüngste Forschungsarbeiten der ETH Zürich zeigen diese Lücke auf und haben ergeben, dass keines der heute am häufigsten verwendeten grossen Sprachmodelle (LLMs) die Anforderungen des Gesetzes vollständig erfüllt. 2025 wird es weiterhin eine wichtige Priorität sein, Benchmarks für die Einhaltung der Vorschriften zu entwickeln, die die Auslegung der Rechtsvorschriften mit praktischen Bewertungsmethoden in Einklang bringen und gewährleisten, dass Sicherheit und Innovation gemeinsam gedeihen.

OpenAI-Mitbegründer Ilya Sutskever stellte kürzlich fest, dass wir uns dem „Peak Data” nähern: Die Verfügbarkeit hochwertiger Trainingsdatensätze wird immer geringer, was die Industrie zur Generierung synthetischer Daten und zum Inferenzzeitlernen drängt. Diese Fortschritte werden wahrscheinlich den Wachstumspfad der KI in den kommenden Jahren bestimmen – und vom Musterabgleich zu echtem logischen Denken und adaptivem Lernen führen.

In der Zwischenzeit müssen die Unternehmen weiterhin auf Datentransparenz, ethische Praktiken und messbare Kundenvorteile setzen, um die öffentliche Skepsis zu überwinden und die Akzeptanz zu fördern.

Ausblick 2025: Praktische KI in grossem Massstab

Dieses Jahr dürfte erneut überraschen. Es verspricht eine beschleunigte Einführung und praktische Integration von KI in Geschäfts- und Verbraucheranwendungen. Zu den wichtigsten Trends, auf die geachtet werden sollte, gehört Folgendes:

  • Multimodale Modellverbreitung: Ausweitung der Anwendungen in Branchen wie Gesundheitswesen, Logistik und Customer Service.

  • Evolution der agentenbasierten KI: Schnell fortschreitende, hochgradig autonome Modelle, die die Effizienz von Arbeitsabläufen und Problemlösungen steigern.

  • Einführung in Unternehmen: Breitere Implementierung, wobei KI einen immer grösseren Anteil der Routineaufgaben in den Unternehmen übernimmt, die sich früh dafür entscheiden.

  • Kosteneffizienz: Die Inferenzkosten sinken auf unter 10 US-Dollar pro Million Token, wodurch KI zugänglicher und für immer komplexere Probleme besser anwendbar wird.

Die Herausforderung für Unternehmen besteht darin, Innovation und Vertrauen, Automatisierung und Kundenzufriedenheit sowie Compliance und Skalierbarkeit in Einklang zu bringen. Erfolgreich werden diejenigen sein, die diese Spannungen durchdacht meistern und gleichzeitig einen klaren, messbaren Wert liefern – ein Unterfangen, bei dem die strategische Beratung von Spitch und seinem Partner-Ökosystem eine entscheidende Rolle dabei spielt, Unternehmen bei der Anpassung an diese sich schnell verändernde Landschaft zu helfen.

Generative KI ist nicht nur ein Tool – sie ist eine transformative Kraft. 2025 werden Unternehmen, die dieses Potenzial verantwortungsvoll nutzen, die nächste Welle der Zusammenarbeit zwischen Mensch und Maschine anführen.

Publications