Design4real VR AR Agentur

VR-Chatbot-Prototyp: Einblick und Entwicklung

Chatbot in Virtual Reality

Gespräche mit der künstlichen Intelligenz

Einführung

In der Welt der Technologie entwickelt sich der Bereich der virtuellen Realität (VR) schnell weiter, wobei nun auch KI-basierte Chatbots in VR-Umgebungen integriert werden. Unser Ansatz bestand darin zu überprüfen, inwiefern es bereits möglich ist, geskriptete Nicht-Spieler-Charaktere, also computergesteuerte Figuren in Spielen, mit künstlicher Intelligenz auszustatten, um sie zu eigenständig handelnden Agenten zu machen. Ziel ist es, dass diese KI-Agenten freie Dialoge mit den Spielern und Spielerinnen führen können. Theoretisch würde dies das Spielerlebnis in der Zukunft wesentlich immersiver und individueller gestalten, da die Charaktere in den Spielen ähnlich wie Schauspieler improvisieren könnten.

Das VR-Showroom-Erlebnis

Unser VR-Chatbot-Prototyp bietet ein Showroom-Erlebnis in der virtuellen Realität, begleitet von zwei virtuellen Moderatoren. Diese sind nicht herkömmliche Chatbots, sondern können umfassend auf Fragen zu VR-Geräten antworten. Der Showroom ist in Bereiche für verschiedene VR-Geräte wie Pico Neo 3, Oculus Rift, Meta Quest und HTC Vive unterteilt.

Der Chatbot reagiert proaktiv auf Benutzeraktionen, etwa wenn sich ein Benutzer einem VR-Gerät nähert. Diese Interaktionen sorgen für ein realistisches Erlebnis. In unserem Beispiel zeigten die beiden Moderatoren deutlich unterschiedliche Charaktereigenschaften. Es war bemerkenswert, dass sowohl der weibliche als auch der männliche Charakter zu extrem langatmigen Antworten neigten, eine Tendenz, die wir kaum unterbinden konnten. Mit mehr  Zeit hätten wir das vermutlich bewältigen können. Besonders faszinierend fand ich, dass die virtuellen Charaktere auf einige Gespräche überraschend und teils ärgerlich reagierten, sodass man das Gefühl bekam, mit einem menschlichen Wesen mit eigenen Launen zu kommunizieren. Die Diskussionen jenseits unseres vorgegebenen Themas VR, bewegten sich allerdings teilweise auf einem recht kindlichen Niveau. Die KI-gesteuerten Charaktere erinnerten mich an zwölfjährige Kinder im Körper eines erwachsenen Avatars, die aus unerklärlichen Gründen über detailliertes Fachwissen zum Thema Virtual Reality verfügten. Die Gespräche wurden besonders amüsant, als ich die Avatare persönliche Fragen stellte. So empfand der weibliche Avatar seine Existenz teilweise als langweilig, während der andere seine als äußerst erfüllend beschrieb.

Wissensdatenbank für ausführliche Antworten

Eine umfangreiche Wissensdatenbank versorgt die Chatbots mit Informationen über VR-Geräte, sodass sie präzise Antworten geben und Vergleiche zwischen verschiedenen Geräten ziehen können. Bezüglich des Fachwissens: Große Sprachmodelle besitzen zwar eine umfangreiche Wissensdatenbank, diese ist jedoch oft nicht auf dem neuesten Stand. In unserem Fall fehlte unserem Chatbot Wissen über die neueste Hardware. Daher mussten wir eine eigene, aktuelle Wissensdatenbank zum Thema Virtual Reality implementieren. So verstand unser Chatbot beispielsweise, dass die Geräte, die früher als Oculus Quest bekannt waren, jetzt Meta Quest heißen. Bevor wir die aktualisierte Datenbank hinterlegt hatten, versuchte der Chatbot, mich zu korrigieren, als ich von der Meta Quest sprach, und ließ sich nicht davon überzeugen, dass der Name geändert wurde.

Intent Recognition für nahtlose Interaktion

Eine Absichtserkennungsfunktion im Chatbot-Prototyp ermöglicht es der KI, auf bestimmte Eingaben oder Ereignisse angemessen zu reagieren, wie z. B. den Wechsel zu einem anderen Moderator oder das Folgen des Benutzers.

Persönlichkeitsanpassung

Die Moderatoren des VR-Chatbots können unterschiedliche Persönlichkeiten und Sprechstile aufweisen, was das Erlebnis personalisiert und authentischer macht. Allerdings ist es schwer an Hand von abstrakten Parametern wirklich den Einfluss auf den das Gemüt des jeweiligen KI Characters abzuschätzen.

Hier mussten wir viel testen, um nicht einen total launischen und unhöflichen oder unerträglich übermotivierten Moderator zu erhalten.

Das Problem der Latenz

Die wesentliche Herausforderung lag darin, die Latenzzeit zwischen der Fragestellung durch den Benutzer und der Antwort unserer Chatbots so gering wie möglich zu halten. Dies ist eine komplexe Aufgabe, da im Hintergrund vielfältige technische Prozesse ablaufen. Zunächst wird die Sprachnachricht des Benutzers, der fragt, aufgezeichnet und bei einer Sprechpause an einen Server mit einem Speech-to-Text-Service gesendet. Der Server wandelt das Gesprochene in Text um, der anschließend an das Sprachmodell weitergeleitet wird. Das Sprachmodell generiert daraufhin eine Antwort, die dann mittels einer Text-to-Speech-Engine in Audiodaten umgewandelt wird. Diese Audiodaten werden zurück an unsere Anwendung gesendet und dort vom Avatar als Antwort wiedergegeben. Jede dieser Phasen muss möglichst schnell durchlaufen werden, um einen glaubwürdigen und flüssigen Gesprächsverlauf zu gewährleisten. Da es noch keine Sprachmodell auf dem Markt gibt was in Deutsch genauso schnell arbeitet wie in Englisch mussten wir die Avatare englisch sprechen lassen. Alle versuche mit Deutsch zogen zu großen Wartezeiten zwischen der Frage und der Antwort unsere KI Chatbots.

 

Welche Tools und Services haben wir getestet

Unity ist der 3D Engine unserer Wahl. Unreal wäre auch eine Option gewesen wir sind allerdings in Unity schneller.

Die Avatare haben wir in Ready Player Me erstellt. Das geht recht schnell, aber die Avatare haben aber alle einen Comic-Look.

Inworld ist ein Unternehmen, das sich auf die Entwicklung von KI-basierten Avataren spezialisiert hat. Das Unternehmen bietet eine Plattform für die Erstellung und Verwaltung von Avataren, die in virtuellen Welten verwendet werden können. Mit Inworld lassen sich Ki Avatare auf recht intuitive Weise erstellen und erfordert kaum Erfahrung im Bereich Programmierung. Praktischerweise lassen sich in Inworld gleich Ready Player Me Avatare integrieren.

TTS steht für “Text-to-Speech” und bezeichnet die Technologie, aus Text Sprache zu generieren.

IBM Watson ist eine KI-Plattform von IBM, die für eine Vielzahl von Anwendungen verwendet werden kann, darunter TTS. Die TTS-Funktion von Watson klingt sehr menschlich und bietet eine Reihe von Einstellungsmöglichkeiten, um die Ausgabe zu personalisieren.

ReadSpeaker ist ein Unternehmen, das sich auf die Entwicklung von TTS-Lösungen spezialisiert hat. Das Unternehmen bietet eine Reihe von TTS-Lösungen für verschiedene Anwendungsbereiche an.

ConvAI ist ein in Deutschland ansässiges Unternehmen, das sich auf die Entwicklung von KI-basierten Chatbots spezialisiert hat. Das Unternehmen bietet eine Reihe von Chatbot-Lösungen für verschiedene Anwendungsbereiche an.

LMNT: Emotive AI ist ein Unternehmen, das sich auf die Entwicklung von KI-basierten Chatbots spezialisiert hat, die Emotionen ausdrücken können.

elevenlabs ist ein Unternehmen, das sich auf die Entwicklung von TTS-Lösungen spezialisiert hat. Das Unternehmen bietet eine Reihe von TTS-Lösungen für verschiedene Anwendungsbereiche an.

KategorieTechnologieMerkmale
STTOpenAI Whisper+ Automatisch multilingual
+ Versteht undeutlich Gesprochenes
+ Sehr akkurat
~ Autokorrektur falscher Flexion
– Keine Audiostreamunterstützung
– Langsam
 ConvAI+ Schnell
+ Unterstützt Audiostreaming
~ Mittelmäßig akkurat bei deutlicher Aussprache
– Verschluckt oft zuletzt gesprochenes Wort
 Inworld+ Schnell
+ Unterstützt Audiostreaming
+ Relativ akkurat
– Nur Englisch
LLMOpenAI ChatGPT+ Sehr akkurat
+ Umfangreiches Wissen
+ Sehr menschliche Antworten
+ Antwortet rollengerecht und mit Emotionen
+ Antwortet auch in Umgangssprache oder Slang
– Inhalt der Antworten lässt sich schwer steuern
– Antwortlänge lässt sich schwer eingrenzen
– Fällt oft aus der Rolle trotz Anweisung dies nicht zu tun
– Clevere Prompts führen zu weitreichenden Abschweifungen
– Variable Geschwindigkeit unabhängig der Promptlänge
– Mit Promptlänge spürbar abnehmende Geschwindigkeit
 ConvAI+ Sehr schnell
+ Sehr gute Einstellungsmöglichkeiten
+ Gleichzeitige Verwendung verschiedener Persönlichkeiten
~ Unterstützt Aktionen (triggert diese aber oft unzuverlässig und wahllos)
– Repetitiv
– Startet deutsche Antworten oft sinnfrei mit “Und,”
 Inworld+ Schnell
+ Sehr gute Einstellungsmöglichkeiten
+ Fällt nicht schnell aus der Rolle
+ Gleichzeitige Verwendung verschiedener Persönlichkeiten
+ Emotionevents
– Nur Englisch
TTSIBM Watson+ Klingt sehr menschlich
+ Einstellungsmöglichkeiten (Pitch/Geschwindigkeit)
~ Intonation ok
~ Phrasierung ok
 ReadSpeaker+ Schnell
– Erkennbar computergeneriert
– Keine Emotion
– Mangelnde Intonation
– Monotoner Rhythmus
– Keine Phrasierung
– Keine Einstellungsmöglichkeiten
 ConvAI+ Schnell
+ Klingt menschlich
– Monoton
– Emotionslos
 LMNT: Emotive AI+ Schnell
– Roboterhaft
– Nur Englisch
 Elevenlabs+ Klingt menschlich
+ Gute Emotion
+ Gute Intonation
+ Natürlicher Rhythmus
+ Phrasierung
+ Viele Einstellungsmöglichkeiten
– Langsam
 Inworld+ Schnell
+ Klingt menschlich
+ Viele Einstellungsmöglichkeiten
– Nur Englisch

Herausforderungen und zukünftige Überlegungen

Trotz vielversprechender Aspekte gibt es Herausforderungen wie die Feinabstimmung der KI und das Risiko unangemessener Antworten. Wir sind bestrebt, diese Technologie weiterzuentwickeln und ein sichereres, interaktiveres VR-Erlebnis zu bieten.

Fazit

Unser VR-Chatbot-Prototyp stellt einen bedeutenden Fortschritt in der Verbindung von VR und KI dar. Wir erkunden weiterhin neue Möglichkeiten und streben danach, das VR-Erlebnis durch fortgeschrittene Chatbots zu verbessern.

Dieser HTML-Code nutzt Überschriften (h1, h2), um die Struktur des Inhalts zu verdeutlichen, und enthält Meta-Tags für SEO-Zwecke, wie Keywords und Beschreibung.

clarence dadson

Lassen Sie sich beraten.

Sie sind interessierst in die Entwicklung einer Virtual Reality oder 360° Anwendung? Sie haben vielleicht noch Fragen zum Budget und Umsetzung.  Melden sie sich gerne bei mir.

Ich freue mich auf Sie

Clarence Dadson CEO Design4real