In der Welt der Technologie entwickelt sich der Bereich der virtuellen Realität (VR) schnell weiter, wobei nun auch KI-basierte Chatbots in VR-Umgebungen integriert werden. Unser Ansatz bestand darin zu überprüfen, inwiefern es bereits möglich ist, geskriptete Nicht-Spieler-Charaktere, also computergesteuerte Figuren in Spielen, mit künstlicher Intelligenz auszustatten, um sie zu eigenständig handelnden Agenten zu machen. Ziel ist es, dass diese KI-Agenten freie Dialoge mit den Spielern und Spielerinnen führen können. Theoretisch würde dies das Spielerlebnis in der Zukunft wesentlich immersiver und individueller gestalten, da die Charaktere in den Spielen ähnlich wie Schauspieler improvisieren könnten.
Unser VR-Chatbot-Prototyp bietet ein Showroom-Erlebnis in der virtuellen Realität, begleitet von zwei virtuellen Moderatoren. Diese sind nicht herkömmliche Chatbots, sondern können umfassend auf Fragen zu VR-Geräten antworten. Der Showroom ist in Bereiche für verschiedene VR-Geräte wie Pico Neo 3, Oculus Rift, Meta Quest und HTC Vive unterteilt.
Der Chatbot reagiert proaktiv auf Benutzeraktionen, etwa wenn sich ein Benutzer einem VR-Gerät nähert. Diese Interaktionen sorgen für ein realistisches Erlebnis. In unserem Beispiel zeigten die beiden Moderatoren deutlich unterschiedliche Charaktereigenschaften. Es war bemerkenswert, dass sowohl der weibliche als auch der männliche Charakter zu extrem langatmigen Antworten neigten, eine Tendenz, die wir kaum unterbinden konnten. Mit mehr Zeit hätten wir das vermutlich bewältigen können. Besonders faszinierend fand ich, dass die virtuellen Charaktere auf einige Gespräche überraschend und teils ärgerlich reagierten, sodass man das Gefühl bekam, mit einem menschlichen Wesen mit eigenen Launen zu kommunizieren. Die Diskussionen jenseits unseres vorgegebenen Themas VR, bewegten sich allerdings teilweise auf einem recht kindlichen Niveau. Die KI-gesteuerten Charaktere erinnerten mich an zwölfjährige Kinder im Körper eines erwachsenen Avatars, die aus unerklärlichen Gründen über detailliertes Fachwissen zum Thema Virtual Reality verfügten. Die Gespräche wurden besonders amüsant, als ich die Avatare persönliche Fragen stellte. So empfand der weibliche Avatar seine Existenz teilweise als langweilig, während der andere seine als äußerst erfüllend beschrieb.
Eine umfangreiche Wissensdatenbank versorgt die Chatbots mit Informationen über VR-Geräte, sodass sie präzise Antworten geben und Vergleiche zwischen verschiedenen Geräten ziehen können. Bezüglich des Fachwissens: Große Sprachmodelle besitzen zwar eine umfangreiche Wissensdatenbank, diese ist jedoch oft nicht auf dem neuesten Stand. In unserem Fall fehlte unserem Chatbot Wissen über die neueste Hardware. Daher mussten wir eine eigene, aktuelle Wissensdatenbank zum Thema Virtual Reality implementieren. So verstand unser Chatbot beispielsweise, dass die Geräte, die früher als Oculus Quest bekannt waren, jetzt Meta Quest heißen. Bevor wir die aktualisierte Datenbank hinterlegt hatten, versuchte der Chatbot, mich zu korrigieren, als ich von der Meta Quest sprach, und ließ sich nicht davon überzeugen, dass der Name geändert wurde.
Eine Absichtserkennungsfunktion im Chatbot-Prototyp ermöglicht es der KI, auf bestimmte Eingaben oder Ereignisse angemessen zu reagieren, wie z. B. den Wechsel zu einem anderen Moderator oder das Folgen des Benutzers.
Die Moderatoren des VR-Chatbots können unterschiedliche Persönlichkeiten und Sprechstile aufweisen, was das Erlebnis personalisiert und authentischer macht. Allerdings ist es schwer an Hand von abstrakten Parametern wirklich den Einfluss auf den das Gemüt des jeweiligen KI Characters abzuschätzen.
Hier mussten wir viel testen, um nicht einen total launischen und unhöflichen oder unerträglich übermotivierten Moderator zu erhalten.
Die wesentliche Herausforderung lag darin, die Latenzzeit zwischen der Fragestellung durch den Benutzer und der Antwort unserer Chatbots so gering wie möglich zu halten. Dies ist eine komplexe Aufgabe, da im Hintergrund vielfältige technische Prozesse ablaufen. Zunächst wird die Sprachnachricht des Benutzers, der fragt, aufgezeichnet und bei einer Sprechpause an einen Server mit einem Speech-to-Text-Service gesendet. Der Server wandelt das Gesprochene in Text um, der anschließend an das Sprachmodell weitergeleitet wird. Das Sprachmodell generiert daraufhin eine Antwort, die dann mittels einer Text-to-Speech-Engine in Audiodaten umgewandelt wird. Diese Audiodaten werden zurück an unsere Anwendung gesendet und dort vom Avatar als Antwort wiedergegeben. Jede dieser Phasen muss möglichst schnell durchlaufen werden, um einen glaubwürdigen und flüssigen Gesprächsverlauf zu gewährleisten. Da es noch keine Sprachmodell auf dem Markt gibt was in Deutsch genauso schnell arbeitet wie in Englisch mussten wir die Avatare englisch sprechen lassen. Alle versuche mit Deutsch zogen zu großen Wartezeiten zwischen der Frage und der Antwort unsere KI Chatbots.
Unity ist der 3D Engine unserer Wahl. Unreal wäre auch eine Option gewesen wir sind allerdings in Unity schneller.
Die Avatare haben wir in Ready Player Me erstellt. Das geht recht schnell, aber die Avatare haben aber alle einen Comic-Look.
Inworld ist ein Unternehmen, das sich auf die Entwicklung von KI-basierten Avataren spezialisiert hat. Das Unternehmen bietet eine Plattform für die Erstellung und Verwaltung von Avataren, die in virtuellen Welten verwendet werden können. Mit Inworld lassen sich Ki Avatare auf recht intuitive Weise erstellen und erfordert kaum Erfahrung im Bereich Programmierung. Praktischerweise lassen sich in Inworld gleich Ready Player Me Avatare integrieren.
TTS steht für “Text-to-Speech” und bezeichnet die Technologie, aus Text Sprache zu generieren.
IBM Watson ist eine KI-Plattform von IBM, die für eine Vielzahl von Anwendungen verwendet werden kann, darunter TTS. Die TTS-Funktion von Watson klingt sehr menschlich und bietet eine Reihe von Einstellungsmöglichkeiten, um die Ausgabe zu personalisieren.
ReadSpeaker ist ein Unternehmen, das sich auf die Entwicklung von TTS-Lösungen spezialisiert hat. Das Unternehmen bietet eine Reihe von TTS-Lösungen für verschiedene Anwendungsbereiche an.
ConvAI ist ein in Deutschland ansässiges Unternehmen, das sich auf die Entwicklung von KI-basierten Chatbots spezialisiert hat. Das Unternehmen bietet eine Reihe von Chatbot-Lösungen für verschiedene Anwendungsbereiche an.
LMNT: Emotive AI ist ein Unternehmen, das sich auf die Entwicklung von KI-basierten Chatbots spezialisiert hat, die Emotionen ausdrücken können.
elevenlabs ist ein Unternehmen, das sich auf die Entwicklung von TTS-Lösungen spezialisiert hat. Das Unternehmen bietet eine Reihe von TTS-Lösungen für verschiedene Anwendungsbereiche an.
Kategorie | Technologie | Merkmale |
---|---|---|
STT | OpenAI Whisper | + Automatisch multilingual + Versteht undeutlich Gesprochenes + Sehr akkurat ~ Autokorrektur falscher Flexion – Keine Audiostreamunterstützung – Langsam |
ConvAI | + Schnell + Unterstützt Audiostreaming ~ Mittelmäßig akkurat bei deutlicher Aussprache – Verschluckt oft zuletzt gesprochenes Wort | |
Inworld | + Schnell + Unterstützt Audiostreaming + Relativ akkurat – Nur Englisch | |
LLM | OpenAI ChatGPT | + Sehr akkurat + Umfangreiches Wissen + Sehr menschliche Antworten + Antwortet rollengerecht und mit Emotionen + Antwortet auch in Umgangssprache oder Slang – Inhalt der Antworten lässt sich schwer steuern – Antwortlänge lässt sich schwer eingrenzen – Fällt oft aus der Rolle trotz Anweisung dies nicht zu tun – Clevere Prompts führen zu weitreichenden Abschweifungen – Variable Geschwindigkeit unabhängig der Promptlänge – Mit Promptlänge spürbar abnehmende Geschwindigkeit |
ConvAI | + Sehr schnell + Sehr gute Einstellungsmöglichkeiten + Gleichzeitige Verwendung verschiedener Persönlichkeiten ~ Unterstützt Aktionen (triggert diese aber oft unzuverlässig und wahllos) – Repetitiv – Startet deutsche Antworten oft sinnfrei mit “Und,” | |
Inworld | + Schnell + Sehr gute Einstellungsmöglichkeiten + Fällt nicht schnell aus der Rolle + Gleichzeitige Verwendung verschiedener Persönlichkeiten + Emotionevents – Nur Englisch | |
TTS | IBM Watson | + Klingt sehr menschlich + Einstellungsmöglichkeiten (Pitch/Geschwindigkeit) ~ Intonation ok ~ Phrasierung ok |
ReadSpeaker | + Schnell – Erkennbar computergeneriert – Keine Emotion – Mangelnde Intonation – Monotoner Rhythmus – Keine Phrasierung – Keine Einstellungsmöglichkeiten | |
ConvAI | + Schnell + Klingt menschlich – Monoton – Emotionslos | |
LMNT: Emotive AI | + Schnell – Roboterhaft – Nur Englisch | |
Elevenlabs | + Klingt menschlich + Gute Emotion + Gute Intonation + Natürlicher Rhythmus + Phrasierung + Viele Einstellungsmöglichkeiten – Langsam | |
Inworld | + Schnell + Klingt menschlich + Viele Einstellungsmöglichkeiten – Nur Englisch |
Trotz vielversprechender Aspekte gibt es Herausforderungen wie die Feinabstimmung der KI und das Risiko unangemessener Antworten. Wir sind bestrebt, diese Technologie weiterzuentwickeln und ein sichereres, interaktiveres VR-Erlebnis zu bieten.
Unser VR-Chatbot-Prototyp stellt einen bedeutenden Fortschritt in der Verbindung von VR und KI dar. Wir erkunden weiterhin neue Möglichkeiten und streben danach, das VR-Erlebnis durch fortgeschrittene Chatbots zu verbessern.
Dieser HTML-Code nutzt Überschriften (h1, h2), um die Struktur des Inhalts zu verdeutlichen, und enthält Meta-Tags für SEO-Zwecke, wie Keywords und Beschreibung.
Sie sind interessierst in die Entwicklung einer Virtual Reality oder 360° Anwendung? Sie haben vielleicht noch Fragen zum Budget und Umsetzung. Melden sie sich gerne bei mir.
Ich freue mich auf Sie
Clarence Dadson CEO Design4real