Gaussian Splatting trifft auf Generative AI:
Wie 3D-Scanning und Künstliche Intelligenz zusammenspielen

Vorletzte Woche war ich in den Niederlanden, um gemeinsam mit Henry von XGRIDS zwei Workshops zum Thema Gaussian Splatting sowie 3D-Scanning zu geben. Nach den Workshops haben wir uns bewusst einen zusätzlichen Tag Zeit genommen, um in Rotterdam selbst zu scannen. Was daraus entstanden ist, zeigt sehr deutlich, wie sich AI und Gaussian Splatting heute ergänzen

3D-Scanning mit LiDAR: Die Grundlage für Gaussian Splatting

Für das 3D-Scanning in Rotterdam haben wir mit der PortalCam von XGRIDS gearbeitet. Die PortalCam ist eine LiDAR-gestützte Kamera, die speziell für die schnelle volumetrische Erfassung realer Umgebungen entwickelt wurde.

Wichtig ist dabei eine präzise Einordnung:
Die von der PortalCam erzeugte Point Cloud ist nicht als hochpräzises Endprodukt zu verstehen. Sie dient in erster Linie der räumlichen Orientierung und dem Alignment der aufgenommenen Bilddaten.

Die LiDAR-Daten helfen dabei:

Kamerapositionen im Raum stabil zu rekonstruieren
Bildsequenzen geometrisch korrekt auszurichten
Drift in längeren Scans zu minimieren
eine konsistente Basis für die spätere Rekonstruktion zu schaffen

Die eigentliche visuelle Qualität des späteren Gaussian Splats entsteht primär aus den Bildinformationen – nicht aus der geometrischen Präzision der LiDAR-Punkte selbst.

Mit einem Preis von rund 5.000 Euro ist die PortalCam derzeit in ihrer Kategorie bemerkenswert positioniert. Sie kombiniert Echtzeit-Visualisierung, integriertes Tracking und eine für Medienproduktionen geeignete Workflow-Geschwindigkeit in einem mobilen Gerät.

Erhöhte Scanperspektive mit Extension-Pole

Wir haben die PortalCam auf einem langen Extension-Pole montiert. Dadurch konnten wir deutlich höher scannen als aus normaler Augenhöhe möglich wäre.

Das hat entscheidende Vorteile:

Reduktion von Okklusionen durch Passanten oder Fahrzeuge
bessere Erfassung oberer Fassadenbereiche
höhere Wahrscheinlichkeit, Dachkanten und obere Gebäudestrukturen zu erfassen
Konsistentere Ergebnisse bei späterer Betrachtung aus erhöhten virtuellen Perspektiven

Vom Boden aus ist es sehr schwierig, Dachflächen oder obere Fassaden sauber zu erfassen, da der Scanwinkel zu flach ist. Mit erhöhter Kameraposition kann man leicht von oben auf Objekte blicken und dadurch geometrische Lücken reduzieren.

Gerade bei urbanen Szenen ist das relevant. Wenn man den fertigen Gaussian Splat später virtuell aus einer Höhe betrachtet, die über der menschlichen Augenhöhe liegt, zeigen sich unzureichend erfasste Bereiche sofort in Form von Löchern oder verwaschen aussehenden Oberflächen.

Scannen im Zwei-Personen-Workflow

Der gesamte Scan des Straßenzugs dauerte etwa 30 Minuten.

Ich arbeite bei größeren urbanen Scans ungern allein. In Rotterdam war Johannes Müller dabei. Während die PortalCam, der Lidar Scanner von XGRIDS auf dem Extension-Pole geführt wird, hat man keine Hand frei um die XGRIDS-App LCC-Go auf seinem Smartphone im Auge zu haben. Diese zeigt in Realzeit am welche Bereiche der Umgebung durch den Scanner bereits erfasst wurden.

In der App wird die entstehende Point Cloud in Echtzeit visualisiert. So lässt sich erkennen:

welche Bereiche bereits erfasst wurden
wo Daten fehlen
ob es potenzielle Lücken im Scan gibt

Beim Gehen konzentriert man sich auf Bewegung, Stabilität und sichere Kameraführung. Dabei können Bereiche unabsichtlich ausgelassen werden. Diese würden später zu unsauberen oder fehlenden Geometriefragmenten im Gaussian Splat führen.

Die PortalCam auf einem langen Extension-Pole zu führen, ist zudem physisch anspruchsvoll. Aufgrund von Gewicht und Wert des Geräts sollte sie stabil mit beiden Händen gehalten werden. Ein Sturz wäre nicht nur technisch problematisch, sondern auch wirtschaftlich relevant.

Von den Rohdaten zum fertigen Gaussian Splat

Der Scan selbst ist nur der erste Schritt im 3D-Scanning-Workflow. Entscheidend ist die Verarbeitung der Rohdaten zu einem fotorealistischen Gaussian Splat.

Nach Abschluss des Scans werden die aufgezeichneten Daten in LCC Studio von XGRIDS importiert. Das LCC Studio ist speziell darauf ausgelegt, die von der PortalCam erzeugten Bild- und LiDAR-Daten effizient weiterzuverarbeiten.

Der Workflow ist dabei bemerkenswert unkompliziert:

Import der Rohdaten
automatisches Alignment der Kamerapositionen
Optimierung der Bildbeziehungen
Export als Gaussian-Splat-Datensatz

In der Praxis funktioniert das nahezu per Drag-and-Drop. Nach dem Import übernimmt das System die Rekonstruktion weitgehend automatisiert. Innerhalb kurzer Zeit entsteht ein fotorealistischer Gaussian Splat, der direkt im Viewer betrachtet werden kann.

Wichtig ist hier die technische Einordnung:
Die LiDAR-Daten unterstützen primär das Alignment der Bilddaten im Raum. Die visuelle Qualität des fertigen Gaussian Splats basiert auf der Bildinformation. LCC Studio kombiniert beide Informationsquellen zu einem stabilen volumetrischen Modell.

Cloud-Rendering bei großen Datensätzen

Der in Rotterdam erzeugte Datensatz war außergewöhnlich groß, 10 Gigabyte. Urbane Umgebungen mit viel Geometrie, Fassadenstrukturen und Straßenraum erzeugen entsprechend umfangreiche Datenmengen. Die Datenmenge nimmt zu in realtion wie lange man scannt.

Aus diesem Grund habe ich mich entschieden, die Berechnung über die LCC Cloud durchführen zu lassen.

Auf einem lokalen System hätte das Rendering voraussichtlich über 30 Stunden gedauert – je nach GPU-Ausstattung möglicherweise sogar länger. In der Cloud ließ sich die Berechnung deutlich effizienter durchführen und ich musste meinem nicht das Ventilationgeräusch meiner Grafikkarte stundenlang ertragen.

Gerade bei großflächigem 3D-Scanning ist die Cloud-Verarbeitung daher ein sinnvoller Bestandteil des Workflows. Sie reduziert:

lokale Hardwarebelastung
Renderzeiten
Ausfallrisiken
und ermöglicht paralleles Arbeiten an anderen Projekten

Das Ergebnis ist ein hochauflösender Gaussian Splat, der sich in Echtzeit betrachten und weiterverarbeiten lässt.

Bewegte Objekte und Floater: Grenzen der Automatik

Ein zentrales Thema beim 3D-Scanning urbaner Umgebungen ist der Umgang mit bewegten Objekten. Städte sind keine statischen Räume. Fahrzeuge, Fußgänger und Fahrräder verändern während des Scans permanent die Bildinformationen.

Automatische Entfernung bewegter Personen aus dem Scan

Während der Rekonstruktion erkennt die Software von XGRIDS bewegte Elemente und versucht, diese aus dem finalen Gaussian Splat zu entfernen.

Bei Fußgängern funktioniert das in der Praxis zuverlässig. Personen, die sich durch die Szene bewegen, werden korrekt identifiziert und hinterlassen in der Regel keine deutlichen Artefakte im Modell.

Problemfall: kurzzeitig stehende Fahrzeuge

Komplexer wird es bei Objekten, die sich nur zeitweise bewegen. Ein typisches Beispiel sind Autos an einer Ampel.

Wenn ein Fahrzeug während eines Teils des Scans stillsteht, kann es als Bestandteil der statischen Umgebung interpretiert werden. Bewegt es sich anschließend weiter, entstehen sogenannte Floater – halbtransparente, wolkenartige Fragmente im Raum.

Floater entstehen durch widersprüchliche Bildinformationen innerhalb der Rekonstruktion. Teile eines Objekts werden in unterschiedlichen Positionen erfasst, ohne dass der Algorithmus diese eindeutig einer festen Struktur zuordnen kann.

Das Resultat sind diffuse, geisterhafte Geometriefragmente, die scheinbar frei im Raum stehen.

Zur Bereinigung habe ich 3DGS Tools wie SuperSplat und PostShot eingesetzt.

Die betroffenen Bereiche werden müssen manuell selektiert und entfernt. Das kann dauern. Eine verlässliche automatische Floater-Erkennung existiert derzeit noch nicht. Bei großflächigen urbanen Datensätzen gehört diese manuelle Korrektur weiterhin zum regulären Gaussian-Splatting-Workflow.

Das bereinigte Gaussian Splat Ergebnis wirkt unrealistisch

Nach der Bereinigung war des Gaussian Splat Files:

weitestgehend frei von Floatern (ich hätte mich noch Stunden damit aufhalten können.)
geometrisch konsistent

Die Szene ließ sich problemlos aus verschiedenen Perspektiven betrachten und navigieren.

Dennoch zeigte sich ein grundlegendes Problem: Der Stadtraum wirkte ohne Bewegung unrealistisch.

Gerade bei Stadtszenen führt die algorithmische Bereinigung bewegter Objekte zwangsläufig zu einer künstlich leeren Umgebung. Das Modell bildet die bauliche Struktur korrekt ab, nicht jedoch die tatsächliche Nutzung des Raums.

An dieser Stelle endet der klassische 3D-Scanning- und Gaussian-Splatting-Prozess.
Was folgt, ist ein separater gestalterischer Schritt.

KI als nachgelagerter Erweiterungs-Workflow

Die Ergänzung von Personen oder Bewegung ist kein Bestandteil des Gaussian-Splatting-Verfahrens selbst. Sie erfolgt im Anschluss durch die Verarbeitung von gerendertem Bildmaterial des 3D-Modells.

Gaussian Splatting erzeugt ein volumetrisches 3D-Modell.
Die KI arbeitet nicht direkt auf den Punktwolken- oder Splat-Daten, sondern auf dem daraus erzeugten Video.

Im Viewer von XGRIDS kann optional ein neutraler Avatar eingeblendet werden. Standardmäßig handelt es sich um einen schwarz-weißen Roboter mit Branding.

Für einen schnellen Test habe ich folgenden Workflow umgesetzt:

Navigation durch den fertigen Gaussian Splat
Aufnahme einer Kamerafahrt per Screen Capture
Import des Videos in Kling
Austausch des Roboters durch eine realistisch gekleidete Person
Ergänzung zusätzlicher Passanten per Prompt

Die 3D-Daten bleiben dabei unverändert. Die KI modifiziert ausschließlich das gerenderte Videomaterial.

Das Ergebnis ist eine Szene mit sichtbarer menschlicher Aktivität, während die bauliche Struktur vollständig aus dem 3D-Scan stammt.

Lassen Sie sich beraten.

Sie sind interessierst in die Entwicklung einer Virtual Reality oder 360° Anwendung? Sie haben vielleicht noch Fragen zum Budget und Umsetzung. Melden sie sich gerne bei mir.

Ich freue mich auf Sie

Clarence Dadson CEO Design4real