Von der Skizze zum 3D-Modell in Sekunden: Die neue KI CLAY macht's möglich!

Entdecken Sie, wie CLAY aus einfachen Texten und Bildern beeindruckende 3D-Objekte zaubert und die Spieleentwicklung, Filmindustrie und mehr transformiert.

Zusammenfassung | AI Caramba, 25.07.24

https://sites.google.com/view/clay-3dlm | All-AI.de

Worum geht es?

Ein Forscherteam der Technischen Universität Shanghai hat mit CLAY ein neues KI-Modell entwickelt, das die Erstellung von 3D-Objekten revolutionieren könnte. Die Software generiert aus einfachen Textbeschreibungen oder 2D-Bildern komplexe, dreidimensionale Modelle und übertrifft dabei bisherige Ansätze in Qualität und Vielseitigkeit.

News

Wie funktioniert CLAY?

Das Geheimnis hinter CLAY liegt in der Kombination zweier leistungsstarker KI-Technologien: einem mehrstufigen Variational Autoencoder (VAE) und einem Diffusion Transformer (DiT). Der VAE kodiert 3D-Geometrien in verschiedenen Detailstufen, während der DiT für die eigentliche Generierung der Objekte verantwortlich ist.

Im Gegensatz zu vielen anderen Methoden verarbeitet CLAY 3D-Inhalte nativ, ohne den Umweg über 2D-Repräsentationen gehen zu müssen. Dies ermöglicht eine präzisere und detailliertere Darstellung der Objekte.

Trainiert mit einer halben Million 3D-Modellen

Das KI-Modell wurde mit über 500.000 sorgfältig aufbereiteten 3D-Modellen trainiert. Dazu entwickelten die Forscher eine spezielle Pipeline, die es ermöglichte, Daten aus unterschiedlichen Quellen zu vereinheitlichen und zu nutzen.

Vielfältige Steuerungsmöglichkeiten

CLAY bietet eine Vielzahl von Steuerungsmöglichkeiten. Neben Texten und Bildern können auch grobe Formen oder Begrenzungsboxen vorgegeben werden, um das Endergebnis genauer zu kontrollieren. So lassen sich beispielsweise ganze Stadtszenen aus verstreuten Begrenzungsboxen erzeugen oder detaillierte 3D-Modelle aus Handskizzen rekonstruieren.

Überzeugende Ergebnisse

In direkten Vergleichen übertrifft CLAY bestehende Text-zu-3D- und Bild-zu-3D-Systeme wie Shap-E, DreamFusion oder Wonder3D. Die generierten Geometrien sind konsistenter, weisen glattere Oberflächen und feinere Details auf. Auch bei der Bild-zu-3D-Konvertierung überzeugt CLAY durch eine präzisere Rekonstruktion und bessere Erhaltung komplexer Strukturen.

Ein weiterer Vorteil ist die Geschwindigkeit: Während einige Vergleichssysteme mehrere Stunden für die Optimierung benötigen, erzeugt CLAY hochwertige 3D-Assets in etwa 45 Sekunden.

Vielfältige Anwendungsmöglichkeiten

Die Wissenschaftler sehen vielfältige Einsatzmöglichkeiten für CLAY, etwa in der Spieleentwicklung, der Filmindustrie oder im 3D-Druck. Das System könnte die aufwändige manuelle Erstellung von 3D-Modellen deutlich vereinfachen und beschleunigen.

Ausblick

Obwohl CLAY bereits beeindruckende Ergebnisse liefert, sehen die Forscher noch Verbesserungspotenzial. Sie wollen die Trainingsdaten weiter vergrößern und deren Qualität verbessern. Auch an der Integration von Geometrie- und Materialgenerierung in einem Modell wird gearbeitet.

Das Tool kann über den 3D-Gen-Service Rodin genutzt werden und bietet somit auch Entwicklern und Designern ohne tiefgreifende KI-Kenntnisse die Möglichkeit, hochwertige 3D-Modelle zu erstellen.

Meine Meinung

Die Fähigkeit, komplexe 3D-Objekte aus einfachen Eingaben zu generieren, kann in der Spieleentwicklung extrem wertvoll und werschöpfend sein. Auch andere Bereiche werden profitieren.

Short

CLAY ist ein neues KI-Modell, das detaillierte 3D-Objekte aus Textbeschreibungen und Bildern generiert.
Es übertrifft bisherige Methoden in Qualität, Vielseitigkeit und Geschwindigkeit.
CLAY wurde mit über 500.000 3D-Modellen trainiert und bietet verschiedene Steuerungsmöglichkeiten.
Anwendungsmöglichkeiten gibt es in der Spieleentwicklung, Filmindustrie und im 3D-Druck.
Die Forscher arbeiten an weiteren Verbesserungen und betonen die Notwendigkeit ethischer Richtlinien.