Eine Frau auf dem Bild

Seedream 5.0 Lite bringt Echtzeit-Suche in die Bildgenerierung

Das neue KI-Modell kombiniert tiefgehendes Sprachverständnis mit aktuellen Internetdaten für deutlich präzisere Ergebnisse bei komplexen Vorgaben.

Andreas Becker Seedream 5 Lite
Eine Frau auf dem Bild

Der chinesische Technologiekonzern ByteDance hat mit Seedream 5.0 Lite ein neues multimodales Modell zur Bildgenerierung vorgestellt. Die Software verknüpft ein erweitertes semantisches Sprachverständnis mit einer Live-Anbindung an das Internet, um komplexe Textvorgaben präziser in Bilder umzusetzen.

Anzeige

Semantik statt reiner Pixelberechnung

Bisherige Bildgeneratoren scheitern oft an detaillierten Anweisungen mit vielen verschiedenen Variablen. ByteDance implementiert in der neuen Version daher eine erweiterte semantische Verarbeitung, die der Hersteller selbst als tiefgehendes Denken ("Deep Thinking") vermarktet. Das Modell verarbeitet Textbefehle nicht nur auf Basis statischer Trainingsdaten, sondern analysiert die strukturellen Zusammenhänge innerhalb der geforderten Bildkomposition. Laut Datenblatt identifiziert die Software Objekte wie unterschiedliche Pflanzenarten selbstständig, zählt diese und ordnet sie in separaten Bildbereichen exakt an.

Quelle: bytedance
Kitchen Helper Text

Generierung mit aktuellen Netzdaten

Neben dem besseren Textverständnis integriert ByteDance einen direkten Abruf von aktuellen Suchmaschinendaten. Die sogenannte "Real-time Retrieval Augmentation" ermöglicht es dem Modell, während des Erstellungsprozesses unmittelbar auf Informationen aus dem Netz zuzugreifen. Dadurch bildet die Software zeitkritische Ereignisse, kurzlebige Modetrends oder neue Produkte visuell ab, auch wenn diese nicht im ursprünglichen Trainingsdatensatz enthalten waren. In der Praxis muss sich jedoch noch zeigen, wie fehlerfrei das System mit widersprüchlichen oder ungenauen Informationen aus dem Web umgeht.

Quelle: bytedance
Städte Live

Benchmarks dokumentieren Leistungszuwachs

Die vom Hersteller veröffentlichten Radar-Diagramme zeigen messbare Leistungssteigerungen gegenüber der Vorgängerversion 4.5. Bereits dieses ältere Modell belegte in gängigen Ranglisten für die Text-zu-Bild-Generierung und Bildbearbeitung vordere Plätze. Die aktuellen Auswertungen weisen nun über alle Testdisziplinen hinweg einen höheren Gesamtwert (Overall Elo) auf. Besonders deutliche Verbesserungen verzeichnet Seedream 5.0 Lite in den Kategorien Wissensabruf ("Knowledge & Reasoning") und bei der exakten Befehlsumsetzung ("Instruction Response").

Quelle: bytedance

Präzise Steuerung bei der Bildbearbeitung

Auch im Bereich der Bild-zu-Bild-Bearbeitung übertrifft die neue Version die bisherigen Ergebnisse, speziell bei der Aufwertung von Porträts und der Veränderung des Blickwinkels. ByteDance erweitert hierfür die nachträglichen Eingriffsmöglichkeiten für Anwender deutlich. Das Modell erlaubt eine dialogbasierte Bearbeitung über mehrere Stufen hinweg. Nutzer passen dabei spezifische Elemente über Kontrollpinsel nachträglich an, ohne das restliche Bild zu verändern.

Erste externe Tests bescheinigen der Software eine hohe Leistung bei der exakten Umsetzung von strikten Bildvorgaben. Der Markt für KI-gestützte Bilderzeugung bleibt hart umkämpft.

Quelle: bytedance
Bildbearbeitung 1

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.