Das ultimative GPT-4o Bilder Tutorial! Teil 1

69 Beispiele, Funktionen, Prompting, Tipps und Tricks. Alles was Du brauchst um vom Anfänger zum Profi zu werden!

Ein Mann schwimmt vor einem mechanischen Tintenfisch weg

GPT4o | All-AI.de

EINLEITUNG

Vergesst alles, was ihr über Midjourney, DALL·E oder Stable Diffusion gelernt habt – mit GPT-4o bringt OpenAI ein Bildmodell an den Start, das nicht nur Bilder erzeugt, sondern sie im Dialog versteht. Die zugrunde liegende Architektur kombiniert Sprache, Bild und Ton zu einer Einheit – und genau das stellt bisherige Konzepte auf den Kopf.

In diesem Tutorial zeigen wir, wie GPT-4o funktioniert, warum sich das Prompting grundlegend verändert und welche neuen kreativen Spielräume dadurch entstehen. Wir werfen einen Blick auf einige beeindruckende Beispiele – und klären am Ende, welche Regeln OpenAI bei der Bildgenerierung vorgibt und worauf Nutzer achten sollten.

KAPITEL

FUNKTIONSWEISE PROMPTING BEISPIELE REGELN AUSBLICK

VORAUSSETZUNGEN

Einsteiger bis Profis

5min bis 60min

kostenloses Tutorial

OpenAI Free Account

Keine Hardware nötig

TOOLS

Alles, was wir in diesem Tutorial zeigen, könnt ihr kostenlos nutzen – denn auch die Bildgenerierung mit GPT-4o ist frei verfügbar. Wer allerdings die erweiterte Oberfläche nutzen will, wie sie auf manchen Screenshots zu sehen ist, braucht ein OpenAI-Plus-Abo.

Das bringt zwar etwas mehr Komfort, ist aber nicht zwingend notwendig.

YOUTUBE

KAPITEL 1 - UNTERSCHIEDE

Warum GPT-4o die Spielregeln für Bildgeneratoren verändert

Wer mit GPT-4o ernsthaft Bilder erstellen will, sollte verstehen, was sich im Vergleich zu bisherigen Generatoren verändert hat – und warum genau das für uns so spannend ist. Denn GPT-4o arbeitet grundlegend anders. Das betrifft nicht nur die Technik im Hintergrund, sondern auch, wie wir prompten und welche Möglichkeiten sich daraus ergeben.

GPT-4o ist kein Spezialist, sondern ein Allrounder mit Überblick

Früher waren Bildgeneratoren wie DALL·E 3 externe Tools, die sich auf eine einzige Aufgabe konzentrierten: Bilder erzeugen. Sie hatten wenig Weltverständnis und reagierten oft seltsam, wenn die Prompts zu komplex oder zu undeutlich waren. GPT-4o ist anders. Das Modell nimmt unsere Anweisungen direkt im Chat entgegen, interpretiert sie mit seinem umfassenden Weltwissen – und gibt dann gezielte Instruktionen an seinen internen Bildgenerator weiter.

Vorteil 1: Endlich brauchbare deutsche Prompts
Der erste große Pluspunkt betrifft die Sprache. GPT-4o versteht Deutsch – wirklich. Während frühere Modelle mit deutschen Eingaben oft schwächelten oder nur halbwegs passende Bilder ausspuckten, kommt GPT-4o mit natürlichen deutschen Prompts problemlos klar. Das spart nicht nur Zeit, sondern macht die Arbeit viel intuitiver.

Ein Affe und ein Bär vor dem Brandenburger Tor

Vorteil 2: Der KI-Kreislauf schließt sich
Noch spannender: GPT-4o kann seine eigenen Bilder lesen. Das System sieht, was es erzeugt hat – und kann darauf aufbauen. Heißt konkret: Wir können ein Bild in mehreren Schritten weiterentwickeln, Feedback geben, Details verändern – und GPT-4o reagiert darauf, als würde es tatsächlich verstehen, was da gerade auf dem Bild zu sehen ist.

Dieser geschlossene Kreislauf – Prompt rein, Bild raus, Bild analysieren, neuen Prompt formulieren – ist genau das, was multimodale KI-Modelle so mächtig macht. GPT-4o ist damit nicht nur Bildgenerator, sondern visuell denkender Assistent.

Ein ganz neuer technischer Ansatz: Autoregressive Bildgenerierung

Die zweite große Veränderung betrifft die technische Basis. Statt auf klassische Diffusionsmodelle zu setzen, verwendet GPT-4o einen autoregressiven Ansatz. Das bedeutet: Das Bild entsteht schrittweise, wie beim Schreiben eines Textes – von links nach rechts, Zeile für Zeile.

Diese Methode bringt einen entscheidenden Vorteil: Kontrolle. Weil das Modell immer weiß, was es vorher gemacht hat, kann es deutlich präziser arbeiten – vor allem bei Text im Bild. Während wir früher oft zig Prompts ausprobieren mussten, bis mal zwei Wörter richtig platziert waren, reichen jetzt wenige, klare Anweisungen.

Mit GPT-4o wird aus Bildgenerierung ein planbarer, dialogischer Prozess – statt einer Blackbox mit Glücksfaktor.

ANZEIGE - Higgsfield ausprobieren

KAPITEL 2 - FUNKTIONEN

(1) Einstieg: Der schnellste Weg zum ersten Bild

Der Start ist denkbar einfach. Im Chat wählt man oben das GPT-4o-Modell aus, klickt auf die drei Punkte im Menü – und aktiviert „Create Image“. Noch schneller geht’s mit einem einfachen Backslash „/“, der direkt Bildfunktionen vorschlägt.

Ab da gilt: ausprobieren! Die Ergebnisse sind verblüffend. Schon beim ersten Versuch entsteht ein Bild, das mit keinem der bisherigen Generatoren vergleichbar ist – in Qualität, Aufbau und Ausdruck.

(2) Bild verändern mit einem Satz

Wie schon im ersten Kapitel erklärt, „versteht“ GPT-4o sein eigenes Bild. Und genau das macht Anpassungen so intuitiv. Wenn zum Beispiel alle Schüler im Bild plötzlich von der Tafel wegschauen – einfach anmerken, neuen Prompt schreiben, fertig. Das Modell reagiert sofort und liefert eine deutlich bessere Variante.

(3) Inpainting: gezielt eingreifen

Jetzt sind wir fast zufrieden – aber ein kleines Detail fehlt noch: ein YouTube-Like-Button oben rechts im Bild. Kein Problem. Mit der Inpainting-Funktion markieren wir einfach den Bereich, den wir verändern wollen. So bleibt der Rest des Bildes unberührt und wir müssen keine langen Beschreibungen mehr schreiben wie „Füge einen Like-Button oben rechts ein“. Stattdessen: markieren, kurz prompten, passt.

(4) Stile ändern – und zwar wie wir wollen

Das Motiv steht, aber der Look soll ein anderer sein? GPT-4o macht’s möglich. Wer etwa im „Ghibli-Stil“ arbeiten will, schreibt das einfach rein – und das bestehende Bild wird stilistisch neu interpretiert. Ob Anime, Simpsons, Herr der Ringe oder Street Fighter – der Fantasie sind keine Grenzen gesetzt.

Mit diesen vier Funktionen – Bilderstellung, Bildanpassung, Inpainting und Stilwechsel – ist der Grundstein gelegt. Selbst wer gerade erst einsteigt, kann mit GPT-4o schon jetzt Bilder erzeugen, die mehr sind als nur KI-Spielerei: Sie sind kreativ, stimmig und extrem wandelbar.

KAPITEL 3 - COOLE TIPPS

Tipp 1: Sora nutzen – mehr Kontrolle, mehr Komfort

Wer bisher direkt im Chat mit GPT-4o promptet, hat schon ein starkes Tool in der Hand. Aber mit der Sora-Oberfläche geht noch mehr. Ein Klick oben auf „Sora“ öffnet ein Interface, das speziell für Bildgenerierung optimiert ist.

Hier lassen sich Bildverhältnisse gezielt auswählen – und Formate wie 3:2, 1:1 oder 2:3 liefern erfahrungsgemäß besonders gute Resultate. Klar, man kann auch im Prompt 16:9 angeben, aber die genannten Formate wirken oft stimmiger. Zudem könnt ihr direkt mehrere Varianten (zwei oder vier) generieren und daraus die beste auswählen.

Besonders praktisch: eigene Presets. Wer häufiger im gleichen Stil arbeitet – etwa für Social-Media-Posts, Marken-Designs oder persönliche Projekte – kann sich mit wenigen Klicks wiederkehrende Vorgaben speichern. Und natürlich gibt’s eine übersichtliche Galerie mit allen bisherigen Bildern und Videos, die man jederzeit weiterbearbeiten oder herunterladen kann.

Tipp 2: Datenschutzeinstellungen nicht vergessen

Standardmäßig erscheinen eure Bilder öffentlich in der Galerie. Wer das nicht möchte, sollte unter „Settings“ die Sichtbarkeit auf privat stellen. Auch das Training mit den eigenen Daten lässt sich hier deaktivieren. Und wenn wir schon dabei sind: Dark Mode ist natürlich auch verfügbar.

Tipp 3: Inspiration ist nur einen Klick entfernt

Gerade am Anfang ist man oft überwältigt – was ist überhaupt möglich? Die Antwort liefert die Sora-Galerie. Millionen Bilder, alle mit GPT-4o generiert – und inklusive der dazugehörigen Prompts.

Gefällt euch ein Bild besonders gut, klickt auf „Edit Prompt“, passt es an und generiert eure eigene Variante. Oder nutzt „Remix“, um das Bild direkt weiterzuentwickeln – etwa im neuen Stil oder mit gezielten Änderungen.

Und dann gibt’s noch den Button „Create a Video“ – was der kann, schauen wir uns im vierten Teil dieser Serie genauer an.

Unser Tipp: Stöbert durch die beliebtesten Bilder mit den meisten Likes. Die Kreativität, die hier sichtbar wird, ist beeindruckend – und Inspiration pur.

Die eigentliche kreative Leistung liegt nicht mehr im Malen oder Coden, sondern darin, eine Idee zu haben – und sie in Worte zu fassen. GPT-4o übernimmt dann den Rest. Ein KI-Fachidiot, der genau das umsetzt, was wir uns vorstellen.

KAPITEL 4 - PROMPTING

Prompting – Klar denken, kreativ schreiben

GPT-4o ist nicht nur anders – es denkt auch anders. Und das hat direkte Auswirkungen auf unser Prompting. Wer gute Ergebnisse will, muss lernen, wie man mit diesem Modell richtig spricht.

Präzision trifft Flexibilität

Grundsätzlich gilt wie bei jedem Bildgenerator: Was wir nicht sagen, kann die KI nur raten. Wer „Hemd“ schreibt, bekommt irgendein Hemd – kein weißes, kein schwarzes, sondern: irgendeines. Aber genau hier beginnt die Stärke von GPT-4o. Denn: Kurze, knackige Prompts funktionieren erstaunlich gut. Gleichzeitig erlaubt das Modell auch extrem lange und detaillierte Prompts – und bleibt dabei präzise. So etwas haben wir in dieser Form bei keinem anderen Bildgenerator erlebt.

Beispiel „kurz & klar“:
Ein Burger in Hochglanzoptik.

Beispiel „lang & präzise“:
Ein Burger in Hochglanzoptik für einen Foodblog, mit Tomaten, viel Edamer Käse, doppelt Beef, schwarzem Bun, serviert auf einem rustikalen Holzbrett.

Andere Generatoren steigen bei der Hälfte aus – GPT-4o zieht durch.

Was GPT-4o besonders macht:

Prompts können frei formuliert sein: Stichworte, Absätze, ganze Sätze – alles geht.
Abschnitte mit Titeln strukturieren den Prompt, ohne die Wirkung zu verlieren.
Das Modell liest und versteht, wie wir es von ChatGPT gewohnt sind – aber setzt es direkt visuell um.

Struktur für Profis – so geht ein klarer Prompt-Aufbau

Wir nutzen eine einfache, logische Form – fast wie ein kreatives Briefing.

Der Trick: Übersicht behalten, Favoriten merken

Mit dieser Struktur vergisst man keine wichtigen Angaben. Wer regelmäßig mit GPT-4o arbeitet, sollte sich eine eigene Prompt-Vorlage anlegen – oder seine Lieblingsoptionen sammeln: Lichtstile, Künstlernamen, Effekte, Perspektiven. Das spart Zeit – und bringt Klarheit.

Und dann: Bild hochladen, Stil übernehmen

Ein Bild sagt mehr als tausend Worte? Bei GPT-4o kann es sogar ein Prompt ersetzen. Einfach ein Bild mit gewünschtem Stil oder Element hochladen – und sagen: „Bitte diesen Stil verwenden“. Besonders hilfreich bei Schriftarten, Texturen oder Illustrationen, die man nicht genau benennen kann.

So kann man sich GPT-4o vorstellen

Prompting bei GPT-4o ist wie ein kreativer Dialog mit einem Designer, der nie müde wird. Wer gelernt hat, sich bildhaft auszudrücken – präzise, strukturiert und experimentierfreudig –, wird mit Bildern belohnt, die oft besser sind als die Realität. Denn alles, was wir uns vorstellen können, ist jetzt umsetzbar.

KAPITEL 5 -BEISPIEL THUMBNAILS

Thumbnails in 5 Minuten

Direkt zum Einstieg ein echter Gamechanger: Thumbnails! Das Vorschaubild, auf das ihr gerade geklickt habt, wurde mit GPT-4o erstellt – in gerade mal fünf Minuten. Und das Beste: Jeder kann das nachmachen.

Schritt 1: Inspiration holen

Scrollt durch YouTube, sucht euch ein Thumbnail, das euch anspricht, und ladet es in GPT-4o hoch. Dieses Bild dient als visuelle Vorlage – nicht zum Kopieren, sondern als kreative Orientierung.

Schritt 2: Eigenes Bild einbinden

Jetzt kommt ihr selbst ins Spiel – im wahrsten Sinne. Ladet ein Foto von euch hoch, das in euer Thumbnail eingebaut werden soll. Ein Klick und die Person ist ausgetauscht.

In unserem Beispiel war außerdem ursprünglich ein Hai im Bild – wir wollten es spannender. Also haben wir den Hai per Prompt gegen einen angreifenden Tintenfisch ausgetauscht.

Schritt 3: Feinschliff für das finale Video

Ganz wichtig, wir wollen nicht klauen, wir wollen die Idee nutzen. Seit kreativ und passt die Szene perfekt an eure Bedürfnisse an. In unserem Fall haben wir abschließend dann noch den Tintenfisch gegen einen mechanischen Tintenfisch ausgetauscht, weil es besser zum Thema KI passt.

KAPITEL 5 -BEISPIEL KLEIDUNG

Kleidung testen mit GPT-4o

Ihr wolltet schon immer wissen, wie euch ein neues Outfit steht, bevor ihr es bestellt? GPT-4o macht’s möglich. Einfach ein Foto von euch hochladen, das gewünschte Kleidungsstück beschreiben – oder direkt ein Bild davon dazupacken – und auf „Generieren“ klicken.

Was dabei rauskommt? Eine ziemlich realistische Vorschau, wie das neue Shirt, die Jacke oder die Sonnenbrille an euch aussieht.

Kleine Einschränkung mit gutem Grund

Dabei fällt auf: Das Gesicht sieht nie exakt gleich aus wie auf dem Originalbild. Vermutlich eine bewusste Begrenzung, um Deepfakes zu verhindern.

Mehr als nur Klamotten

Die Ergebnisse sind trotzdem beeindruckend. Besonders hilfreich: Man kann mit wenigen Klicks verschiedene Styles durchprobieren – und bekommt ein Gefühl dafür, was einem steht.

Und das Beste: Es endet nicht beim Outfit. Wenn der Hintergrund nicht mehr passt, zieht GPT-4o einfach mit. Von der Skihütte über den Strand bis zum Mond – das System setzt euch in jede Umgebung, die zum Look passt.

Ob Badeshorts mit passender Sonnenbrille oder Wintermantel in verschneiter Kulisse – Kleidung testen war noch nie so unterhaltsam und visuell.

KAPITEL 5 -BEISPIEL TIGER RETTEN

Kampagnenplakat für den Tigerschutz

Für unseren dritten Usecase wollen wir etwas Sinnvolles tun – und gestalten ein Plakat zum Schutz von Tigern. Das geht mit GPT-4o schneller als jede PowerPoint-Folie.

Schritt 1: ChatGPT liefert uns auf Knopfdruck die wichtigsten Fakten zum Thema Tigerschutz – kompakt, verständlich und direkt einsetzbar.

Schritt 2: Wir generieren ein starkes Bild eines Tigers – ausdrucksstark, dramatisch oder niedlich, je nach gewünschter Wirkung.

Schritt 3: Dann Text und Bild kombinieren – fertig ist das Plakat. Dauer? Etwa eine Minute.

Und weil es nicht bei einem Plakat bleiben muss

Wir setzen das Motiv noch an eine Mauer in Berlin – digital natürlich. Und weil wir gerade dabei sind, bekommt auch das Auto unserer „Kampagne“ ein passendes Tiger-Design.

Beschreibung / Quelle: -

Was GPT-4o hier besonders macht

Wir mussten keine 100 Varianten generieren, um ein brauchbares Ergebnis zu bekommen. Meistens passt das Bild direkt. Und wenn doch mal ein kleiner Fehler drin ist – ein Rechtschreibfehler etwa – dann wird der mit der Inpainting-Funktion im Handumdrehen korrigiert.

Tipp zum Schluss

Englische Schriftzüge funktionieren aktuell einen Tick zuverlässiger als deutsche – aber das Niveau ist insgesamt extrem hoch. Und wer noch mehr Ideen braucht: In Teil 2 dieser Serie schauen wir uns weitere beeindruckende Usecases an – und da geht noch richtig was!

KAPITEL 6 - OPENAI REGELN

Was ist erlaubt – und wo sind die Grenzen?

Zum Abschluss noch ein entscheidender Punkt: die Regeln zur Bildgenerierung. Denn mit GPT-4o hat OpenAI die Spielregeln deutlich verändert.

Mehr Freiheiten, aber auch mehr Verantwortung

Während bei DALL·E 3 noch extrem restriktiv gehandelt wurde – Prompts mit Promis, Marken oder bestimmten Stilen führten direkt zum Abbruch –, lässt GPT-4o deutlich mehr durchgehen. Der Kurs erinnert an das, was man von Grok (Twitter) kennt: mehr Spielraum, weniger Blockaden.

Kontext ist alles

Spannend ist das Prinzip, nach dem OpenAI unterscheidet. Verboten ist nicht die Sache an sich – sondern der Zusammenhang. Ein Hakenkreuz zur Erklärung im Geschichtsunterricht? Möglich. Im Kontext von Hass oder Gewalt? Sofort blockiert.

Deshalb gilt: Wenn GPT-4o mal unerwartet aussteigt, hilft oft schon eine kleine Umformulierung des Prompts.

Rechtlich sauber bleiben

Ein Bild generieren heißt nicht automatisch, dass man es auch kommerziell nutzen darf. OpenAI überträgt die rechtliche Verantwortung an die Nutzer. Wer also auf die Idee kommt, das Gesicht einer berühmten Person auf eine Tasse zu drucken und zu verkaufen, sollte sich über Urheber- und Persönlichkeitsrechte im Klaren sein.

Privat ist vieles erlaubt. Kommerziell? Da wird’s schnell heikel. Kurz gesagt: GPT-4o lässt mehr zu – aber die Verantwortung, was man daraus macht, liegt am Ende ganz bei uns.

KAPITEL 7 - FAQ

Häufige Fragen

Immer wieder treten ähnliche Fragen auf zu ChatGPT 4o. Hier haben wir versucht einige wichtige Fragen abzudecken. Sollten weitere Fragen auftreten, gerne einfach unter das Youtube-Video stellen. Wir antworten dort in der Regel innerhalb von 24 Stunden.

Frage 1: Wie starte ich die Bildgenerierung mit GPT-4o?

Einfach GPT-4o als Modell im Chat auswählen und auf die drei Punkte im Interface klicken. Dort findet sich die Option „Create Image“. Noch schneller geht’s mit einem Backslash „/“, der passende Befehle vorschlägt.

Frage 2: Ist die Bildgenerierung mit GPT-4o kostenlos nutzbar?

Ja, die grundlegende Bildgenerierung ist kostenlos. Für erweiterte Features wie die Sora-Oberfläche oder Prioritätszugang wird jedoch ein ChatGPT-Plus-Abo benötigt.

Frage 3: Welche Unterschiede gibt es zur Bildgenerierung mit DALL·E 3?

GPT-4o integriert die Bildgenerierung direkt in den multimodalen Chat, während DALL·E 3 ein eigenständiger Generator war. GPT-4o versteht Kontext besser, unterstützt Dialoge und liefert visuell präzisere Ergebnisse – insbesondere bei deutschen Prompts und komplexen Szenen.

Frage 4: Kann ich Bilder mit deutschen Prompts erstellen?

Ja, und das funktioniert erstaunlich gut. GPT-4o versteht natürliche Sprache auf Deutsch zuverlässig und setzt sie präzise um – anders als viele Vorgängermodelle.

Frage 5: Wie detailliert sollten meine Prompts sein?

Je detaillierter, desto besser. GPT-4o kommt mit kurzen, aber auch sehr langen Prompts klar. Strukturierte Angaben zu Szene, Personen, Stil, Licht, Farbe und Effekten helfen bei der gezielten Bildgestaltung.

Frage 6: Kann GPT-4o auch Texte in Bildern korrekt darstellen?

Ja – deutlich besser als frühere Modelle. Auch längere Textzeilen lassen sich generieren. Für optimale Ergebnisse empfiehlt sich die Eingabe strukturierter Text-Prompts, idealerweise auf Englisch (deutsch funktioniert aber ebenfalls gut).

Frage 7: Warum sieht mein Gesicht auf generierten Bildern anders aus?

Das liegt an eingebauten Sicherheitsmechanismen, die Deepfakes verhindern sollen. GPT-4o verändert Gesichter gezielt leicht – besonders bei hochgeladenen Porträts.

Frage 8: Wie funktioniert die Inpainting-Funktion bei GPT-4o?

Mit Inpainting lassen sich gezielt Bildbereiche markieren, um sie zu verändern oder zu ergänzen – ohne das restliche Bild zu beeinflussen. Ideal für Korrekturen, Anpassungen oder Ergänzungen wie Logos, Schriftzüge oder neue Objekte.

Frage 9: Was ist die Sora-Oberfläche und wie nutze ich sie?

Die Sora-Oberfläche ist ein erweitertes Interface für die Bild- und Videogenerierung mit GPT-4o. Sie bietet mehr Optionen: Bildverhältnisse, Variantenvergleich, eigene Presets, Galerieübersicht und einfache Weiterbearbeitung. Aufrufbar über das Menü im Chatfenster.

Frage 10: Kann ich mit GPT-4o den Stil eines vorhandenen Bildes übernehmen?

Ja. Lade ein Bild hoch und gib im Prompt an, dass GPT-4o diesen Stil übernehmen soll. Das funktioniert besonders gut für Farben, Texturen, Illustrationsarten oder Schriftstile – auch ohne genaue Stilbezeichnung.

Frage 11: Welche Bildformate und Auflösungen unterstützt GPT-4o?

GPT-4o generiert Bilder standardmäßig in quadratischem Format (z. B. 1024×1024 px), kann aber über die Sora-Oberfläche auch andere Seitenverhältnisse wie 3:2 oder 2:3 erzeugen. Das genaue Dateiformat ist PNG oder JPEG – abhängig von der Plattform, auf der man die Bilder speichert oder teilt.

Frage 12: Gibt es Einschränkungen bei der Nutzung bestimmter Inhalte (z. B. Marken, Prominente)?

Ja. GPT-4o erlaubt deutlich mehr als frühere Modelle, aber Inhalte mit Prominenten, Markenlogos oder geschützten Designs können problematisch sein – vor allem im kommerziellen Kontext. In vielen Fällen blockiert das Modell solche Prompts direkt oder verändert die Darstellung leicht.

Frage 13: Was darf ich mit den erstellten Bildern machen – auch kommerziell?

OpenAI erlaubt die kommerzielle Nutzung grundsätzlich, schiebt die rechtliche Verantwortung aber auf den Nutzer. Wer also Bilder mit realen Personen, Marken oder urheberrechtlich geschützten Elementen kommerziell nutzen will, sollte sich über mögliche Rechtsverstöße im Klaren sein.

Frage 14: Wie kann ich ein Bild in mehreren Schritten weiterentwickeln?

GPT-4o ermöglicht iterative Bildbearbeitung. Man kann auf ein bestehendes Bild Bezug nehmen, Feedback geben oder gezielte Änderungen anfordern. Durch Inpainting und Bildanalyse im Chat lässt sich ein Bild in mehreren Runden weiterentwickeln – mit visuellem Gedächtnis.

Frage 15: Warum werden manche Prompts von GPT-4o abgelehnt?

Häufige Gründe sind sensible Inhalte, bestimmte politische oder gewalttätige Kontexte oder potenzielle Urheberrechtsverletzungen. Das Modell blockiert nicht Begriffe pauschal, sondern bewertet den Zusammenhang. Umformulieren hilft oft weiter.

Frage 16: Welche Stile kann GPT-4o nachbilden (z. B. Cartoon, Realismus, Anime)?

GPT-4o ist extrem flexibel: Ob Anime, Realismus, Cartoon, 3D, Ghibli-Stil oder klassische Malerei – fast alles ist möglich. Stile können als freie Beschreibung oder durch Vorlagen (Bilder) übernommen werden.

Frage 17: Wie kann ich GPT-4o helfen, realistische Menschen zu generieren?

Am besten durch ein klares, hochgeladenes Referenzbild. Zusätzlich sollten Details zur Person (Haare, Kleidung, Pose) im Prompt angegeben werden. Komplett fotorealistische Gesichter sind aus Sicherheitsgründen oft leicht verfremdet.

Frage 18: Kann ich mehrere Bilder gleichzeitig erstellen lassen?

Ja – über die Sora-Oberfläche lassen sich direkt zwei oder vier Varianten gleichzeitig generieren. So kann man schneller vergleichen und gezielter weiterarbeiten.

Frage 19: Was bedeutet „autoregressive Bildgenerierung“ bei GPT-4o?

Statt ein Bild durch Zufallsschritte (wie bei Diffusionsmodellen) zu erzeugen, erstellt GPT-4o Bilder Zeile für Zeile, von links nach rechts – ähnlich wie beim Schreiben von Text. Dadurch entstehen konsistentere Ergebnisse und bessere Kontrolle, vor allem bei Text im Bild.

Frage 20: Wie speichere und organisiere ich meine generierten Bilder am besten?

In der Sora-Oberfläche werden alle Bilder automatisch gespeichert. Sie lassen sich dort sortieren, erneut bearbeiten oder herunterladen. Für größere Projekte empfiehlt sich eine strukturierte Ordnerablage lokal oder in der Cloud – idealerweise mit zugehörigem Prompt als Notiz.

AUSBLICK

Es geht spannend weiter!

Wenn ihr bis hierhin gelesen habt, seid ihr hoffentlich schon mittendrin im Prompten – und habt ein besseres Gefühl dafür, was mit GPT-4o alles möglich ist.

In den nächsten Tagen geht’s hier weiter: Wir zeigen euch noch viele weitere spannende Usecases, vergleichen GPT-4o mit anderen Top-Bildgeneratoren und klären, wo seine Stärken – aber auch seine Schwächen – liegen. Außerdem nehmen wir euch mit auf den nächsten Schritt: Aus Bildern werden Videos.

Wenn euch dieses Tutorial gefallen hat, speichert euch die Seite gerne als Lesezeichen und schaut regelmäßig vorbei. Hier gibt’s täglich frische KI-News, praxisnahe Erklärungen und natürlich regelmäßig neue, kostenlose Tutorials zu den besten Tools da draußen.

KURZFASSUNG

GPT-4o ermöglicht die einfache Bildgenerierung direkt im Chat – auch mit deutschen Prompts.
Die Sora-Oberfläche bietet erweiterte Funktionen wie Variantenvergleich, Inpainting und Stilübernahme.
Die Nutzung ist grundsätzlich kostenlos, erweiterte Features erfordern jedoch ChatGPT-Plus.
GPT-4o erzeugt hochwertige, stilistisch vielfältige Bilder und kann sogar lesbaren Text integrieren.
Bei kommerzieller Nutzung liegt die rechtliche Verantwortung für Inhalte beim Nutzer.