Das ultimative GPT-4o Bilder Tutorial! Teil 1
69 Beispiele, Funktionen, Prompting, Tipps und Tricks. Alles was Du brauchst um vom Anfänger zum Profi zu werden!

GPT4o | All-AI.de
EINLEITUNG
Vergesst alles, was ihr über Midjourney, DALL·E oder Stable Diffusion gelernt habt – mit GPT-4o bringt OpenAI ein Bildmodell an den Start, das nicht nur Bilder erzeugt, sondern sie im Dialog versteht. Die zugrunde liegende Architektur kombiniert Sprache, Bild und Ton zu einer Einheit – und genau das stellt bisherige Konzepte auf den Kopf.
In diesem Tutorial zeigen wir, wie GPT-4o funktioniert, warum sich das Prompting grundlegend verändert und welche neuen kreativen Spielräume dadurch entstehen. Wir werfen einen Blick auf einige beeindruckende Beispiele – und klären am Ende, welche Regeln OpenAI bei der Bildgenerierung vorgibt und worauf Nutzer achten sollten.
KAPITEL
VORAUSSETZUNGEN
Einsteiger bis Profis
5min bis 60min
kostenloses Tutorial
OpenAI Free Account
Keine Hardware nötig
TOOLS
Alles, was wir in diesem Tutorial zeigen, könnt ihr kostenlos nutzen – denn auch die Bildgenerierung mit GPT-4o ist frei verfügbar. Wer allerdings die erweiterte Oberfläche nutzen will, wie sie auf manchen Screenshots zu sehen ist, braucht ein OpenAI-Plus-Abo.
Das bringt zwar etwas mehr Komfort, ist aber nicht zwingend notwendig.
YOUTUBE
KAPITEL 1 - UNTERSCHIEDE
Warum GPT-4o die Spielregeln für Bildgeneratoren verändert
Wer mit GPT-4o ernsthaft Bilder erstellen will, sollte verstehen, was sich im Vergleich zu bisherigen Generatoren verändert hat – und warum genau das für uns so spannend ist. Denn GPT-4o arbeitet grundlegend anders. Das betrifft nicht nur die Technik im Hintergrund, sondern auch, wie wir prompten und welche Möglichkeiten sich daraus ergeben.
GPT-4o ist kein Spezialist, sondern ein Allrounder mit Überblick
Früher waren Bildgeneratoren wie DALL·E 3 externe Tools, die sich auf eine einzige Aufgabe konzentrierten: Bilder erzeugen. Sie hatten wenig Weltverständnis und reagierten oft seltsam, wenn die Prompts zu komplex oder zu undeutlich waren. GPT-4o ist anders. Das Modell nimmt unsere Anweisungen direkt im Chat entgegen, interpretiert sie mit seinem umfassenden Weltwissen – und gibt dann gezielte Instruktionen an seinen internen Bildgenerator weiter.
Vorteil 1: Endlich brauchbare deutsche Prompts
Der erste große Pluspunkt betrifft die Sprache. GPT-4o versteht Deutsch – wirklich. Während frühere Modelle mit deutschen Eingaben oft schwächelten oder nur halbwegs passende Bilder ausspuckten, kommt GPT-4o mit natürlichen deutschen Prompts problemlos klar. Das spart nicht nur Zeit, sondern macht die Arbeit viel intuitiver.
Vorteil 2: Der KI-Kreislauf schließt sich
Noch spannender: GPT-4o kann seine eigenen Bilder lesen. Das System sieht, was es erzeugt hat – und kann darauf aufbauen. Heißt konkret: Wir können ein Bild in mehreren Schritten weiterentwickeln, Feedback geben, Details verändern – und GPT-4o reagiert darauf, als würde es tatsächlich verstehen, was da gerade auf dem Bild zu sehen ist.
Dieser geschlossene Kreislauf – Prompt rein, Bild raus, Bild analysieren, neuen Prompt formulieren – ist genau das, was multimodale KI-Modelle so mächtig macht. GPT-4o ist damit nicht nur Bildgenerator, sondern visuell denkender Assistent.
Ein ganz neuer technischer Ansatz: Autoregressive Bildgenerierung
Die zweite große Veränderung betrifft die technische Basis. Statt auf klassische Diffusionsmodelle zu setzen, verwendet GPT-4o einen autoregressiven Ansatz. Das bedeutet: Das Bild entsteht schrittweise, wie beim Schreiben eines Textes – von links nach rechts, Zeile für Zeile.
Diese Methode bringt einen entscheidenden Vorteil: Kontrolle. Weil das Modell immer weiß, was es vorher gemacht hat, kann es deutlich präziser arbeiten – vor allem bei Text im Bild. Während wir früher oft zig Prompts ausprobieren mussten, bis mal zwei Wörter richtig platziert waren, reichen jetzt wenige, klare Anweisungen.
Mit GPT-4o wird aus Bildgenerierung ein planbarer, dialogischer Prozess – statt einer Blackbox mit Glücksfaktor.
KAPITEL 2 - FUNKTIONEN
(1) Einstieg: Der schnellste Weg zum ersten Bild
Der Start ist denkbar einfach. Im Chat wählt man oben das GPT-4o-Modell aus, klickt auf die drei Punkte im Menü – und aktiviert „Create Image“. Noch schneller geht’s mit einem einfachen Backslash „/“, der direkt Bildfunktionen vorschlägt.
Ab da gilt: ausprobieren! Die Ergebnisse sind verblüffend. Schon beim ersten Versuch entsteht ein Bild, das mit keinem der bisherigen Generatoren vergleichbar ist – in Qualität, Aufbau und Ausdruck.
(2) Bild verändern mit einem Satz
Wie schon im ersten Kapitel erklärt, „versteht“ GPT-4o sein eigenes Bild. Und genau das macht Anpassungen so intuitiv. Wenn zum Beispiel alle Schüler im Bild plötzlich von der Tafel wegschauen – einfach anmerken, neuen Prompt schreiben, fertig. Das Modell reagiert sofort und liefert eine deutlich bessere Variante.
(3) Inpainting: gezielt eingreifen
Jetzt sind wir fast zufrieden – aber ein kleines Detail fehlt noch: ein YouTube-Like-Button oben rechts im Bild. Kein Problem. Mit der Inpainting-Funktion markieren wir einfach den Bereich, den wir verändern wollen. So bleibt der Rest des Bildes unberührt und wir müssen keine langen Beschreibungen mehr schreiben wie „Füge einen Like-Button oben rechts ein“. Stattdessen: markieren, kurz prompten, passt.
(4) Stile ändern – und zwar wie wir wollen
Das Motiv steht, aber der Look soll ein anderer sein? GPT-4o macht’s möglich. Wer etwa im „Ghibli-Stil“ arbeiten will, schreibt das einfach rein – und das bestehende Bild wird stilistisch neu interpretiert. Ob Anime, Simpsons, Herr der Ringe oder Street Fighter – der Fantasie sind keine Grenzen gesetzt.
Mit diesen vier Funktionen – Bilderstellung, Bildanpassung, Inpainting und Stilwechsel – ist der Grundstein gelegt. Selbst wer gerade erst einsteigt, kann mit GPT-4o schon jetzt Bilder erzeugen, die mehr sind als nur KI-Spielerei: Sie sind kreativ, stimmig und extrem wandelbar.
KAPITEL 3 - COOLE TIPPS
Tipp 1: Sora nutzen – mehr Kontrolle, mehr Komfort
Wer bisher direkt im Chat mit GPT-4o promptet, hat schon ein starkes Tool in der Hand. Aber mit der Sora-Oberfläche geht noch mehr. Ein Klick oben auf „Sora“ öffnet ein Interface, das speziell für Bildgenerierung optimiert ist.
Hier lassen sich Bildverhältnisse gezielt auswählen – und Formate wie 3:2, 1:1 oder 2:3 liefern erfahrungsgemäß besonders gute Resultate. Klar, man kann auch im Prompt 16:9 angeben, aber die genannten Formate wirken oft stimmiger. Zudem könnt ihr direkt mehrere Varianten (zwei oder vier) generieren und daraus die beste auswählen.
Besonders praktisch: eigene Presets. Wer häufiger im gleichen Stil arbeitet – etwa für Social-Media-Posts, Marken-Designs oder persönliche Projekte – kann sich mit wenigen Klicks wiederkehrende Vorgaben speichern. Und natürlich gibt’s eine übersichtliche Galerie mit allen bisherigen Bildern und Videos, die man jederzeit weiterbearbeiten oder herunterladen kann.
Tipp 2: Datenschutzeinstellungen nicht vergessen
Standardmäßig erscheinen eure Bilder öffentlich in der Galerie. Wer das nicht möchte, sollte unter „Settings“ die Sichtbarkeit auf privat stellen. Auch das Training mit den eigenen Daten lässt sich hier deaktivieren. Und wenn wir schon dabei sind: Dark Mode ist natürlich auch verfügbar.
Tipp 3: Inspiration ist nur einen Klick entfernt
Gerade am Anfang ist man oft überwältigt – was ist überhaupt möglich? Die Antwort liefert die Sora-Galerie. Millionen Bilder, alle mit GPT-4o generiert – und inklusive der dazugehörigen Prompts.
Gefällt euch ein Bild besonders gut, klickt auf „Edit Prompt“, passt es an und generiert eure eigene Variante. Oder nutzt „Remix“, um das Bild direkt weiterzuentwickeln – etwa im neuen Stil oder mit gezielten Änderungen.
Und dann gibt’s noch den Button „Create a Video“ – was der kann, schauen wir uns im vierten Teil dieser Serie genauer an.
Unser Tipp: Stöbert durch die beliebtesten Bilder mit den meisten Likes. Die Kreativität, die hier sichtbar wird, ist beeindruckend – und Inspiration pur.
Die eigentliche kreative Leistung liegt nicht mehr im Malen oder Coden, sondern darin, eine Idee zu haben – und sie in Worte zu fassen. GPT-4o übernimmt dann den Rest. Ein KI-Fachidiot, der genau das umsetzt, was wir uns vorstellen.
KAPITEL 4 - PROMPTING
Prompting – Klar denken, kreativ schreiben
GPT-4o ist nicht nur anders – es denkt auch anders. Und das hat direkte Auswirkungen auf unser Prompting. Wer gute Ergebnisse will, muss lernen, wie man mit diesem Modell richtig spricht.
Präzision trifft Flexibilität
Grundsätzlich gilt wie bei jedem Bildgenerator: Was wir nicht sagen, kann die KI nur raten. Wer „Hemd“ schreibt, bekommt irgendein Hemd – kein weißes, kein schwarzes, sondern: irgendeines. Aber genau hier beginnt die Stärke von GPT-4o. Denn: Kurze, knackige Prompts funktionieren erstaunlich gut. Gleichzeitig erlaubt das Modell auch extrem lange und detaillierte Prompts – und bleibt dabei präzise. So etwas haben wir in dieser Form bei keinem anderen Bildgenerator erlebt.
Beispiel „kurz & klar“:
Ein Burger in Hochglanzoptik.
Beispiel „lang & präzise“:
Ein Burger in Hochglanzoptik für einen Foodblog, mit Tomaten, viel Edamer Käse, doppelt Beef, schwarzem Bun, serviert auf einem rustikalen Holzbrett.
Andere Generatoren steigen bei der Hälfte aus – GPT-4o zieht durch.
Was GPT-4o besonders macht:
Prompts können frei formuliert sein: Stichworte, Absätze, ganze Sätze – alles geht.
Abschnitte mit Titeln strukturieren den Prompt, ohne die Wirkung zu verlieren.
Das Modell liest und versteht, wie wir es von ChatGPT gewohnt sind – aber setzt es direkt visuell um.
Struktur für Profis – so geht ein klarer Prompt-Aufbau
Wir nutzen eine einfache, logische Form – fast wie ein kreatives Briefing.
Der Trick: Übersicht behalten, Favoriten merken
Mit dieser Struktur vergisst man keine wichtigen Angaben. Wer regelmäßig mit GPT-4o arbeitet, sollte sich eine eigene Prompt-Vorlage anlegen – oder seine Lieblingsoptionen sammeln: Lichtstile, Künstlernamen, Effekte, Perspektiven. Das spart Zeit – und bringt Klarheit.
Und dann: Bild hochladen, Stil übernehmen
Ein Bild sagt mehr als tausend Worte? Bei GPT-4o kann es sogar ein Prompt ersetzen. Einfach ein Bild mit gewünschtem Stil oder Element hochladen – und sagen: „Bitte diesen Stil verwenden“. Besonders hilfreich bei Schriftarten, Texturen oder Illustrationen, die man nicht genau benennen kann.
So kann man sich GPT-4o vorstellen
Prompting bei GPT-4o ist wie ein kreativer Dialog mit einem Designer, der nie müde wird. Wer gelernt hat, sich bildhaft auszudrücken – präzise, strukturiert und experimentierfreudig –, wird mit Bildern belohnt, die oft besser sind als die Realität. Denn alles, was wir uns vorstellen können, ist jetzt umsetzbar.
KAPITEL 5 -BEISPIEL THUMBNAILS
Thumbnails in 5 Minuten
Direkt zum Einstieg ein echter Gamechanger: Thumbnails! Das Vorschaubild, auf das ihr gerade geklickt habt, wurde mit GPT-4o erstellt – in gerade mal fünf Minuten. Und das Beste: Jeder kann das nachmachen.
Schritt 1: Inspiration holen
Scrollt durch YouTube, sucht euch ein Thumbnail, das euch anspricht, und ladet es in GPT-4o hoch. Dieses Bild dient als visuelle Vorlage – nicht zum Kopieren, sondern als kreative Orientierung.
Schritt 2: Eigenes Bild einbinden
Jetzt kommt ihr selbst ins Spiel – im wahrsten Sinne. Ladet ein Foto von euch hoch, das in euer Thumbnail eingebaut werden soll. Ein Klick und die Person ist ausgetauscht.
In unserem Beispiel war außerdem ursprünglich ein Hai im Bild – wir wollten es spannender. Also haben wir den Hai per Prompt gegen einen angreifenden Tintenfisch ausgetauscht.
Schritt 3: Feinschliff für das finale Video
Ganz wichtig, wir wollen nicht klauen, wir wollen die Idee nutzen. Seit kreativ und passt die Szene perfekt an eure Bedürfnisse an. In unserem Fall haben wir abschließend dann noch den Tintenfisch gegen einen mechanischen Tintenfisch ausgetauscht, weil es besser zum Thema KI passt.
KAPITEL 5 -BEISPIEL KLEIDUNG
Kleidung testen mit GPT-4o
Ihr wolltet schon immer wissen, wie euch ein neues Outfit steht, bevor ihr es bestellt? GPT-4o macht’s möglich. Einfach ein Foto von euch hochladen, das gewünschte Kleidungsstück beschreiben – oder direkt ein Bild davon dazupacken – und auf „Generieren“ klicken.
Was dabei rauskommt? Eine ziemlich realistische Vorschau, wie das neue Shirt, die Jacke oder die Sonnenbrille an euch aussieht.
Kleine Einschränkung mit gutem Grund
Dabei fällt auf: Das Gesicht sieht nie exakt gleich aus wie auf dem Originalbild. Vermutlich eine bewusste Begrenzung, um Deepfakes zu verhindern.
Mehr als nur Klamotten
Die Ergebnisse sind trotzdem beeindruckend. Besonders hilfreich: Man kann mit wenigen Klicks verschiedene Styles durchprobieren – und bekommt ein Gefühl dafür, was einem steht.
Und das Beste: Es endet nicht beim Outfit. Wenn der Hintergrund nicht mehr passt, zieht GPT-4o einfach mit. Von der Skihütte über den Strand bis zum Mond – das System setzt euch in jede Umgebung, die zum Look passt.
Ob Badeshorts mit passender Sonnenbrille oder Wintermantel in verschneiter Kulisse – Kleidung testen war noch nie so unterhaltsam und visuell.
KAPITEL 5 -BEISPIEL TIGER RETTEN
Kampagnenplakat für den Tigerschutz
Für unseren dritten Usecase wollen wir etwas Sinnvolles tun – und gestalten ein Plakat zum Schutz von Tigern. Das geht mit GPT-4o schneller als jede PowerPoint-Folie.
Schritt 1: ChatGPT liefert uns auf Knopfdruck die wichtigsten Fakten zum Thema Tigerschutz – kompakt, verständlich und direkt einsetzbar.
Schritt 2: Wir generieren ein starkes Bild eines Tigers – ausdrucksstark, dramatisch oder niedlich, je nach gewünschter Wirkung.
Schritt 3: Dann Text und Bild kombinieren – fertig ist das Plakat. Dauer? Etwa eine Minute.
Und weil es nicht bei einem Plakat bleiben muss
Wir setzen das Motiv noch an eine Mauer in Berlin – digital natürlich. Und weil wir gerade dabei sind, bekommt auch das Auto unserer „Kampagne“ ein passendes Tiger-Design.
Was GPT-4o hier besonders macht
Wir mussten keine 100 Varianten generieren, um ein brauchbares Ergebnis zu bekommen. Meistens passt das Bild direkt. Und wenn doch mal ein kleiner Fehler drin ist – ein Rechtschreibfehler etwa – dann wird der mit der Inpainting-Funktion im Handumdrehen korrigiert.
Tipp zum Schluss
Englische Schriftzüge funktionieren aktuell einen Tick zuverlässiger als deutsche – aber das Niveau ist insgesamt extrem hoch. Und wer noch mehr Ideen braucht: In Teil 2 dieser Serie schauen wir uns weitere beeindruckende Usecases an – und da geht noch richtig was!
KAPITEL 6 - OPENAI REGELN
Was ist erlaubt – und wo sind die Grenzen?
Zum Abschluss noch ein entscheidender Punkt: die Regeln zur Bildgenerierung. Denn mit GPT-4o hat OpenAI die Spielregeln deutlich verändert.
Mehr Freiheiten, aber auch mehr Verantwortung
Während bei DALL·E 3 noch extrem restriktiv gehandelt wurde – Prompts mit Promis, Marken oder bestimmten Stilen führten direkt zum Abbruch –, lässt GPT-4o deutlich mehr durchgehen. Der Kurs erinnert an das, was man von Grok (Twitter) kennt: mehr Spielraum, weniger Blockaden.
Kontext ist alles
Spannend ist das Prinzip, nach dem OpenAI unterscheidet. Verboten ist nicht die Sache an sich – sondern der Zusammenhang. Ein Hakenkreuz zur Erklärung im Geschichtsunterricht? Möglich. Im Kontext von Hass oder Gewalt? Sofort blockiert.
Deshalb gilt: Wenn GPT-4o mal unerwartet aussteigt, hilft oft schon eine kleine Umformulierung des Prompts.
Rechtlich sauber bleiben
Ein Bild generieren heißt nicht automatisch, dass man es auch kommerziell nutzen darf. OpenAI überträgt die rechtliche Verantwortung an die Nutzer. Wer also auf die Idee kommt, das Gesicht einer berühmten Person auf eine Tasse zu drucken und zu verkaufen, sollte sich über Urheber- und Persönlichkeitsrechte im Klaren sein.
Privat ist vieles erlaubt. Kommerziell? Da wird’s schnell heikel. Kurz gesagt: GPT-4o lässt mehr zu – aber die Verantwortung, was man daraus macht, liegt am Ende ganz bei uns.
KAPITEL 7 - FAQ
Häufige Fragen
Immer wieder treten ähnliche Fragen auf zu ChatGPT 4o. Hier haben wir versucht einige wichtige Fragen abzudecken. Sollten weitere Fragen auftreten, gerne einfach unter das Youtube-Video stellen. Wir antworten dort in der Regel innerhalb von 24 Stunden.
Frage 1: Wie starte ich die Bildgenerierung mit GPT-4o?
Frage 2: Ist die Bildgenerierung mit GPT-4o kostenlos nutzbar?
Frage 3: Welche Unterschiede gibt es zur Bildgenerierung mit DALL·E 3?
Frage 4: Kann ich Bilder mit deutschen Prompts erstellen?
Frage 5: Wie detailliert sollten meine Prompts sein?
Frage 6: Kann GPT-4o auch Texte in Bildern korrekt darstellen?
Frage 7: Warum sieht mein Gesicht auf generierten Bildern anders aus?
Frage 8: Wie funktioniert die Inpainting-Funktion bei GPT-4o?
Frage 9: Was ist die Sora-Oberfläche und wie nutze ich sie?
Frage 10: Kann ich mit GPT-4o den Stil eines vorhandenen Bildes übernehmen?
Frage 11: Welche Bildformate und Auflösungen unterstützt GPT-4o?
Frage 12: Gibt es Einschränkungen bei der Nutzung bestimmter Inhalte (z. B. Marken, Prominente)?
Frage 13: Was darf ich mit den erstellten Bildern machen – auch kommerziell?
Frage 14: Wie kann ich ein Bild in mehreren Schritten weiterentwickeln?
Frage 15: Warum werden manche Prompts von GPT-4o abgelehnt?
Frage 16: Welche Stile kann GPT-4o nachbilden (z. B. Cartoon, Realismus, Anime)?
Frage 17: Wie kann ich GPT-4o helfen, realistische Menschen zu generieren?
Frage 18: Kann ich mehrere Bilder gleichzeitig erstellen lassen?
Frage 19: Was bedeutet „autoregressive Bildgenerierung“ bei GPT-4o?
Frage 20: Wie speichere und organisiere ich meine generierten Bilder am besten?
AUSBLICK
Es geht spannend weiter!
Wenn ihr bis hierhin gelesen habt, seid ihr hoffentlich schon mittendrin im Prompten – und habt ein besseres Gefühl dafür, was mit GPT-4o alles möglich ist.
In den nächsten Tagen geht’s hier weiter: Wir zeigen euch noch viele weitere spannende Usecases, vergleichen GPT-4o mit anderen Top-Bildgeneratoren und klären, wo seine Stärken – aber auch seine Schwächen – liegen. Außerdem nehmen wir euch mit auf den nächsten Schritt: Aus Bildern werden Videos.
Wenn euch dieses Tutorial gefallen hat, speichert euch die Seite gerne als Lesezeichen und schaut regelmäßig vorbei. Hier gibt’s täglich frische KI-News, praxisnahe Erklärungen und natürlich regelmäßig neue, kostenlose Tutorials zu den besten Tools da draußen.
UNTERSTÜTZUNG
Dir hat das kostenlose Tutorial gefallen und geholfen? Dann kannst Du uns unterstützen! Empfehle unsere Website, abonniere unseren Youtube-Kanal oder beteilige dich an den Serverkosten über eine kleine Spende per Paypal. Vielen Dank.
KURZFASSUNG
- GPT-4o ermöglicht die einfache Bildgenerierung direkt im Chat – auch mit deutschen Prompts.
- Die Sora-Oberfläche bietet erweiterte Funktionen wie Variantenvergleich, Inpainting und Stilübernahme.
- Die Nutzung ist grundsätzlich kostenlos, erweiterte Features erfordern jedoch ChatGPT-Plus.
- GPT-4o erzeugt hochwertige, stilistisch vielfältige Bilder und kann sogar lesbaren Text integrieren.
- Bei kommerzieller Nutzung liegt die rechtliche Verantwortung für Inhalte beim Nutzer.