Deutsche KI "FLUX" im Test
Vergleich der Flux Varianten (Schnell, Dev, Pro) mit Midjourney 6.1. 4x Workflows, Lizenz-Bedingungen, Hardware Anforderungen, Tipps. Ein komplettes Tutorial zum Start!
Flux Pro | All-AI.de
Worum geht es?
Endlich haben wir mit Flux von Black Forest Lab eine KI auf höchstem Niveau. Hier gibt es nun ein komplettes Tutorial, wie man alle Modelle benutzt. Neben Schnell, Dev und Pro haben wir uns auch die 8 Bit Varianten angeschaut, die mit 12GB VRAM schnell laufen. Für alle Varianten gibt es Workflows mit deutschen Anmerkungen. Außerdem gehen wir auf die Lizenzbedingungen und Hardwarevoraussetzungen ein und geben Tipps.
Aber erstmal starten wir mit vielen Bildern und einem Vergleich zwischen Schnell, Dev und Pro. Die Pro Variante haben wir dann mit der aktuellen Nummer 1, Midjourney 6.1, verglichen.
Test
Bilder mit Flux Schnell, Dev und Pro:
A hyper-realistic oil painting of a bustling medieval market square, teeming with life. Weathered cobblestones reflect afternoon light. Merchants' faces show determination and fatigue. Intricately embroidered clothing in rich earth tones. Vibrant displays of spices, textiles, and fresh produce. Distant church spires loom.
A fantastical underwater realm where iridescent coral forests pulsate with ethereal light, illuminating ancient Atlantean ruins. Translucent jellyfish-unicorns drift gracefully among towering kelp spires. Merfolk guardians, adorned with bioluminescent scales, patrol the dreamlike seascape. Shimmering bubbles carry whispers of long-lost magic.
A surreal anime dreamscape where gravity defies logic. Iridescent bubbles merge with cherry blossoms, floating upwards. Koi fish swim through air, their scales shimmering. Torii gates twist and stretch, framing a melting moon. Vibrant watercolor palette. Soft, ethereal lighting. Studio Ghibli-inspired whimsy.
A satirical illustration of a group of people blindly following their smartphones as they head towards a cliff.
Meine Beobachtungen
Ich bin völlig überrascht vom Flux-Schnell-Modell. In wenigen Sekunden erhält man auf Anhieb sehr gute Ergebnisse.
Man sieht aber auch, dass sich das Dev Model und das Pro Model etwas absetzen können. Interessant ist auch, wie sich das Dev Model (lokal) und das Pro Model (Server) von den Bildern her ähneln.
Das Schnell Model unterscheidet sich rein vom Motiv dann doch schon immer. Daher kann man auch zum Schluss kommen, dass das Dev Model wirklich nur eine leicht abgewandelte Form vom Pro Model ist.
Vergleich von Flux Schnell 8 Bit vs. Flux Schnell 16 Bit
A hyper-realistic portrait of a charismatic individual with piercing emerald eyes and a Mona Lisa-like enigmatic smile. Flawless skin texture, visible pores, and fine facial hair. Dramatic chiaroscuro lighting accentuates cheekbones. Background hints at a Renaissance-inspired setting, blurred for depth.
A ethereal fantasy realm of floating crystal islands suspended in a pastel sky. Cascading waterfalls of shimmering starlight illuminate bioluminescent flora. Whimsical spiral staircases connect dreamlike platforms. Ancient elven architecture adorns the landscape, evoking a sense of wonder and timeless magic.
A sprawling hyper-realistic megalopolis at dusk, teeming with sleek hovercars weaving between towering neo-brutalist skyscrapers. Vibrant holographic billboards cast a kaleidoscope of neon hues across gleaming chrome surfaces. Bustling streets radiate a palpable energy of technological progress and urban excitement.
A hyper-realistic macro shot of a jewel-toned dragonfly, its compound eyes gleaming with iridescent facets. Translucent wings shimmer with intricate veins, while spindly legs grip a dewy leaf. Afternoon sunlight casts prismatic reflections, evoking the delicate beauty of nature's engineering.
A vibrant Pixar-style animated plate bursting with colorful, exaggerated ingredients. Oversized vegetables with expressive faces, perfectly grilled meats glistening with juices, and playful pasta shapes arranged in a whimsical spiral. Warm, inviting lighting enhances the mouthwatering textures and appetizing details.
A 30 year old beautiful woman is wearing a red dress and white sneakers. She holds a cup of coffee in her hand which is labeled "HOT". In the background we see Las Vegas at night with lots of bright lighting. We also see a fire-breathing dragon in the background with the inscription "HOT TOO".
Meine Beobachtungen
Kurz: Wenn man 24GB VRAM besitzt oder 16GB VRAM + 64GB RAM, dann definitiv die 16 Bit Variante benutzen. Allerdings muss man auch sagen, dass die 8 Bit Variante keinesfalls stark abfällt.
Das 8 Bit Model braucht mit einer RTX4080 nur 7 Sekunden für ein Bild. Beim 16 Bit Model sind es dann 17 Sekunden. Beides ist für die Qualität sehr geil!
Vergleich von Flux Pro mit Midjourney 6.1
A 30 year old beautiful woman is wearing a red dress and white sneakers. She holds a cup of coffee in her hand which is labeled "HOT". In the background we see Las Vegas at night with lots of bright lighting. We also see a fire-breathing dragon in the background with the inscription "HOT TOO".
A cute sloth in a funny situation trying to climb a tree.
A hyper-realistic portrait of Winston Churchill, capturing his unwavering determination during World War II. Intricate wrinkles map his face, piercing blue eyes reflect resilience. Dramatic chiaroscuro lighting emphasizes his iconic scowl. Background hints at war-torn London. Oil on canvas, photorealistic technique.
A meticulously detailed, hyper-realistic mirror reflects Winston Churchill's stern visage, every wrinkle and pore visible. The ornate gold frame contrasts with the somber wartime office behind him. Cigar smoke swirls, creating a hazy atmosphere of contemplation and resolve. 1940s London ambiance pervades.
A whimsical Pixar-style Amazon jungle bursting with vibrant colors and exaggerated features. Playful, anthropomorphic animals with big expressive eyes gather around a surreal, spiraling tree house. Sunbeams pierce the lush canopy, illuminating floating bioluminescent creatures and hidden Incan-inspired ruins.
A hyper-realistic cityscape where humans and alien species coexist harmoniously, featuring sleek skyscrapers with organic, bio-inspired designs. Holographic displays illuminate the streets, while anti-gravity vehicles glide silently overhead. Lush vertical gardens intertwine with transparent walkways, creating a vibrant, eco-futuristic metropolis.
In the game Street Fighter, Chun-Li performs her Spinning Bird Kick against Vega while her hair blows in the wind.
A hyper-realistic graffiti masterpiece adorns a weathered brick wall, showcasing "FLUX" in vibrant, flowing letters. Intricate details reveal paint drips, texture, and shadow play. Surrounding elements blend abstract peace symbols with realistic doves, creating a powerful message of hope. Gritty urban backdrop contrasts with optimistic imagery.
Meine Beobachtungen
Ich war nie ein Freund von Midjourney, weil mich das Discord-Prompting immer genervt hat. Trotzdem muss man zugeben, dass Midjourney bisher die klare Nummer 1 war.
Mit Flux gibt es nun erstmals eine Alternative, die qualitativ mithalten kann. Besonders beeindruckt hat mich die Genauigkeit der Prompts. Ich habe immer nur 2 Bilder mit Flux Pro generiert und hatte immer auf Anhieb sehr gute Ergebnisse.
1) Vergleich der Modelle und Lizenz Bedingungen
Flux ist Open Source und wurde in 3 Varianten veröffentlicht, was aber nicht bedeutet, dass alle Modelle kostenlos kommerziell genutzt werden können.
Flux "Schnell" ist mit ComfyUI auf dem eigenen PC kostenlos nutzbar, auch für kommerzielle Zwecke. "Released under the apache-2.0 licence, the model can be used for personal, scientific, and commercial purposes." Link
Flux "Dev" ist eine effizientere Variante von "Pro" und fast auf dem gleichen Niveau. Auch dieses Modell kann mit ComfyUI auf dem eigenen PC genutzt werden, allerdings NICHT kommerziell.
Flux "Pro" ist das Top-Modell und kann bereits über "replicate.com" oder "fal.ai" genutzt werden. Es funktioniert völlig problemlos und ist natürlich auch für den kommerziellen Einsatz geeignet.
Wenn man sehr hochwertige Bilder mit dem Pro-Modell erstellen möchte, kann es durchaus sinnvoll sein, vorher den Prompt mit "Dev" auf dem eigenen PC zu testen. Ein Pro Bild kostet zwischen 0,05 und 0,055 € und ist damit ähnlich teuer wie Midjourney und etwas teurer als Stable Diffusion 3.
2) Anforderungen an die Hardware
Die Anforderungen an die Hardware sind etwas "tricky". Neben den normalen 16-Bit-Varianten gibt es auch optimierte 8-Bit-Varianten mit geringeren Anforderungen. Die Qualität sinkt etwas, ist aber immer noch sehr gut.
Außerdem ist der Arbeitsspeicher neben dem VRAM wichtig, besonders wenn der VRAM an seine Grenzen stößt. Die Generierung dauert dann deutlich länger, funktioniert aber immer noch. Konkret heißt das: 64GB RAM sind besser als 32GB RAM!
Meine Empfehlungen:
Bei 8 bis 10 GB VRAM: Es macht nicht wirklich Spaß und dauert länger. Hier würde ich eher auf Stable Diffusion XL setzen oder mir einen Online-Anbieter suchen. Flux "Schnell" ist sehr günstig.
12 - 16 GB VRAM: 8-Bit-Modell wählen und Spaß haben! Das "Fast"-Modell benötigt nur 4 Schritte und ist in wenigen Sekunden fertig. Das "Dev"-Modell hingegen geht über 20 Schritte und braucht entsprechend länger.
24 GB VRAM: Die 16 Bit Modelle funktionieren. Mit 16GB VRAM kann man auch die 16 Bit Modelle verwenden, allerdings dauert dann die Generierung länger. Ich brauche dann mit einer RTX4080 und 64GB RAM 45 bis 60 Sekunden.
RAM-Problematik und Tipp: Mit 64 GB RAM hat man keine Probleme. Mit 32 GB RAM kann man anstelle von dem 16 Bit Clip Modell das 8 Bit Clip Modell wählen und dieses mit dem 16 Bit Flux Modell kombinieren. Dadurch reduziert sich der RAM Verbrauch massiv bei nur kleinen Abstrichen in der Qualität.
3) Flux verwenden und mit ComfyUI installieren
Pro Model verwenden: Wie bereits gesagt geht das nur über externe Anbieter und kostet Geld. Ich selbst benutze replicate.com und dort bezahlt man nur für die generierten Bilder. Ein Abo muss man nicht abschließen. Außerdem kann man auch andere Modelle dort austesten. Auch das Dev und Schnell Model ist dort verfügbar.
Dev und Schnell Model verwenden: Beide Modelle kann man sehr einfach auf dem eigenen PC mit ComfyUI laufen lassen. 4 Workflows finden sich im nächsten Abschnitt. Je nach Hardware/Workflow kann man sich dann die passenden Modelle herunterladen.
Download-Quellen:
https://huggingface.co/black-forest-labs
Modelle:
Model Schnell 16Bit 23.8 GB (Workflow 1): Link
Model Schnell 8Bit 11,9 GB: Link
Model Dev 16Bit 23.8 GB (Workflow 2): Link
Model Dev 8Bit 11,9 GB: Link
Wichtig! Die Modelle müssen in den Unterordner /unet kopiert werden.
Ordner -> ComfyUI/models/unet/
Model Schnell 8 Bit All-in-One 17,2GB (Workflow 3): Link
Model Dev 8 Bit All-in-One 17,2GB (Workflow 4): Link
Ordner -> ComfyUI/Checkpoints !!!!
Clip:
t5xxl_fp16.safetensors: 9.79 GB (Workflow 1/2): Link
t5xxl_fp8_e4m3fn.safetensors: 4.89 GB: Link
clip_l.safetensors 246 MB (Workflow 1/2): Link
Ordner -> ComfyUI/models/clip/
Hinweis: Die 8 Bit Clip Variante kann man verwenden, wenn der RAM nicht ausreicht. Bei 64GB RAM immer die 16 Bit Variante nutzen.
VAE:
ae.safetensors 335 MB (Workflow 1/2): Link
Ordner -> ComfyUI/models/vae/
Installationsanleitung:
1) ComfyUI über "Update All" aktualisieren
2) Alle Dateien in die entsprechenden Ordner kopieren
3) Workflow (nächster Abschnitt) in ComfyUI ziehen
4) Modelle usw. auswählen
5) Starten :)
4) Workflows
Ich habe für alle 4 Varianten einen Workflow zusammengestellt und diese ausführlich mit deutschen Notizen versehen. Sie sind sehr Basic und sollten überall laufen.
Um die Workflows zu benutzen, einfach die Bilder abspeichern und dann in die ComfyUI Oberfläche ziehen. Wie magisch erscheint der Workflow. Einfacher geht es nicht. In den nächsten Wochen werden weitere Workflows folgen. IMG2IMG, Controlnet... alles im Anflug!
Workflow1 "Schnell 16Bit" (Bild speichern):
Workflow2 "Dev 16Bit" (Bild speichern):
Workflow3 "Schnell 8Bit" (Bild speichern):
Workflow4 "Dev 8Bit" (Bild speichern):
So sollte der Workflow dann aussehen:
Hinweise zu den Workflows
In den Workflows selbst sind viele Notizen. Generell kann man sagen, dass die Auflösungen von Stable Diffusion auch bei Flux gut klappen.
Auflösungen:
1:1 -> 1024x1024
2:3 -> 832x1216
9:16 -> 768x1344 (Instagram, TikTok)
3:2 -> 1216x832
16:9 -> 1344x768 (Youtube)
Steps:
Für Flux "Schnell" empfehle ich 4 Schritte und für Flux "Dev" 20 Schritte. Natürlich kann man auch etwas davon abweichen.
Geschwindigkeit:
Hängt natürlich stark von dem PC, VRAM und RAM ab. Mit einer RTX4080 ist das "Schnell" Model mit 4 Steps bei 8 Bit in 7 Sekunden fertig und bei 16 Bit in 17 Sekunden. Das Dev Model braucht ein gutes Stück länger. Gerade wenn der VRAM ausgeht, können die Zeiten deutlich nach oben gehen. Mit genug RAM funktioniert die Erstellung aber trotzdem.
Weitere Tipps:
Prompt-Styler:
Unter Prompt-Styler gibt es bereits eine Möglichkeit für Flux, seinen Prompt zu verbessern. Das funktioniert erstaunlich gut. Man kann auch verschiedene Styles direkt auswählen.
Style-Übersicht:
Auf dieser Seite befindet sich ein Überblick mit über 600 Styles und man sieht direkt wie sich die Styles auswirken. Als Inspiration ist das Top.
Flux gratis ausprobieren:
Unter den folgenden Links kann man sowohl das Flux Schnell Model als auch das Flux Dev Model kostenlos direkt im Browser ausprobieren. Sollte jeder mal machen.
Fazit und Ausblick
Bisher habe ich hauptsächlich Stable Diffusion XL und Adobe Firefly verwendet, obwohl Midjourney von der Qualität her die Nase vorn hatte. Mir gefällt der OpenSource Ansatz mit Stable Diffusion einfach extrem gut und umso mehr freut es mich, dass wir nun quasi ein Midjourney Modell in ComfyUI verwenden können. Es gibt auch schon erste Ankündigungen, wie man IMG2IMG oder das Controlnet nutzen kann.
Das Schönste an der Sache ist aber, dass wir ENDLICH ein KI-Modell in Deutschland haben, das ganz vorne mitspielt. Da schon fast 40 Millionen Dollar eingesammelt wurden, ist das auch keine Eintagsfliege. Da bahnt sich etwas Großes an.
Nach 7 Tagen hat mich Flux schon komplett überzeugt und eine Video Generierung ist auch schon angekündigt. Auch da erwarte ich Erstaunliches, wenn ich mir die ersten Videos anschaue.
Meinung und was folgt
Ich hoffe der erste Einblick zum Start mit Flux gefällt. Nächste Woche wird es einen großen Test geben, bei dem alle aktuellen KI-Bildgeneratoren (Flux, Midjourney, Adobe Firefly, Stable Diffusion 3, XL, DALLE.3, Gemini) in einem Battle gegeneinander antreten müssen.
Auch werden hier weitere Workflows und Tipps zu Flux regelmäßig ergänzt.
Links
Flux Herstellerseite:
Hilfreiche Seiten:
Zu den Workflows springen: https://www.all-ai.de/tutorials/tutorials-ki/deutsche-ki-flux-im-test#fluxworkflow
Flux auf Higging Face ausprobieren: https://huggingface.co/black-forest-labs
Flux Prompt Generator: https://glif.app/@angrypenguin/glifs/clzbm2qvb000113zgz4a9r1wj
Über 600 Styles: https://enragedantelope.github.io/Styles-FluxDev/
Download der Modelle:
Flux Schnell 16Bit: https://huggingface.co/black-forest-labs/FLUX.1-schnell
Flux Dev 16Bit: https://huggingface.co/black-forest-labs/FLUX.1-dev
Flux Schnell/Dev 8Bit : https://huggingface.co/Kijai/flux-fp8/tree/main
Flux Encoder + Clip 16B/8Bit: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
Flux Schnell 8 Bit All-in-One: https://huggingface.co/Comfy-Org/flux1-schnell/blob/main/flux1-schnell-fp8.safetensors
Flux Dev 8 Bit All-in-One: https://huggingface.co/Comfy-Org/flux1-dev/blob/main/flux1-dev-fp8.safetensors
Clip:
t5xxl_fp16.safetensors: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
t5xxl_fp8_e4m3fn.safetensors: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
clip_l.safetensors: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main
VAE:
ae.safetensors: https://huggingface.co/black-forest-labs/FLUX.1-schnell/blob/main/ae.safetensors