Bild-KI: Wo liegen die größten Potenziale und wo gibt es Grenzen?

Intro

In dieser Episode des AI FIRST Podcast spricht Felix Schlenther mit Georg Neumann, Mitbegründer des Marketing KI Bootcamps und Experte für Bild-KI. Gemeinsam machen sie einen umfassenden Rundumschlag zum aktuellen Stand der Bild- und Video-KI: von kontextbasierten Modellen wie Googles Nano-Banana über die verschiedenen Nutzungsstufen des Kaninchenbaus bis hin zu konkreten Anwendungsfällen in Unternehmen. Georg erklärt, warum 2024 das große Jahr der kontextbasierten Bildgenerierung ist, wie tief man in Open-Source-Workflows einsteigen kann und warum Experten mit Design-Know-how durch KI wertvoller werden statt überflüssig.

Inhaltsübersicht

Kontextbasierte Bild-KI-Modelle wie ImageOne, Flux-Kontext und Nano-Banana haben 2024 die Bildgenerierung fundamental verändert.
Die Modelle funktionieren wie Sprachmodelle: Sie nehmen Referenzbilder als Kontext auf und generieren daraus neue Bilder, statt bestehende Bilder zu verändern.
Midjourney hat im Wettbewerb den Anschluss verloren und ist vor allem noch für stilisierte, künstlerische Bilder relevant.
Der Kaninchenbau der Bild-KI reicht vom Standard-Tooling über Open-Source-Wunderland bis zu vollautomatisierten Workflows mit ComfyUI.
Im Video-KI-Markt hat Google mit Veo2 und Veo3 Sora von OpenAI schnell überholt, während chinesische Anbieter mit Open-Source-Modellen drängen.
Performance Marketing ist der größte, aber oft unsichtbare Einsatzbereich für Bild-KI in Unternehmen.
Produktvisualisierung wird durch kontextbasierte Modelle und LoRA-Training zunehmend praxistauglich.
KI macht keinen Anfänger zum Experten, aber Experten können ihre Fähigkeiten durch KI multiplizieren.
Die neue Berufsrolle Visual AI Engineer verbindet Design-Know-how mit technischem KI-Wissen.
Qualität und strategisches Denken bleiben die entscheidenden Differenzierungsmerkmale in einer Welt, in der jeder Durchschnitt produzieren kann.

Über den Gast

Georg Neumann ist Mitbegründer des Marketing KI Bootcamps und Spezialist für Bild-KI. Er kommt aus der Fotografie und Medienwelt und hat sich auf die praktische Anwendung von Bildgenerierung in Unternehmen spezialisiert. Georg arbeitet mit zahlreichen Marken und Agenturen zusammen, um Bild-KI in professionelle Marketing-Workflows zu integrieren. Er entwickelt eigene Workflows mit Tools wie ComfyUI für skalierbare Produktvisualisierung und bietet eine Weiterbildung zum Visual AI Engineer an, die technisches KI-Wissen mit Design-Kompetenz verbindet.

Detaillierte Zusammenfassung

Das Jahr der kontextbasierten Bild-KI

Georg ordnet ein, dass 2024 das große Jahr der kontextbasierten Bild-KI-Modelle ist. Nach einer gefühlten Flaute 2023, in der außer Flux wenig passierte, kamen dieses Jahr bahnbrechende Entwicklungen in schneller Folge. Den Aufschlag machte ImageOne von OpenAI im Frühjahr, das LinkedIn mit Actionfiguren und Studio-Ghibli-Avataren flutete. Für erste Experimente war es beeindruckend, aber in realen Use Cases versagte es schnell, weil es den Kontext zu stark veränderte.

Dann kam Flux-Kontext, der die Qualität deutlich steigerte und erstmals für Produktbilder einsetzbar war. Midjourney brachte Omni-Referenz heraus. Den größten Coup landete jedoch Google mit dem Überraschungsmodell Nano-Banana. Nano-Banana arbeitet besonders gut mit ein bis drei Referenzbildern und ist direkt in Google Gemini integriert.

Es funktioniert tatsächlich auch für Charakterkonsistenz schon ein ganzes Eck besser als alles, was bisher da war.

Der entscheidende Unterschied zur früheren Bildgenerierung: Kontextbasierte Modelle versuchen nicht mehr, ein bestehendes Bild zu verändern, sondern nutzen Referenzbilder als Wissen, um etwas Neues zu generieren. Konkret bedeutet das: Ein Ausgangsbild eines Protagonisten hochladen und mit der Anweisung versehen, den Szenenwinkel um 90 Grad zu drehen, und man erhält eine konsistente neue Perspektive.

Midjourney hingegen hat nach Georgs Einschätzung den Anschluss verloren. Es bleibt stark für stilisierte, künstlerische Bilder und Illustrationen, hat aber grundlegende Probleme wie die Darstellung von Händen immer noch nicht vollständig gelöst.

Der Kaninchenbau: Vom Eingang bis Ebene Minus 5

Georg strukturiert die Bild-KI-Nutzung in verschiedene Tiefenstufen, die er als Kaninchenbau bezeichnet. Am Eingang stehen Standard-Tools wie Midjourney, Freepik und Google Nano-Banana. Hier generiert man unterstützende Visuals für Präsentationen, Blogposts und Social Media. Mit Moodboards und Prompt-Vorlagen erreicht man bereits einen gewissen Grad an Kontrolle und Markenkonsistenz.

Auf Ebene Minus 1, dem Open-Source-Wunderland, gewinnt man deutlich mehr Kontrolle über den Output. Der Schlüssel ist das sogenannte LoRA-Training: Ein Bild-KI-Modell lernt ein einziges Konzept, etwa einen Bildstil, einen Menschen oder ein Produkt. Plattformen wie fal.ai oder replicate.com machen das zugänglich, ohne eigene Hardware zu benötigen. Die Ergebnisse lassen sich sogar per API in eigene Unternehmens-GPTs oder Tool-Pipelines integrieren. Dieses Level eignet sich besonders für Produktvisualisierung und konsistente Charakterdarstellung.

Auf Ebene Minus 5 wird es richtig technisch. Hier kommen vollautomatisierte Workflows mit ComfyUI zum Einsatz, das Georg liebevoll sein Spaghetti-Monster nennt. ComfyUI ist für die Bildgenerierung vergleichbar mit make.com oder N8N für Business-Automatisierung. Für den Hammer-Use-Case etwa bedeutet das: Ein Referenzbild wird mit Nano-Banana verarbeitet, das Ergebnis über ComfyUI-Workflows automatisch nachbearbeitet, Details wie Logos und Materialmaserungen korrigiert und in konsistenter Qualität ausgegeben. Coden ist nicht zwingend nötig, aber eine hohe technische Frusttoleranz schon.

Sobald ich skalierbar werden will, komme ich um Stufe 5 nicht herum.

Video-KI: Ein rasant umkämpfter Markt

Der Video-KI-Markt ist nach Georgs Einschätzung noch umkämpfter als der Bild-KI-Markt, mit wöchentlich neuen Modellen. Sora von OpenAI enttäuschte nach einem großen Marketing-Aufbau mit langer Wartezeit und mittelmäßigen Ergebnissen. Google konterte mit perfektem Timing: Veo2 erschien kurz nach Sora und war bereits besser. Der große Coup gelang mit Veo3, das erstmals auch Audio generieren kann, eine Schwäche aller bisherigen Video-KI-Modelle.

Gleichzeitig drängen chinesische Anbieter auf den Markt. Alibaba hat mit dem Modell WAN 2.2 ein Open-Source-Video-Modell veröffentlicht, das auch lokal auf eigener Hardware laufen kann. Auch ByteDance, die Firma hinter TikTok, treibt die Entwicklung voran.

Praktische Anwendungsfälle und ethische Grenzen

Die größten Einsatzbereiche für Bild-KI in Unternehmen sind oft unsichtbar. Im Performance Marketing werden täglich hunderte Varianten benötigt, und KI-generierte Bilder sind dort längst nicht mehr von echten unterscheidbar. Darüber hinaus nutzen viele Unternehmen Bild-KI für begleitende Visuals, etwa Zutatenbilder oder unterstützende Produktdarstellungen.

Besonders spannend sind Unternehmen, die vorher nur 3D-Render hatten und mit Bild-KI erstmals realistische Szenarien erstellen können. Georg nennt Miss Pompadour als Beispiel, ein Farbenhersteller, der sehr früh mit der KI-Generierung von Produktbildern begann und mittlerweile auch physische Produkte wie Farbeimer und Pinsel generiert. Ein weiteres Beispiel ist der Wohnzimmer-Konfigurator von Wayfair, bei dem Kunden ein Foto ihres leeren Raums hochladen und verschiedene Einrichtungsvorschläge mit kaufbaren Produkten erhalten.

Bei den ethischen Grenzen berichtet Georg von Kunden, die klare Regeln für sich definiert haben. Solche bewussten Begrenzungen helfen, den KI-Einsatz mit dem eigenen Wertegerüst in Einklang zu bringen.

Zum Thema AI-Slop, also minderwertigem KI-Content, beobachtet Georg, dass besonders jüngere Nutzer KI-generierte Inhalte bereits erkennen und abwerten. Sein Appell: Unbedingt Wert auf Qualität legen, um der eigenen Marke nicht zu schaden.

Interaktive Avatare und KI-UGC

Beim Thema KI-Avatare für User Generated Content zeigt sich Georg kritisch. Deutlich spannender findet er Interactive Avatars, also Avatare, mit denen man wie mit Chatbots live interagieren kann, inklusive Ton, Lippensynchronisierung, Mimik und Gestik. Use Cases reichen vom Website-Concierge bis zum digitalen Geschäftsführer auf Messen. Das Wertvollste daran sei der User-Input, der ausgewertet werden kann.

Die Zukunft gehört den Experten

Georg beobachtet einen fundamentalen Wandel im Berufsfeld. Die Qualitätsdifferenz zwischen einem Anfänger mit ChatGPT und einem geschulten Designer mit KI-Tools ist enorm. Ein Paradebeispiel in die falsche Richtung: Eine lokale Handwerkskampagne, die selbst mit KI erstellt wurde und sofort als schlecht erkennbar war.

Georg arbeitet deshalb an der Berufsrolle des Visual AI Engineer, einer Weiterbildung, die technisches KI-Wissen mit Design-Kompetenz verbindet. Das Ziel: Die Teilnehmenden sollen Ebene Minus 5 des Kaninchenbaus beherrschen und Bild-KI belastbar und skalierbar in Unternehmensprozesse integrieren können.

Kernaussagen

Kontextbasierte Bildgenerierung als Paradigmenwechsel: 2024 ist das große Jahr der kontextbasierten Bild-KI-Modelle. Sie funktionieren wie Sprachmodelle, denen man Beispiele gibt, um bessere Ergebnisse zu erhalten. Nano-Banana, ImageOne, Flux-Kontext
Kontrolle durch Tiefe: Je tiefer man in den Kaninchenbau reingeht, umso mehr Kontrolle gewinnt man über die Bildgenerierung. LoRA-Training, ComfyUI, Skalierbarkeit
Experten werden wertvoller: KI macht keinen Anfänger zum Experten, aber Experten können ihre Fähigkeiten durch KI multiplizieren. Design-Kompetenz, Qualitätsdifferenz
Zeit für das Wesentliche: Versucht euch mit KI Zeit zu sparen, sodass ihr wieder Zeit fürs Wesentliche habt, nämlich wirklich für Kreativität und für Strategie. Kreativität, Strategie, Differenzierung
Vom Macher zum Orchestrator: In Zukunft wird man verschiedene Tools orchestrieren und ist der Orchestrator dahinter und nicht mehr der Macher. Visual AI Engineer, Berufswandel

Fazit und Takeaways

Für den Einstieg in Bild-KI

In bezahlte Tools investieren: Kostenlose Accounts limitieren bei Bildanzahl, Geschwindigkeit und kommerziellen Nutzungsrechten. Plattformen wie Freepik bieten die volle Bandbreite an Möglichkeiten.
Beim Prompting KI nutzen: Prompt-Bots und Custom-GPTs helfen, bessere Ergebnisse zu erzielen, ohne erst die Feinheiten des Promptings lernen zu müssen.
Moodboards und Prompt-Vorlagen anlegen: Schon auf dem Eingangs-Level lässt sich mit systematischen Vorlagen eine konsistente Markensprache in der Bildgenerierung erreichen.
Schrittweise tiefer gehen: Vom Standard-Tooling über LoRA-Training bis zu ComfyUI-Workflows, je nach Anforderung die passende Tiefe wählen.

Für Unternehmen und Marketing-Teams

Performance Marketing als Quick Win: Hier werden täglich viele Varianten benötigt, und KI-generierte Bilder sind bereits schwer von echten zu unterscheiden.
Produktvisualisierung mit kontextbasierten Modellen: Besonders für Unternehmen mit 3D-Rendern oder begrenztem Fotomaterial eröffnen sich neue Möglichkeiten zur Inszenierung.
Experten schulen statt ersetzen: Designer und Kreative mit KI-Skills werden zum Wettbewerbsvorteil. Die Investition in Schulung bestehender Fachkräfte lohnt sich mehr als der Versuch, KI ohne Expertise einzusetzen.
Ethische Grenzen definieren: Klare Regeln für den KI-Einsatz, etwa keine generierten menschlichen Gesichter, schützen die Marke und schaffen Vertrauen.

Für die strategische Perspektive

Qualität vor Quantität: In einer Welt, in der jeder Durchschnitt produzieren kann, differenziert sich, wer über dem Durchschnitt steht, durch Innovation, Kreativität und strategisches Denken.
Die Rolle wandelt sich zum Orchestrator: Vom handwerklichen Macher zum Koordinator verschiedener KI-Tools, das erfordert neue Kompetenzen und Berufsbilder wie den Visual AI Engineer.
Interaktive Avatare beobachten: Noch in den Kinderschuhen, aber mit enormem Potenzial für Kundeninteraktion auf Websites, Messen und in Apps.

Die Bild-KI-Landschaft hat sich 2024 fundamental verändert. Kontextbasierte Modelle machen konsistente Produktvisualisierung und Charakterdarstellung erstmals breit zugänglich. Gleichzeitig wird deutlich: Die Zukunft gehört nicht denen, die KI bedienen können, sondern denen, die wissen, was gute Kommunikation und gutes Design ausmacht. Die gesparte Zeit durch KI sollte in das fließen, was wirklich zählt: Kreativität, Strategie und die besten Ideen.