OpenAI startet GPT-4o-Bildgenerierung

28. März 2025

OpenAI hat die Einführung seiner bisher fortschrittlichsten Bildgenerierungsfunktion angekündigt, die nun nativ in sein multimodales Modell GPT-4o integriert ist. Der neue Bildgenerator verwischt die Grenzen zwischen Sprache und visuellem Ausdruck und verbindet Schönheit mit Nutzen. Er ermöglicht es Nutzern, fotorealistische, textgenaue und kontextsensitive Bilder aus einfachen Chat-Eingabeaufforderungen zu generieren.

GPT-4o-Bildgenerierung

Von der Kunst zur Infografik: Bildgenerierung trifft auf Praxisanwendung

Im Gegensatz zu traditionellen Bildmodellen, die den künstlerischen Surrealismus in den Vordergrund stellen, ist die neue Bildgenerierungsfunktion von GPT-4o für die praktische Anwendung konzipiert. Ob bei der Erstellung von Lehrdiagrammen, Restaurantmenüs, Infografiken oder Videospiel-Assets – das Tool liefert Visualisierungen mit Präzision und Kontextbewusstsein – ein Fortschritt für die generative visuelle KI.

OpenAI sagt, dass diese Weiterentwicklung seines Modells „die Bilderzeugung in ein Kommunikationswerkzeug verwandelt“, sodass Benutzer nicht nur Komposition und Stil, sondern auch funktionale Elemente wie Textplatzierung, symbolische Bedeutung und Szenenkontinuität über Iterationen hinweg festlegen können.

„Wir haben unseren bisher fortschrittlichsten Bildgenerator in GPT-4o integriert“, verkündete das Unternehmen. „Das Ergebnis: Eine Bilderzeugung, die nicht nur schön, sondern auch nützlich ist.“

Eine neue Grundlage für visuelles Verständnis

Kern dieses Durchbruchs ist die native multimodale Architektur von GPT-4o, die Vision und Sprache in einem einheitlichen Transformator integriert. Dadurch kann das Modell hochgeladene Bilder referenzieren, die Kohärenz über mehrstufige Bearbeitungen hinweg wahren und intelligent auf Folgeaufforderungen reagieren. Dadurch eignet es sich für alle Bereiche, von der interaktiven Designverfeinerung bis hin zum dialogorientierten Prototyping.

Zu den von OpenAI vorgestellten Anwendungsfällen gehören:

  • Ein Comic mit vier Panelen und präzisem Erzähltempo
  • Eine Infografik zum Newton-Prisma-Experiment mit eingebetteten Bildern und realem Kontext
  • Eine Straßenszene in Williamsburg, NY, voller detaillierter, glaubwürdiger Schilder (und subtilem Humor)
  • Eine Speisekarte für ein koreanisches Restaurant, komplett mit eleganten Gerichtabbildungen und korrekter Textformatierung

Anweisungsbefolgung und Kontextpräzision

In Tests konnte GPT-4o bis zu 20 verschiedene Objekte mit korrekten Beziehungen rendern – ein Bereich, in dem frühere Modelle oft Schwierigkeiten hatten. Es verarbeitet auch komplexe Textelemente wie Einladungskarten, Schilder und interaktive UI-Modelle mit zuverlässiger Satz- und Layoutkontrolle.

Benutzer können beispielsweise Folgendes anfordern:

  • Ein Katzendetektiv in einem mysteriösen RPG-Setting mit Spiel-UI-Overlays
  • Eine Werbung für eine Kettensäge zum Zerlegen des Thanksgiving-Truthahns mit einem humorvollen Slogan
  • Eine detaillierte Lehrtafel über Wale im Aquarellstil

Sicherheit, Herkunft und Transparenz

OpenAI präsentiert beeindruckende kreative Möglichkeiten und betont gleichzeitig sein Engagement für Sicherheit und Inhaltsintegrität. Alle generierten Bilder enthalten C2PA-Metadaten, die darauf hinweisen, dass sie mit GPT-4o erstellt wurden. Das System integriert außerdem eine interne Bildsuchfunktion zur Überprüfung der Authentizität.

OpenAI hat ein auf Argumentation basierendes Moderationsmodell trainiert, um die Einhaltung von Sicherheitsrichtlinien sicherzustellen. Dabei werden interpretierbare, von Menschen geschriebene Regeln verwendet, um Grenzfälle zu identifizieren und unangemessene Inhalte wie Deepfakes oder grafische Gewalt zu blockieren.

Es bestehen weiterhin Einschränkungen, darunter:

  • Gelegentliche Zuschneideprobleme
  • Schwierigculty Rendern von dichtem mehrsprachigem oder mathematischem Text
  • Inkonsistente Bearbeitungen bestimmter Bildbereiche (z. B. Gesichtsdetails)

Das Unternehmen gibt an, dass derzeit Verbesserungen durchgeführt werden und dass das Benutzerfeedback bei zukünftigen Updates eine entscheidende Rolle spielen wird.

Verfügbarkeit und Zugriff

Der GPT-4o-Bildgenerator ist ab heute im Chat für Free-, Plus-, Pro- und Team-Nutzer verfügbar und wird in Kürze auch Enterprise- und Education-Kunden angeboten. Der Zugriff über die API wird in den kommenden Wochen erwartet und ermöglicht Entwicklern die programmatische Nutzung.

Benutzer können Bilder durch einfache Gesprächsaufforderungen generieren und iterieren und dabei Folgendes angeben:

  • Seitenverhältnis (z. B. 16:9)
  • Hintergrundfarbe oder Transparenz
  • Bildstil (realistisch, Infografik, Comic, etc.)
  • Bestimmte Layoutelemente (Text, Symbole, Positionierung)

Obwohl die Renderzeiten länger sind – oft bis zu einer Minute – ist OpenAI der Ansicht, dass sich der Kompromiss für höhere Details und Präzision lohnt.

Ein visueller Sprung für Sprachmodelle

Mit der nativen Bildgenerierung macht GPT-4o einen entscheidenden Schritt in die Zukunft multimodaler KI, in der Kommunikation über Text hinausgeht. Von wissenschaftlichen Diagrammen über Aufkleber und Videospielprototypen bis hin zu poetischen Hochzeitseinladungen beweist GPT-4o, dass der Fantasie keine Grenzen gesetzt sind.

Da die Grenze zwischen Bild und Sprache verschwimmt, könnte die neueste Innovation von OpenAI nicht nur die Art und Weise verändern, wie wir Bilder erzeugen, sondern auch unsere Einstellung zu ihrer Verwendung insgesamt.