OpenAI oznámila spuštění své dosud nejpokročilejší schopnosti generování obrázků, která je nyní nativně integrována do svého multimodálního modelu GPT-4o. V kroku, který stírá hranice mezi jazykem a vizuálním vyjádřením, nový generátor obrázků kombinuje krásu s užitečností a dává uživatelům možnost generovat fotorealistické, textově přesné a kontextově orientované obrázky z jednoduchých výzev založených na chatu.

Od umění k infografice: Vytváření obrázků se setkává se skutečným světovým použitím
Na rozdíl od tradičních obrazových modelů, které upřednostňují umělecký surrealismus, je nová funkce generování obrazu GPT-4o navržena pro praktické použití. Ať už vytváříte výukové diagramy, jídelní lístky restaurací, infografiku nebo videohry, tento nástroj poskytuje vizuály s přesností a uvědoměním si kontextu, což je skok vpřed pro generativní vizuální AI.
OpenAI říká, že tato evoluce jejího modelu „přeměňuje generování obrázků na nástroj pro komunikaci“, což uživatelům umožňuje specifikovat nejen kompozici a styl, ale také funkční prvky, jako je umístění textu, symbolický význam a kontinuita scény napříč iteracemi.
„Do GPT-4o jsme zabudovali náš dosud nejpokročilejší generátor obrázků,“ oznámila společnost. „Výsledek – generování obrazu, které je nejen krásné, ale také užitečné.“
Nový základ pro vizuální porozumění
Jádrem tohoto průlomu je nativně multimodální architektura GPT-4o, která integruje vizi a jazyk do jednotného transformátoru. To umožňuje modelu odkazovat na nahrané obrázky, udržovat koherenci přes vícekrokové úpravy a inteligentně reagovat na následné výzvy, takže se dobře hodí pro vše od zdokonalování interaktivního návrhu po konverzační prototypování.
Příklady použití představené OpenAI zahrnují:
- Čtyřpanelový komiks s přesným tempem vyprávění
- Infografika experimentu s Newtonovým hranolem s vloženými vizuálními prvky a kontextem reálného světa
- Pouliční scéna ve Williamsburgu, NY plná detailních, uvěřitelných nápisů (a jemného humoru)
- Menu pro korejskou restauraci, doplněné elegantními ilustracemi pokrmů a správným formátováním textu
Dodržování pokynů a přesnost kontextu
V testech GPT-4o prokázal schopnost vykreslit až 20 různých objektů se správnými vztahy, což je oblast, kde předchozí modely často bojovaly. Zvládá také složité textové prvky, jako jsou pozvánky, nápisy a interaktivní makety uživatelského rozhraní, se spolehlivou sazbou a ovládáním rozvržení.
Uživatelé mohou například požadovat:
- Kočičí detektiv v tajemném RPG prostředí s herním uživatelským rozhraním
- Reklama na motorovou pilu používanou k vyřezávání krocana na Den díkůvzdání s vtipným sloganem
- Podrobná vzdělávací tabulka o velrybách ve stylu akvarelu
Bezpečnost, původ a transparentnost
Zatímco OpenAI předvádí působivé kreativní schopnosti, zdůrazňuje svůj závazek k bezpečnosti a integritě obsahu. Všechny vygenerované obrázky obsahují metadata C2PA, což znamená, že byly vytvořeny pomocí GPT-4o. Systém také integruje interní nástroj pro vyhledávání obrázků, který pomáhá ověřit pravost.
OpenAI vycvičila model moderování založený na uvažování, aby zajistila soulad s bezpečnostními zásadami, pomocí interpretovatelných lidmi napsaných pravidel k identifikaci okrajových případů a blokování nevhodného obsahu, jako jsou hluboké faleš nebo grafické násilí.
Stále přetrvávají omezení, včetně:
- Občasné problémy s ořezem
- Difficulty vykreslování hustého vícejazyčného nebo matematického textu
- Nekonzistentní úpravy konkrétních oblastí obrázku (např. detail obličeje)
Společnost tvrdí, že probíhají vylepšení a zpětná vazba od uživatelů bude hrát klíčovou roli v budoucích aktualizacích.
Dostupnost a přístup
Generátor obrázků GPT-4o je od dnešního dne k dispozici pro uživatele Chatu zdarma, Plus, Pro a Team a brzy bude nabídnut i zákazníkům z řad Enterprise a Education. Přístup přes API se očekává v nadcházejících týdnech, což vývojářům umožní programové využití.
Uživatelé mohou generovat a opakovat obrázky pomocí jednoduchých konverzačních výzev, které specifikují:
- Poměr stran (např. 16:9)
- Barva pozadí nebo průhlednost
- Styl obrázku (realistický, infographic, komiks atd.)
- Specifické prvky rozvržení (text, ikony, umístění)
I když jsou doby vykreslování delší – často až jednu minutu – OpenAI tvrdí, že kompromis stojí za to pro vyšší detaily a přesnost.
Vizuální skok pro jazykové modely
Díky nativnímu generování obrazu dělá GPT-4o rozhodující krok směrem k budoucnosti multimodální umělé inteligence, kde komunikace přesahuje text. Od vědeckých diagramů po nálepky, prototypy videoher až po poetické svatební pozvánky, GPT-4o dokazuje, že fantazii se meze opravdu nekladou.
Jak se hranice mezi obrázkem a jazykem rozpouští, nejnovější inovace OpenAI nemusí změnit jen způsob generování obrázků, ale také způsob, jakým přemýšlíme o jejich používání.