OpenAI pokreće GPT-4o generiranje slika

Mar 28, 2025

OpenAI je najavio lansiranje svoje najnaprednije mogućnosti generiranja slika do sada, sada izvorno integrirane u multimodalni model, GPT-4o. U potezu koji briše granice između jezika i vizualnog izraza, novi generator slika kombinira ljepotu s korisnošću, dajući korisnicima mogućnost generiranja fotorealističnih, tekstualno točnih i kontekstno svjesnih slika iz jednostavnih upita temeljenih na chatu.

GPT-4o Generiranje slike

Od umjetnosti do infografike: susreće se stvaranje slika u stvarnom svijetu

Za razliku od tradicionalnih modela slika koji daju prednost umjetničkom nadrealizmu, GPT-4o nova funkcija generiranja slika dizajnirana je za praktičnu primjenu. Bilo da stvarate obrazovne dijagrame, jelovnike restorana, infografike ili sredstva videoigara, alat isporučuje vizualne elemente s preciznošću i svjesnošću konteksta, korak naprijed za generativni vizualni AI.

OpenAI kaže da ova evolucija njegovog modela "pretvara generiranje slike u alat za komunikaciju", dopuštajući korisnicima da specificiraju ne samo kompoziciju i stil, već i funkcionalne elemente poput postavljanja teksta, simboličkog značenja i kontinuiteta scene kroz iteracije.

"Ugradili smo naš najnapredniji generator slike dosad u GPT-4o", objavila je tvrtka. “Rezultat – stvaranje slike koja nije samo lijepa, već i korisna.”

Novi temelj za vizualno razumijevanje

Srž ovog otkrića je izvorna multimodalna arhitektura GPT-4o, koja integrira viziju i jezik unutar jedinstvenog transformatora. To omogućuje modelu referenciranje učitanih slika, održavanje koherentnosti u uređivanjima u više koraka i inteligentno reagiranje na naknadne upite, što ga čini prikladnim za sve, od interaktivnog usavršavanja dizajna do konverzacijske izrade prototipova.

Slučajevi upotrebe koje je prikazao OpenAI uključuju:

  • Strip od četiri panela s preciznim tempom pripovijedanja
  • Infografika eksperimenta Newtonove prizme s ugrađenim vizualnim elementima i kontekstom iz stvarnog svijeta
  • Ulična scena u Williamsburgu, NY ispunjena detaljnim, uvjerljivim znakovima (i suptilnim humorom)
  • Jelovnik za korejski restoran, zajedno s elegantnim ilustracijama jela i ispravnim oblikovanjem teksta

Praćenje uputa i preciznost konteksta

U testovima je GPT-4o pokazao sposobnost renderiranja do 20 različitih objekata s ispravnim odnosima, područje u kojem su se prethodni modeli često mučili. Također obrađuje složene tekstualne elemente, kao što su pozivnice, znakovi i interaktivni modeli korisničkog sučelja, uz pouzdanu kontrolu slaganja i izgleda.

Na primjer, korisnici mogu zatražiti:

  • Mačji detektiv u misterioznom RPG okruženju, s slojevima korisničkog sučelja igre
  • Reklama za motornu pilu kojom se izrezuje purica za Dan zahvalnosti, s duhovitim sloganom
  • Detaljna obrazovna karta o kitovima u stilu akvarela

Sigurnost, porijeklo i transparentnost

Dok prikazuje impresivne kreativne sposobnosti, OpenAI naglašava svoju predanost sigurnosti i integritetu sadržaja. Sve generirane slike uključuju C2PA metapodatke, što znači da su stvorene s GPT-4o. Sustav također integrira interni alat za pretraživanje slika koji pomaže u provjeri autentičnosti.

OpenAI je uvježbao model moderiranja koji se temelji na razmišljanju kako bi se osigurala usklađenost sa sigurnosnim politikama, koristeći pravila koja su napisali ljudi i koja se mogu tumačiti za prepoznavanje rubnih slučajeva i blokiranje neprikladnog sadržaja, kao što su deepfake ili grafičko nasilje.

Ograničenja i dalje postoje, uključujući:

  • Povremeni problemi s obrezivanjem
  • Difficulty prikaz gustog višejezičnog ili matematičkog teksta
  • Nedosljedna uređivanja određenih područja slike (npr. detalji lica)

Tvrtka kaže da su poboljšanja u tijeku, a povratne informacije korisnika igrat će ključnu ulogu u budućim ažuriranjima.

Dostupnost i pristup

Generator slika GPT-4o dostupan je od danas za korisnike Chata za besplatno, Plus, Pro i Team, a uskoro će biti ponuđen i korisnicima u Enterprise i Education izdanjima. Pristup putem API-ja očekuje se u nadolazećim tjednima, što će programerima omogućiti programsku upotrebu.

Korisnici mogu generirati i ponavljati slike kroz jednostavne razgovorne upite, navodeći:

  • Omjer slike (npr. 16:9)
  • Boja pozadine ili prozirnost
  • Stil slike (realističan, infografski, strip, itd.)
  • Specifični elementi izgleda (tekst, ikone, pozicioniranje)

Iako je vrijeme renderiranja dulje – često do jedne minute – OpenAI tvrdi da se kompromis isplati za više detalja i preciznosti.

Vizualni skok za jezične modele

Generiranjem izvorne slike, GPT-4o poduzima odlučujući korak prema budućnosti multimodalne umjetne inteligencije, gdje komunikacija nadilazi tekst. Od znanstvenih dijagrama do naljepnica, prototipova videoigara do pjesničkih pozivnica za vjenčanje, GPT-4o dokazuje da mašta doista nema granica.

Kako se nestaje granica između slike i jezika, najnovija inovacija OpenAI-ja možda neće promijeniti samo način na koji stvaramo slike, već i način na koji razmišljamo o njihovoj upotrebi.