OpenAI je najavio lansiranje svoje najnaprednije mogućnosti generiranja slika do sada, sada izvorno integrirane u multimodalni model, GPT-4o. U potezu koji briše granice između jezika i vizualnog izraza, novi generator slika kombinira ljepotu s korisnošću, dajući korisnicima mogućnost generiranja fotorealističnih, tekstualno točnih i kontekstno svjesnih slika iz jednostavnih upita temeljenih na chatu.

Od umjetnosti do infografike: susreće se stvaranje slika u stvarnom svijetu
Za razliku od tradicionalnih modela slika koji daju prednost umjetničkom nadrealizmu, GPT-4o nova funkcija generiranja slika dizajnirana je za praktičnu primjenu. Bilo da stvarate obrazovne dijagrame, jelovnike restorana, infografike ili sredstva videoigara, alat isporučuje vizualne elemente s preciznošću i svjesnošću konteksta, korak naprijed za generativni vizualni AI.
OpenAI kaže da ova evolucija njegovog modela "pretvara generiranje slike u alat za komunikaciju", dopuštajući korisnicima da specificiraju ne samo kompoziciju i stil, već i funkcionalne elemente poput postavljanja teksta, simboličkog značenja i kontinuiteta scene kroz iteracije.
"Ugradili smo naš najnapredniji generator slike dosad u GPT-4o", objavila je tvrtka. “Rezultat – stvaranje slike koja nije samo lijepa, već i korisna.”
Novi temelj za vizualno razumijevanje
Srž ovog otkrića je izvorna multimodalna arhitektura GPT-4o, koja integrira viziju i jezik unutar jedinstvenog transformatora. To omogućuje modelu referenciranje učitanih slika, održavanje koherentnosti u uređivanjima u više koraka i inteligentno reagiranje na naknadne upite, što ga čini prikladnim za sve, od interaktivnog usavršavanja dizajna do konverzacijske izrade prototipova.
Slučajevi upotrebe koje je prikazao OpenAI uključuju:
- Strip od četiri panela s preciznim tempom pripovijedanja
- Infografika eksperimenta Newtonove prizme s ugrađenim vizualnim elementima i kontekstom iz stvarnog svijeta
- Ulična scena u Williamsburgu, NY ispunjena detaljnim, uvjerljivim znakovima (i suptilnim humorom)
- Jelovnik za korejski restoran, zajedno s elegantnim ilustracijama jela i ispravnim oblikovanjem teksta
Praćenje uputa i preciznost konteksta
U testovima je GPT-4o pokazao sposobnost renderiranja do 20 različitih objekata s ispravnim odnosima, područje u kojem su se prethodni modeli često mučili. Također obrađuje složene tekstualne elemente, kao što su pozivnice, znakovi i interaktivni modeli korisničkog sučelja, uz pouzdanu kontrolu slaganja i izgleda.
Na primjer, korisnici mogu zatražiti:
- Mačji detektiv u misterioznom RPG okruženju, s slojevima korisničkog sučelja igre
- Reklama za motornu pilu kojom se izrezuje purica za Dan zahvalnosti, s duhovitim sloganom
- Detaljna obrazovna karta o kitovima u stilu akvarela
Sigurnost, porijeklo i transparentnost
Dok prikazuje impresivne kreativne sposobnosti, OpenAI naglašava svoju predanost sigurnosti i integritetu sadržaja. Sve generirane slike uključuju C2PA metapodatke, što znači da su stvorene s GPT-4o. Sustav također integrira interni alat za pretraživanje slika koji pomaže u provjeri autentičnosti.
OpenAI je uvježbao model moderiranja koji se temelji na razmišljanju kako bi se osigurala usklađenost sa sigurnosnim politikama, koristeći pravila koja su napisali ljudi i koja se mogu tumačiti za prepoznavanje rubnih slučajeva i blokiranje neprikladnog sadržaja, kao što su deepfake ili grafičko nasilje.
Ograničenja i dalje postoje, uključujući:
- Povremeni problemi s obrezivanjem
- Difficulty prikaz gustog višejezičnog ili matematičkog teksta
- Nedosljedna uređivanja određenih područja slike (npr. detalji lica)
Tvrtka kaže da su poboljšanja u tijeku, a povratne informacije korisnika igrat će ključnu ulogu u budućim ažuriranjima.
Dostupnost i pristup
Generator slika GPT-4o dostupan je od danas za korisnike Chata za besplatno, Plus, Pro i Team, a uskoro će biti ponuđen i korisnicima u Enterprise i Education izdanjima. Pristup putem API-ja očekuje se u nadolazećim tjednima, što će programerima omogućiti programsku upotrebu.
Korisnici mogu generirati i ponavljati slike kroz jednostavne razgovorne upite, navodeći:
- Omjer slike (npr. 16:9)
- Boja pozadine ili prozirnost
- Stil slike (realističan, infografski, strip, itd.)
- Specifični elementi izgleda (tekst, ikone, pozicioniranje)
Iako je vrijeme renderiranja dulje – često do jedne minute – OpenAI tvrdi da se kompromis isplati za više detalja i preciznosti.
Vizualni skok za jezične modele
Generiranjem izvorne slike, GPT-4o poduzima odlučujući korak prema budućnosti multimodalne umjetne inteligencije, gdje komunikacija nadilazi tekst. Od znanstvenih dijagrama do naljepnica, prototipova videoigara do pjesničkih pozivnica za vjenčanje, GPT-4o dokazuje da mašta doista nema granica.
Kako se nestaje granica između slike i jezika, najnovija inovacija OpenAI-ja možda neće promijeniti samo način na koji stvaramo slike, već i način na koji razmišljamo o njihovoj upotrebi.