OpenAI je predstavio o1-mini, specijalizirani jezični model pomno izrađen za isplativo razmišljanje, posebno izvrstan u domenama znanosti, tehnologije, inženjerstva i matematike (STEM), s izrazitim naglaskom na matematici i kodiranju. Ovaj model postiže izvanredan pothvat tako što se gotovo poklapa s performansama svog većeg pandana, OpenAI o1, na rigoroznim referentnim vrijednostima kao što su American Invitational Mathematics Examination (AIME) i Codeforces.
Pojava o1-mini obećava revoluciju u aplikacijama koje zahtijevaju snažne sposobnosti zaključivanja bez potrebe za opsežnim općim znanjem o svijetu. Njegov optimizirani dizajn pretvara se u brže i znatno isplativije rješenje, spremno preoblikovati krajolik AI aplikacija usmjerenih na STEM.

Skok prema pristupačnom rasuđivanju
OpenAI o1-mini sada je dostupan korisnicima Tier 5 API-ja, što uvodi novo doba pristupačnosti s 80%-tnim smanjenjem troškova u usporedbi s OpenAI o1-preview modelom. Osim toga, korisnici Chat Plus, Team, Enterprise i Edu mogu bez problema koristiti o1-mini kao uvjerljivu alternativu o1-preview, uživajući u prednostima povećanih ograničenja brzine i smanjene latencije.
Pionirsko rasuđivanje optimizirano za STEM
Veliki jezični modeli poput o1 tradicionalno su unaprijed uvježbani na kolosalnim tekstualnim skupovima podataka, dajući im opsežno znanje o svijetu. Međutim, ova širina dolazi po cijenu računalnih troškova i sporijeg vremena zaključivanja. Za razliku od toga, o1-mini usvaja fokusiraniji pristup tako što je posebno optimiziran za STEM razmišljanje tijekom svoje faze prije obuke. Podvrgavajući se istom cjevovodu učenja s pojačanim računalstvom (RL) kao i njegov veći pandan, o1-mini postiže usporedivu izvedbu na nizu ključnih zadataka rasuđivanja dok zadržava značajno povoljniji troškovni profil.
Evaluacije referentnih vrijednosti naglašavaju o1-mini snagu u zadacima inteligencije i rasuđivanja, gdje stoji rame uz rame s o1-preview i o1. Međutim, važno je priznati da izvedba o1-mini na zadacima koji zahtijevaju ne-STEM činjenično znanje nije tako jaka, naglašavajući njegovu specijaliziranu prirodu.
Razotkrivanje metrike izvedbe
Matematika
o1-mini pokazuje svoju konkurentsku prednost u zahtjevnom srednjoškolskom AIME matematičkom natjecanju, osiguravajući ocjenu od 70.0%, tijesno suparujući rezultatu o1 od 74.4%. Ovo je postignuće posebno vrijedno pažnje s obzirom na znatno nižu cijenu zaključivanja o1-mini. Naime, o1-mini nadmašuje o1-preview, koji je postigao ocjenu od 44.6%. Da ovo stavimo u perspektivu, rezultat o1-mini, koji odgovara točnom odgovoru na otprilike 11 od 15 pitanja, svrstava ga među 500 najboljih američkih srednjoškolaca.
Kodiranje
o1-mini nastavlja svoj impresivan niz u areni kodiranja, postižući Elo ocjenu od 1650 na web stranici natjecanja Codeforces. Ova ga ocjena smješta u blizinu o1-ovog Elo-a od 1673 i nadmašuje o1-preview-ov 1258. Tako zastrašujući Elo rezultat znači da su mogućnosti kodiranja o1-minija u rangu s 86. percentilom najboljih programera koji se aktivno natječu na platformi Codeforces. Štoviše, o1-mini pokazuje stručnost u mjerilu kodiranja HumanEval i kibernetičkoj sigurnosti na razini srednje škole capture the flag challenges (CTF).
STEM
Specijalizacija o1-mini blista na akademskim mjerilima koja zahtijevaju rasuđivanje, kao što je skup podataka za odgovore na pitanja opće namjene (GPQA) za znanost i skup podataka MATH-500. U ovim procjenama, o1-mini nadmašuje performanse GPT-4o. Međutim, zbog svoje namjerne usredotočenosti na STEM, izvedba o1-minija na zadacima kao što je mjerilo Massive Multitask Language Understanding (MMLU) i određeni aspekti GPQA zaostaju za modelima sa širim svjetskim znanjem, kao što su GPT-4o i o1-preview.
Procjena ljudskih preferencija
Ljudski ocjenjivači su angažirani da usporede odgovore o1-mini s onima GPT-4o na izazovne, otvorene upite u različitim domenama. Metodologija je odražavala prethodnu usporedbu između o1-preview i GPT-4o. U skladu s o1-previewom, o1-mini je stekao prednost nad GPT-4o u domenama koje se uvelike oslanjaju na rezoniranje. Međutim, u domenama usmjerenim na jezik, GPT-4o je zadržao svoju prednost.
Brzina modela
Kompjuterska učinkovitost o1-mini pretvara se u opipljiva povećanja brzine. Konkretan primjer pokazao je pitanje s obrazloženjem riječi gdje su i o1-mini i o1-preview dali točne odgovore, dok je GPT-4o posustao. Impresivno, o1-mini je došao do rješenja približno 3-5 puta brže od o1-preview.
Davanje prioriteta sigurnosti
OpenAI održava svoju nepokolebljivu predanost sigurnosti obučavajući o1-mini korištenjem istih tehnika poravnanja i sigurnosti koje se koriste za o1-preview. Model pokazuje nevjerojatnih 59% veću otpornost na bjekstvo iz zatvora na internoj verziji skupa podataka StrongREJECT u usporedbi s GPT-4o. Prije implementacije, OpenAI je proveo detaljnu procjenu sigurnosnih rizika za o1-mini, pridržavajući se istog rigoroznog pristupa spremnosti, vanjskom crvenom timu i sigurnosnim procjenama kao i o1-preview. Sveobuhvatni rezultati ovih procjena javno su dostupni na priloženoj kartici sustava.
Priznavanje ograničenja i budućih smjerova
Iako se o1-mini ističe u STEM razmišljanju, njegova specijalizirana priroda rezultira činjeničnim znanjem o temama koje nisu vezane uz STEM, kao što su datumi, biografije i trivijalnosti, što je usporedivo s manjim LLM-ovima poput GPT-4o mini. OpenAI je aktivno predan rješavanju ovih ograničenja u budućim iteracijama modela. Osim toga, istražuju mogućnosti proširenja mogućnosti o1-mini na druge modalitete i specijalizirana područja izvan STEM-a.
Zaključak
OpenAI o1-mini predstavlja značajan korak prema demokratizaciji pristupa snažnim sposobnostima zaključivanja. Njegova troškovna učinkovitost, zajedno s iznimnim performansama u STEM domenama, pozicionira ga kao neprocjenjiv alat za široku lepezu aplikacija. Iako priznaje trenutna ograničenja, OpenAI-jeva predanost kontinuiranom poboljšanju i širenju obećava svijetlu budućnost za o1-mini i njegov potencijal da preoblikuje AI krajolik.