OpenAI har avslöjat o3-mini, den senaste modellen i sin resonemangsserie, designad för att leverera exceptionell prestanda inom STEM-områden, mjukvaruteknik och logisk problemlösning. Den här utgåvan förbättrar AI-tillgängligheten genom att bibehålla låga kostnader samtidigt som hastigheten och precisionen förbättras jämfört med föregångaren OpenAI o1-mini.
Efter förhandsvisningen i december 2024 är o3-mini nu officiellt tillgänglig i chatt- och API-tjänster. Den erbjuder en högre resonemangskapacitet, vilket gör den idealisk för uppgifter inom vetenskap, teknik, ingenjörskonst och matematik (STEM). Utvecklare kan utnyttja dess funktionsanrop, strukturerade utdata och utvecklarmeddelanden, vilket säkerställer större flexibilitet och produktionsklara applikationer.
Förbättrade funktioner och tillgänglighet
En av de mest efterlängtade uppdateringarna med OpenAI o3-mini är dess stöd för olika resonemangsnivåer, vilket gör det möjligt för användare att optimera modellen för hastighet eller komplexitet baserat på deras behov. Dessa lägen inkluderar:
- Låg resoneringsansträngning: Prioriterar hastighet med minimal beräkningskostnad.
- Medium Reasoning Effort: Balanserar noggrannhet och svarstid.
- High Reasoning Effort: Maximerar intelligens för komplexa uppgifter.
Till skillnad från OpenAI o1-mini introducerar o3-mini strukturerade sökfunktioner, vilket gör det möjligt för användare att få tillgång till aktuell information med relevanta webbkällor. Dessutom tredubblas meddelandegränserna för Chat Plus- och Team-användare, från 50 till 150 meddelanden per dag, vilket förbättrar tillgängligheten för frekventa användare.
För första gången har OpenAI gjort en resonemangsmodell tillgänglig för användare i fristående Chat, vilket gör det möjligt för dem att uppleva AI-assisterad logisk problemlösning genom att välja alternativet "Resonemang" i meddelandeskrivaren.
Prestandariktmärken: Överträffar tidigare modeller
OpenAI o3-mini överträffar sin föregångare, o1-mini, i olika vetenskapliga och matematiska riktmärken:
Matematik och kodning
- Matematiskt resonemang: Matchar OpenAI o1 i noggrannhet samtidigt som den erbjuder snabbare svarstider.
- Competition Math (AIME 2024): Överträffar o1-mini med hög resonemang.
- Codeforces konkurrenskraftig programmering: Uppnår högre Elo gör mål över resonemangsansträngningsnivåer.
- Software Engineering (SWE-Bench): Överträffar tidigare modeller och visar de bästa resultaten inom AI-assisterad mjukvaruutveckling.
Avancerad vetenskaplig kunskap
- Vetenskapsfrågor på doktorsnivå (GPQA Diamond): Utmärker sig i biologi, kemi och fysik och uppnår prestationsnivåer nära OpenAI o1.
- Matematik på forskningsnivå (FrontierMath): Med Python-verktygsintegration, o3-mini löser framgångsrikt över 32 % av problemen, Inklusive 28 % av de mest utmanande (T3) problemen.
Allmän kunskap och mänsklig preferens
- Utvärderingar visar en 56 % preferens för o3-mini-svar framför o1-mini.
- Minskar stora fel med 39 %, förbättra tillförlitligheten på difficult verkliga frågor.
Hastighets- och effektivitetsförbättringar
OpenAI o3-mini levererar svar 24 % snabbare än o1-mini, Vilket minskar genomsnittliga svarstider från 10.16 sekunder till 7.7 sekunder. I latenstest upprätthåller o3-mini en 2,500 XNUMX ms snabbare tid till första token, vilket säkerställer snabbare och mer flytande interaktioner.
Säkerhetsförbättringar och etisk AI-utveckling
OpenAI har integrerade deliberativa inriktningstekniker för att säkerställa att o3-mini genererar säkra, mänskligt anpassade svar. Omfattande tester visade att o3-mini avsevärt överträffar GPT-4o i säkerhetsutvärderingar, vilket gör den till en av OpenAI:s mest robusta modeller för att förhindra missbruk och jailbreak.
Genom externa röda team och systematiska säkerhetsutvärderingar fortsätter OpenAI att minska riskerna samtidigt som den optimerar AI-intelligens. Det senaste systemkortet ger insikter i otillåtna innehållsutvärderingar och säkerhetsprotokoll.
Vad är nästa steg för OpenAI?
Med o3-mini har OpenAI tagit ytterligare ett viktigt steg mot att göra avancerad AI-resonemang mer tillgänglig och kostnadseffektiv. Denna modell överensstämmer med företagets pågående uppdrag att minska prissättningen per token samtidigt som man bibehåller resonemangskapacitet på toppnivå.
När AI-användningen expanderar, fortsätter OpenAI att tänja på gränserna för intelligenta, effektiva och säkra AI-modeller, för att säkerställa att företag, utvecklare och studenter kan utnyttja AI för problemlösning, innovation och forskning.
Från och med idag är o3-mini tillgängligt för Chat Plus-, Team- och Pro-användare, med Enterprise-åtkomst lanserad i februari. API-åtkomst beviljas utvalda utvecklare i nivå 3-5.
För dem som vill utnyttja kraften i AI i STEM och mjukvaruutveckling, presenterar OpenAI o3-mini ett spännande steg framåt.