OpenAI har avduket o1-mini, en spesialisert språkmodell omhyggelig utformet for kostnadseffektiv resonnement, spesielt utmerkede innen vitenskap, teknologi, ingeniørvitenskap og matematikk (STEM), med en markert vekt på matematikk og koding. Denne modellen oppnår en bemerkelsesverdig bragd ved å nesten matche ytelsen til sin større motpart, OpenAI o1, på strenge evalueringsreferanser som American Invitational Mathematics Examination (AIME) og Codeforces.
Fremkomsten av o1-mini lover å revolusjonere applikasjoner som krever robuste resonneringsevner uten at det er nødvendig med omfattende generell verdenskunnskap. Dens optimaliserte design oversetter til en raskere og betydelig mer kostnadseffektiv løsning, klar til å omforme landskapet av STEM-fokuserte AI-applikasjoner.

Et sprang mot tilgjengelig resonnement
OpenAI o1-mini er nå tilgjengelig for Tier 5 API-brukere, og innleder en ny æra av overkommelighet med en kostnadsreduksjon på 80 % sammenlignet med OpenAI o1-preview-modellen. I tillegg kan Chat Plus-, Team-, Enterprise- og Edu-brukere sømløst utnytte o1-mini som et attraktivt alternativ til o1-preview, og dra nytte av økte hastighetsgrenser og redusert ventetid.
Banebrytende STEM-optimalisert resonnement
Store språkmodeller som o1 er tradisjonelt forhåndstrent på kolossale tekstdatasett, og gir dem ekspansiv verdenskunnskap. Imidlertid kommer denne bredden på bekostning av beregningskostnader og langsommere slutningstider. I sterk kontrast, bruker o1-mini en mer fokusert tilnærming ved å være spesifikt optimalisert for STEM-resonnement under fortreningsfasen. Ved å gjennomgå den samme pipeline for høy-komputer forsterkning (RL) som sin større motpart, oppnår o1-mini sammenlignbar ytelse på en rekke viktige resonneringsoppgaver, samtidig som den opprettholder en betydelig mer gunstig kostnadsprofil.
Benchmark-evalueringer understreker o1-minis dyktighet i intelligens- og resonneringsoppgaver, der den står skulder-til-skulder med o1-forhåndsvisning og o1. Det er imidlertid viktig å erkjenne at o1-minis ytelse på oppgaver som krever ikke-STEM faktakunnskap ikke er like sterk, noe som understreker dens spesialiserte natur.
Avdekke ytelsesberegninger
matematikk
o1-mini viser frem sitt konkurransefortrinn i den krevende AIME-mattekonkurransen for videregående skoler, og oppnår en poengsum på 70.0 %, som er tett konkurrerende med o1s poengsum på 74.4 %. Denne prestasjonen er spesielt bemerkelsesverdig med tanke på o1-minis betydelig lavere slutningskostnad. Spesielt overgår o1-mini o1-preview, som oppnådde en poengsum på 44.6 %. For å sette dette i perspektiv, plasserer o1-mini sin poengsum, som tilsvarer å svare riktig på omtrent 11 av 15 spørsmål, den blant de 500 beste amerikanske videregående elevene.
Koding
o1-mini fortsetter sin imponerende rekke på kodingsarenaen, og oppnår en Elo-rating på 1650 på Codeforces konkurransenettsted. Denne vurderingen plasserer den i umiddelbar nærhet til o1s Elo på 1673 og overgår o1-previews 1258. En slik formidabel Elo-score betyr at o1-minis kodefunksjoner er på nivå med den øverste 86. persentilen av programmerere som aktivt konkurrerer på Codeforces-plattformen. Dessuten demonstrerer o1-mini ferdigheter i HumanEval-kodingsreferansen, og cybersikkerhet på videregående nivå fanger flaggutfordringene (CTF-er).
STEM
o1-minis spesialisering skinner igjennom på akademiske benchmarks som krever resonnement, for eksempel datasettet General Purpose Question Answering (GPQA) for vitenskap og MATH-500 datasettet. I disse evalueringene overgår o1-mini ytelsen til GPT-4o. På grunn av dets bevisste fokus på STEM, sporer o1-minis ytelse på oppgaver som Massive Multitask Language Understanding (MMLU) benchmark og visse aspekter av GPQA bak modeller med bredere verdenskunnskap, som GPT-4o og o1-preview.
Evaluering av menneskelige preferanser
Menneskelige vurderere ble vervet til å sammenligne o1-minis svar med svarene til GPT-4o på utfordrende, åpne spørsmål på tvers av forskjellige domener. Metodikken speilet den forrige sammenligningen mellom o1-preview og GPT-4o. I samsvar med o1-preview fikk o1-mini preferanse fremfor GPT-4o i domener som er sterkt avhengige av resonnement. I språkfokuserte domener beholdt imidlertid GPT-4o sin fordel.
Modellhastighet
o1-minis beregningseffektivitet oversettes til konkrete hastighetsgevinster. Et konkret eksempel viste frem et ordresonneringsspørsmål der både o1-mini og o1-preview ga riktige svar, mens GPT-4o vaklet. Imponerende nok kom o1-mini frem til løsningen omtrent 3-5 ganger raskere enn o1-preview.
Prioritering av sikkerhet
OpenAI opprettholder sin urokkelige forpliktelse til sikkerhet ved å trene o1-mini ved å bruke samme justering og sikkerhetsteknikker som brukes for o1-forhåndsvisning. Modellen demonstrerer en bemerkelsesverdig 59 % høyere jailbreak-robusthet på en intern versjon av StrongREJECT-datasettet sammenlignet med GPT-4o. Før utplasseringen gjennomførte OpenAI grundige sikkerhetsrisikovurderinger for o1-mini, og fulgte den samme strenge tilnærmingen til beredskap, ekstern red-teaming og sikkerhetsevalueringer som o1-preview. Omfattende resultater fra disse evalueringene er offentlig tilgjengelig i det medfølgende systemkortet.
Erkjenner begrensninger og fremtidige retninger
Mens o1-mini utmerker seg i STEM-resonnement, resulterer dens spesialiserte natur i at faktakunnskap om ikke-STEM-emner, som datoer, biografier og trivia, kan sammenlignes med mindre LLM-er som GPT-4o mini. OpenAI er aktivt forpliktet til å adressere disse begrensningene i fremtidige iterasjoner av modellen. I tillegg utforsker de muligheter for å utvide o1-minis muligheter til andre modaliteter og spesialiserte domener utover STEM.
Konklusjon
OpenAI o1-mini representerer et betydelig skritt mot å demokratisere tilgangen til kraftige resonneringsevner. Dens kostnadseffektivitet, kombinert med eksepsjonell ytelse i STEM-domener, posisjonerer den som et uvurderlig verktøy for et bredt spekter av applikasjoner. Mens vi anerkjenner de nåværende begrensningene, lover OpenAIs dedikasjon til kontinuerlig forbedring og utvidelse en lys fremtid for o1-mini og dets potensial til å omforme AI-landskapet.