OpenAI o1-mini: Raționament STEM rentabil

Septembrie 13, 2024

OpenAI a dezvăluit o1-mini, un model de limbaj specializat conceput meticulos pentru un raționament eficient din punct de vedere al costurilor, excelând în special în domeniile Științei, Tehnologiei, Ingineriei și Matematicii (STEM), cu un accent marcat pe matematică și codificare. Acest model realizează o performanță remarcabilă, aproape egalând performanța omologul său mai mare, OpenAI o1, pe criterii de evaluare riguroase, cum ar fi American Invitational Mathematics Examination (AIME) și Codeforces.

Apariția lui o1-mini promite să revoluționeze aplicațiile care necesită capacități de raționament robuste, fără a fi nevoie de cunoștințe generale extinse ale lumii. Designul său optimizat se traduce într-o soluție mai rapidă și semnificativ mai rentabilă, gata să remodeleze peisajul aplicațiilor AI centrate pe STEM.

OpenAI o1-mini

Un salt spre raționament accesibil

OpenAI o1-mini este acum disponibil pentru utilizatorii API Tier 5, inaugurând o nouă eră a accesibilității, cu o reducere a costurilor de 80% față de modelul OpenAI o1-preview. În plus, utilizatorii Chat Plus, Team, Enterprise și Edu pot utiliza fără probleme o1-mini ca o alternativă convingătoare la o1-preview, bucurându-se de avantajele limitelor de rată sporite și a latenței reduse.

Raționament de pionierat optimizat pentru STEM

Modelele de limbă mari, cum ar fi o1, sunt în mod tradițional pre-antrenate pe seturi de date de text colosale, oferindu-le cunoștințe extinse despre lume. Cu toate acestea, această amploare vine cu costul cheltuielilor de calcul și a timpilor de inferență mai lenți. În contrast puternic, o1-mini adoptă o abordare mai concentrată, fiind optimizat în mod special pentru raționamentul STEM în timpul fazei sale de preantrenament. Trecând prin aceeași conductă de învățare cu consolidare a calculului (RL) ca și omologul său mai mare, o1-mini atinge performanțe comparabile într-o serie de sarcini de raționament cruciale, menținând în același timp un profil de cost semnificativ mai favorabil.

Evaluările de referință subliniază priceperea lui o1-mini în sarcinile de inteligență și raționament, unde se află umăr la umăr cu o1-preview și o1. Cu toate acestea, este important să recunoaștem că performanța lui o1-mini la sarcini care necesită cunoștințe faptice non-STEM nu este la fel de puternică, evidențiind natura sa specializată.

Dezvăluirea valorilor de performanță

Matematică

o1-mini își arată avantajul competitiv în competiția de matematică AIME din liceu, obținând un scor de 70.0%, rivalizând îndeaproape cu scorul lui o1 de 74.4%. Această realizare este deosebit de remarcabilă având în vedere costul de inferență semnificativ mai mic al o1-mini. În special, o1-mini depășește o performanță pe o1-preview, care a atins un scor de 44.6%. Pentru a pune acest lucru în perspectivă, scorul lui o1-mini, echivalent cu răspunsul corect la aproximativ 11 din 15 întrebări, îl poziționează în topul celor 500 de liceeni din SUA.

Codificare

o1-mini își continuă succesul impresionant în arena de codare, atingând un rating Elo de 1650 pe site-ul de competiție Codeforces. Acest rating îl plasează în imediata apropiere a Elo de 1 de la o1673 și depășește 1 de la o1258-preview. Un astfel de scor Elo formidabil înseamnă că capacitățile de codare ale o1-mini sunt la egalitate cu cea de-a 86-a percentila de programatori care concurează activ pe platforma Codeforces. Mai mult, o1-mini demonstrează competență în standardul de codificare HumanEval și securitatea cibernetică la nivel de liceu captează provocările standard (CTF).

STEM

Specializarea o1-mini strălucește pe repere academice care necesită raționament, cum ar fi setul de date cu răspunsuri generale la întrebări (GPQA) pentru știință și setul de date MATH-500. În aceste evaluări, o1-mini depășește performanța de GPT-4o. Cu toate acestea, datorită concentrării deliberate pe STEM, performanța lui o1-mini în sarcini precum benchmark-ul Massive Multitask Language Understanding (MMLU) și anumite aspecte ale GPQA se află în spatele modelelor cu cunoștințe mai ample despre lume, cum ar fi GPT-4o și o1-preview.

Evaluarea preferințelor umane

Evaluatorii umani au fost recrutați pentru a compara răspunsurile lui o1-mini cu cele ale GPT-4o la solicitări provocatoare și deschise în diverse domenii. Metodologia a reflectat comparația anterioară între o1-preview și GPT-4o. În conformitate cu previzualizarea o1, o1-mini a obținut preferință față de GPT-4o în domeniile care se bazează în mare măsură pe raționament. Cu toate acestea, în domeniile axate pe limbă, GPT-4o și-a păstrat avantajul.

Viteza modelului

Eficiența de calcul a lui o1-mini se traduce prin câștiguri tangibile de viteză. Un exemplu concret a prezentat o întrebare de raționament a cuvintelor în care atât o1-mini, cât și o1-preview au oferit răspunsuri corecte, în timp ce GPT-4o s-a clătinat. Impresionant, o1-mini a ajuns la soluție de aproximativ 3-5 ori mai rapid decât o1-preview.

Prioritizarea siguranței

OpenAI își menține angajamentul neclintit față de siguranță prin antrenarea o1-mini folosind aceleași tehnici de aliniere și siguranță folosite pentru o1-preview. Modelul demonstrează o robustețe remarcabilă la jailbreak cu 59% mai mare pe o versiune internă a setului de date StrongREJECT în comparație cu GPT-4o. Înainte de implementare, OpenAI a efectuat evaluări meticuloase ale riscurilor de siguranță pentru o1-mini, aderând la aceeași abordare riguroasă a pregătirii, a formării de echipe externe și a evaluărilor de siguranță ca și o1-preview. Rezultatele cuprinzătoare ale acestor evaluări sunt disponibile public în cardul de sistem alăturat.

Recunoașterea limitărilor și direcțiilor viitoare

În timp ce o1-mini excelează în raționamentul STEM, natura sa specializată are ca rezultat cunoștințe faptice pe subiecte non-STEM, cum ar fi datele, biografiile și trivia, fiind comparabile cu LLM-urile mai mici precum GPT-4o mini. OpenAI se angajează activ să abordeze aceste limitări în viitoarele iterații ale modelului. În plus, ei explorează căi de extindere a capabilităților o1-mini la alte modalități și domenii specializate dincolo de STEM.

Concluzie

OpenAI o1-mini reprezintă un pas semnificativ către democratizarea accesului la capabilități puternice de raționament. Eficiența costurilor, împreună cu performanța excepțională în domeniile STEM, îl poziționează ca un instrument de neprețuit pentru o gamă largă de aplicații. Deși își recunoaște limitările actuale, devotamentul OpenAI pentru îmbunătățirea și extinderea continuă promite un viitor luminos pentru o1-mini și potențialul său de a remodela peisajul AI.