OpenAI o1-mini: Ekonomiczne rozumowanie STEM

Września 13, 2024

OpenAI zaprezentowało o1-mini, specjalistyczny model języka, starannie opracowany dla ekonomicznego rozumowania, szczególnie wyróżniający się w dziedzinach nauki, technologii, inżynierii i matematyki (STEM), ze szczególnym naciskiem na matematykę i kodowanie. Ten model osiąga niezwykły wyczyn, niemal dorównując wydajnością swojemu większemu odpowiednikowi, OpenAI o1, w rygorystycznych testach oceny, takich jak American Invitational Mathematics Examination (AIME) i Codeforces.

Pojawienie się o1-mini obiecuje zrewolucjonizować aplikacje, które wymagają solidnych możliwości rozumowania bez konieczności rozległej ogólnej wiedzy o świecie. Jego zoptymalizowany projekt przekłada się na szybsze i znacznie bardziej opłacalne rozwiązanie, gotowe zmienić krajobraz aplikacji AI skoncentrowanych na STEM.

OtwartaAI o1-mini

Skok w stronę dostępnego rozumowania

Platforma OpenAI o1-mini jest już dostępna dla użytkowników API Tier 5, zapoczątkowując nową erę przystępności cenowej i obniżając koszty o 80% w porównaniu z modelem OpenAI o1-preview. Dodatkowo, użytkownicy Chat Plus, Team, Enterprise i Edu mogą bezproblemowo korzystać z o1-mini jako atrakcyjnej alternatywy dla o1-preview, korzystając z zalet wyższych limitów przepustowości i mniejszych opóźnień.

Pionierskie rozumowanie zoptymalizowane pod kątem STEM

Duże modele językowe, takie jak o1, ​​są tradycyjnie wstępnie trenowane na kolosalnych zestawach danych tekstowych, co zapewnia im rozległą wiedzę o świecie. Jednak ta szerokość wiąże się z kosztami obliczeniowymi i wolniejszymi czasami wnioskowania. W ostrym przeciwieństwie, o1-mini przyjmuje bardziej ukierunkowane podejście, będąc specjalnie zoptymalizowanym pod kątem rozumowania STEM podczas fazy wstępnego trenowania. Przechodząc przez ten sam proces uczenia się przez wzmacnianie (RL) o wysokiej mocy obliczeniowej, co jego większy odpowiednik, o1-mini osiąga porównywalną wydajność w zakresie szeregu kluczowych zadań rozumowania, utrzymując jednocześnie znacznie korzystniejszy profil kosztów.

Oceny porównawcze podkreślają sprawność o1-mini w zadaniach wymagających inteligencji i rozumowania, gdzie stoi ramię w ramię z o1-preview i o1. Ważne jest jednak, aby przyznać, że wydajność o1-mini w zadaniach wymagających wiedzy faktograficznej spoza STEM nie jest tak silna, co podkreśla jego wyspecjalizowaną naturę.

Rozwikłanie metryk wydajności

matematyka

o1-mini pokazuje swoją przewagę konkurencyjną w wymagającym konkursie matematycznym AIME dla szkół średnich, zdobywając wynik 70.0%, co jest wynikiem bliskim wynikowi o1 wynoszącemu 74.4%. To osiągnięcie jest szczególnie godne uwagi, biorąc pod uwagę znacznie niższy koszt wnioskowania o1-mini. Co ciekawe, o1-mini przewyższa o1-preview, który uzyskał wynik 44.6%. Aby to ująć w perspektywie, wynik o1-mini, równoważny prawidłowej odpowiedzi na około 11 z 15 pytań, plasuje go w czołówce 500 najlepszych uczniów szkół średnich w USA.

Kodowanie

o1-mini kontynuuje imponującą passę w dziedzinie kodowania, uzyskując ocenę ELO 1650 na stronie internetowej konkursu Codeforces. Ta ocena plasuje go blisko ELO 1 o1673 i przewyższa 1 o1258-preview. Tak imponujący wynik ELO oznacza, że ​​możliwości kodowania o1-mini są porównywalne z 86. percentylem programistów aktywnie rywalizujących na platformie Codeforces. Ponadto o1-mini wykazuje biegłość w benchmarku kodowania HumanEval i wyzwaniach cyberbezpieczeństwa typu capture the flag (CTF) na poziomie szkoły średniej.

Nauka, technologia, inżynieria i matematyka

Specjalizacja o1-mini przejawia się w akademickich testach porównawczych, które wymagają rozumowania, takich jak zbiór danych General Purpose Question Answering (GPQA) dla nauk ścisłych i zbiór danych MATH-500. W tych ocenach o1-mini przewyższa wydajność GPT-4o. Jednakże ze względu na celowe skupienie się na STEM, wydajność o1-mini w zadaniach takich jak test porównawczy Massive Multitask Language Understanding (MMLU) i pewne aspekty GPQA ustępują modelom dysponującym szerszą wiedzą o świecie, takim jak GPT-4o i o1-preview.

Ocena preferencji człowieka

Oceniający ludzie zostali zaangażowani do porównania odpowiedzi o1-mini z odpowiedziami GPT-4o na trudne, otwarte pytania w różnych domenach. Metodologia odzwierciedlała poprzednie porównanie o1-preview i GPT-4o. Zgodnie z o1-preview, o1-mini zyskało pierwszeństwo przed GPT-4o w domenach silnie zależnych od rozumowania. Jednak w domenach skoncentrowanych na języku GPT-4o zachowało swoją przewagę.

Prędkość modelu

Wydajność obliczeniowa o1-mini przekłada się na namacalne zyski prędkości. Konkretny przykład pokazał pytanie z rozumowania słów, na które zarówno o1-mini, jak i o1-preview udzieliły poprawnych odpowiedzi, podczas gdy GPT-4o zawiodło. Co imponujące, o1-mini znalazło rozwiązanie około 3-5 razy szybciej niż o1-preview.

Priorytet bezpieczeństwa

OpenAI utrzymuje swoje niezachwiane zaangażowanie w bezpieczeństwo, trenując o1-mini przy użyciu tych samych technik dopasowania i bezpieczeństwa, które zastosowano w o1-preview. Model wykazuje niezwykłą, o 59% wyższą odporność na jailbreak w wewnętrznej wersji zestawu danych StrongREJECT w porównaniu z GPT-4o. Przed wdrożeniem OpenAI przeprowadziło skrupulatne oceny ryzyka bezpieczeństwa dla o1-mini, stosując się do tego samego rygorystycznego podejścia do gotowości, zewnętrznego red-teamingu i ocen bezpieczeństwa, co o1-preview. Kompleksowe wyniki tych ocen są publicznie dostępne w dołączonej karcie systemowej.

Uznanie ograniczeń i przyszłych kierunków

Podczas gdy o1-mini wyróżnia się w rozumowaniu STEM, jego wyspecjalizowana natura skutkuje wiedzą faktograficzną na tematy niezwiązane ze STEM, takie jak daty, biografie i ciekawostki, porównywalną do mniejszych LLM, takich jak GPT-4o mini. OpenAI aktywnie angażuje się w rozwiązywanie tych ograniczeń w przyszłych iteracjach modelu. Ponadto badają możliwości rozszerzenia możliwości o1-mini na inne modalności i wyspecjalizowane domeny wykraczające poza STEM.

Podsumowanie

OpenAI o1-mini stanowi znaczący krok w kierunku demokratyzacji dostępu do potężnych możliwości rozumowania. Jego opłacalność w połączeniu z wyjątkową wydajnością w domenach STEM pozycjonuje go jako nieocenione narzędzie dla szerokiej gamy aplikacji. Przy uznaniu obecnych ograniczeń, oddanie OpenAI ciągłemu doskonaleniu i ekspansji obiecuje świetlaną przyszłość dla o1-mini i jego potencjał do przekształcenia krajobrazu AI.