OpenAI o1-mini: Економічне обґрунтування STEM

Вересень 13, 2024

OpenAI представила o1-mini, спеціалізована мовна модель, ретельно розроблена для рентабельного міркування, особливо в сферах науки, технологій, інженерії та математики (STEM), з помітним акцентом на математиці та кодуванні. Ця модель досягла вражаючого результату, майже зрівнявшись із продуктивністю свого більшого аналога, OpenAI o1, за суворими контрольними тестами, такими як American Invitational Mathematics Examination (AIME) і Codeforces.

Поява o1-mini обіцяє революцію в програмах, які вимагають надійних можливостей міркувати без необхідності широких загальних знань. Його оптимізований дизайн перетворюється на швидше та значно економічніше рішення, готове змінити ландшафт додатків ШІ, орієнтованих на STEM.

OpenAI o1-міні

Стрибок до доступного міркування

OpenAI o1-mini тепер доступний для користувачів Tier 5 API, що відкриває нову еру доступності зі зниженням вартості на 80% порівняно з моделлю OpenAI o1-preview. Крім того, користувачі Chat Plus, Team, Enterprise та Edu можуть безперешкодно використовувати o1-mini як переконливу альтернативу o1-preview, насолоджуючись перевагами підвищених обмежень швидкості та зменшеної затримки.

Піонерське міркування, оптимізоване для STEM

Великі мовні моделі, такі як o1, традиційно попередньо навчаються на колосальних текстових наборах даних, надаючи їм широке знання світу. Однак ця широта досягається ціною обчислювальних витрат і повільнішим часом висновків. На відміну від цього, o1-mini використовує більш цілеспрямований підхід, будучи спеціально оптимізованим для міркувань STEM на етапі попереднього навчання. Завдяки тому ж конвеєру підкріпленого навчання (RL), що й його більший аналог, o1-mini досягає порівнянної продуктивності в низці важливих завдань міркування, зберігаючи при цьому значно вигідніший профіль витрат.

Порівняльні оцінки підкреслюють майстерність o1-mini у виконанні завдань інтелекту та мислення, де він стоїть пліч-о-пліч з o1-preview та o1. Однак важливо визнати, що ефективність o1-mini у завданнях, які вимагають знання фактів, не пов’язаних із STEM, не така висока, що підкреслює його спеціалізований характер.

Розгадування показників ефективності

математика

o1-mini демонструє свою конкурентоспроможність у складних математичних змаганнях середніх шкіл AIME, забезпечивши результат 70.0%, що майже конкурує з результатом o1 у 74.4%. Це досягнення особливо варте уваги, враховуючи значно нижчу вартість висновків o1-mini. Примітно, що o1-mini перевершує o1-preview, який набрав 44.6%. Щоб поглянути на це в перспективі, оцінка o1-mini, еквівалентна правильній відповіді приблизно на 11 із 15 запитань, позиціонує його серед 500 найкращих учнів середньої школи США.

Кодування

o1-mini продовжує свою вражаючу серію на арені програмування, досягнувши рейтингу Elo 1650 на веб-сайті конкурсу Codeforces. Цей рейтинг наближає його до показника Elo o1 1673 і перевершує показник Elo o1-preview 1258. Такий приголомшливий показник Elo означає, що можливості програмування o1-mini знаходяться на одному рівні з 86-м перцентилем програмістів, які активно конкурують на платформі Codeforces. Крім того, o1-mini демонструє майстерність тесту кодування HumanEval і кібербезпеки на рівні середньої школи capture the flag challenges (CTF).

STEM

Спеціалізація o1-mini проявляється в академічних тестах, які вимагають міркування, таких як набір даних із відповідями на питання загального призначення (GPQA) для науки та набір даних MATH-500. У цих оцінках o1-mini перевершує продуктивність GPT-4o. Однак завдяки навмисному фокусу на STEM продуктивність o1-mini в таких завданнях, як тест розуміння багатозадачної мови (MMLU) і певні аспекти GPQA, відстає від моделей із ширшим знанням світу, таких як GPT-4o та o1-preview.

Оцінка переваг людини

Людські оцінювачі були залучені для порівняння відповідей o1-mini з відповідями GPT-4o на складні відкриті підказки в різних сферах. Методологія відображала попереднє порівняння між o1-preview і GPT-4o. Відповідно до o1-preview, o1-mini отримав перевагу над GPT-4o у доменах, які сильно залежать від аргументації. Однак у доменах, орієнтованих на мову, GPT-4o зберіг свою перевагу.

Швидкість моделі

Ефективність обчислення o1-mini означає відчутне збільшення швидкості. Конкретний приклад продемонстрував запитання на обговорення слів, де як o1-mini, так і o1-preview надали правильні відповіді, тоді як GPT-4o порушувався. Вражаюче те, що o1-mini прийшов до рішення приблизно в 3-5 разів швидше, ніж o1-preview.

Пріоритет безпеки

OpenAI зберігає свою непохитну відданість безпеці, навчаючи o1-mini за допомогою тих самих методів вирівнювання та безпеки, які використовуються для o1-preview. Модель демонструє на 59% вищу стійкість до джейлбрейка у внутрішній версії набору даних StrongREJECT порівняно з GPT-4o. Перед розгортанням OpenAI провів ретельну оцінку ризиків безпеки для o1-mini, дотримуючись такого ж суворого підходу до готовності, зовнішньої команди та оцінювання безпеки, як і для o1-preview. Вичерпні результати цих оцінок є загальнодоступними на системній картці, що додається.

Визнаючи обмеження та майбутні напрямки

Незважаючи на те, що o1-mini перевершує міркування STEM, його спеціалізований характер призводить до фактичних знань з тем, не пов’язаних із STEM, таких як дати, біографії та дрібниці, що можна порівняти з меншими LLM, такими як GPT-4o mini. OpenAI активно працює над усуненням цих обмежень у майбутніх ітераціях моделі. Крім того, вони досліджують шляхи розширення можливостей o1-mini на інші модальності та спеціалізовані області за межами STEM.

Висновок

OpenAI o1-mini являє собою значний крок у напрямку демократизації доступу до потужних можливостей аргументації. Його економічна ефективність у поєднанні з винятковою продуктивністю в областях STEM позиціонує його як безцінний інструмент для широкого спектру застосувань. Визнаючи поточні обмеження, відданість OpenAI постійному вдосконаленню та розширенню обіцяє блискуче майбутнє для o1-mini та його потенціал змінити ландшафт ШІ.