OpenAI o1-mini: экономичное STEM-обоснование

сентябрь 13, 2024

OpenAI представил o1-mini, специализированная языковая модель, тщательно разработанная для экономически эффективного рассуждения, особенно преуспевающая в областях науки, технологий, инженерии и математики (STEM), с заметным акцентом на математике и кодировании. Эта модель достигает замечательного результата, почти сравнявшись с производительностью своего более крупного аналога, OpenAI o1, на строгих оценочных тестах, таких как American Invitational Mathematics Examination (AIME) и Codeforces.

Появление o1-mini обещает произвести революцию в приложениях, требующих надежных возможностей рассуждения без необходимости в обширных общих знаниях о мире. Его оптимизированная конструкция трансформируется в более быстрое и значительно более экономически эффективное решение, готовое изменить ландшафт приложений ИИ, ориентированных на STEM.

OpenAI o1-мини

Скачок к доступному мышлению

OpenAI o1-mini теперь доступен пользователям API Tier 5, открывая новую эру доступности с 80%-ным снижением стоимости по сравнению с моделью OpenAI o1-preview. Кроме того, ChatGPT Кроме того, пользователи Team, Enterprise и Edu могут без проблем использовать o1-mini в качестве привлекательной альтернативы o1-preview, наслаждаясь преимуществами повышенных ограничений скорости и сокращенной задержки.

Новаторское STEM-оптимизированное мышление

Большие языковые модели, такие как o1, традиционно предварительно обучаются на колоссальных текстовых наборах данных, что дает им обширные знания о мире. Однако эта широта достигается за счет вычислительных затрат и более медленного времени вывода. В резком контрасте с этим o1-mini использует более сфокусированный подход, будучи специально оптимизированным для рассуждений STEM во время фазы предварительного обучения. Проходя тот же высокопроизводительный конвейер обучения с подкреплением (RL), что и его более крупный аналог, o1-mini достигает сопоставимой производительности на ряде важных задач рассуждения, сохраняя при этом значительно более выгодный профиль затрат.

Сравнительные оценки подчеркивают мастерство o1-mini в задачах на интеллект и рассуждение, где он стоит плечом к плечу с o1-preview и o1. Однако важно признать, что производительность o1-mini в задачах, требующих фактических знаний, не относящихся к STEM, не столь высока, что подчеркивает его специализированный характер.

Раскрытие показателей производительности

Математика

o1-mini демонстрирует свое конкурентное преимущество в требовательном математическом конкурсе AIME для старших классов, набрав 70.0%, что близко к результату o1 в 74.4%. Это достижение особенно примечательно, учитывая значительно более низкую стоимость вывода o1-mini. В частности, o1-mini превосходит o1-preview, который набрал 44.6%. Для сравнения, результат o1-mini, эквивалентный правильным ответам примерно на 11 из 15 вопросов, помещает его в число 500 лучших учеников старших классов США.

Кодирование

o1-mini продолжает свою впечатляющую серию на арене кодирования, достигнув рейтинга Эло 1650 на сайте соревнований Codeforces. Этот рейтинг ставит его вплотную к Эло o1 1673 и превосходит 1 o1258-preview. Такой внушительный рейтинг Эло означает, что возможности кодирования o1-mini находятся на одном уровне с верхним 86-м процентилем программистов, активно соревнующихся на платформе Codeforces. Более того, o1-mini демонстрирует мастерство в тесте кодирования HumanEval и кибербезопасности на уровне школьных испытаний по захвату флага (CTF).

STEM

Специализация o1-mini ярко проявляется в академических тестах, требующих рассуждений, таких как набор данных General Purpose Question Answering (GPQA) для науки и набор данных MATH-500. В этих оценках o1-mini превосходит производительность ГПТ-4оОднако из-за своей целенаправленной ориентации на STEM производительность o1-mini при выполнении таких задач, как тест Massive Multitask Language Understanding (MMLU) и некоторые аспекты GPQA, отстает от моделей с более широкими мировыми знаниями, таких как GPT-4o и o1-preview.

Оценка человеческих предпочтений

Оценщики-люди были привлечены для сравнения ответов o1-mini с ответами GPT-4o на сложные открытые подсказки в различных доменах. Методология отражала предыдущее сравнение между o1-preview и GPT-4o. В соответствии с o1-preview, o1-mini получил предпочтение перед GPT-4o в доменах, в значительной степени зависящих от рассуждений. Однако в доменах, ориентированных на язык, GPT-4o сохранил свое преимущество.

Скорость модели

Вычислительная эффективность o1-mini приводит к ощутимому приросту скорости. Конкретный пример продемонстрировал вопрос на словесное рассуждение, где и o1-mini, и o1-preview дали правильные ответы, в то время как GPT-4o запнулся. Впечатляет, что o1-mini пришел к решению примерно в 3-5 раз быстрее, чем o1-preview.

Приоритет безопасности

OpenAI сохраняет свою непоколебимую приверженность безопасности, обучая o1-mini с использованием тех же методов выравнивания и безопасности, которые использовались для o1-preview. Модель демонстрирует замечательную на 59% более высокую устойчивость к джейлбрейку на внутренней версии набора данных StrongREJECT по сравнению с GPT-4o. Перед развертыванием OpenAI провела тщательную оценку рисков безопасности для o1-mini, придерживаясь того же строгого подхода к готовности, внешнему red-teaming и оценкам безопасности, что и o1-preview. Всесторонние результаты этих оценок общедоступны в прилагаемой системной карточке.

Признание ограничений и будущих направлений

Хотя o1-mini преуспевает в рассуждениях STEM, его специализированная природа приводит к фактическим знаниям по темам, не относящимся к STEM, таким как даты, биографии и мелочи, сопоставимым с меньшими LLM, такими как GPT-4o mini. OpenAI активно стремится устранить эти ограничения в будущих итерациях модели. Кроме того, они изучают пути расширения возможностей o1-mini на другие модальности и специализированные области за пределами STEM.

Заключение

OpenAI o1-mini представляет собой значительный шаг к демократизации доступа к мощным возможностям рассуждения. Его экономическая эффективность в сочетании с исключительной производительностью в областях STEM позиционирует его как бесценный инструмент для широкого спектра приложений. Признавая свои текущие ограничения, преданность OpenAI постоянному совершенствованию и расширению обещает светлое будущее для o1-mini и его потенциалу изменить ландшафт ИИ.