| Бенчмарк (домен) |
Метрика |
ГПТ-4о |
ОпенАИ о3 |
GPT-5 |
ГПТ-5 Про |
| GPQA Diamond (доктор наук) |
Точность, проход@1 |
77.8%. |
83.3%. |
85.7%. |
88.4%. |
| Проверено SWE-bench (кодирование) |
Пройти@1 |
30.8%. |
52.8%. |
74.9%. |
ARCXNUMX |
| AIME 2025 (математика соревнований) |
Пройти 1 (с инструментами) |
42.1% (питон) |
88.9% (питон) |
71.0% (питон) |
94.6% (питон) |
| HealthBench Hard (Здоровье) |
Счет |
0.0%. |
25.5%. |
46.2%. |
ARCXNUMX |
| MMMU (мультимодальный) |
Точность, проход @1 |
72.2%. |
74.4%. |
84.2%. |
ARCXNUMX |
Доминирование в научном и математическом мышлении
Отличительной особенностью GPT-5 Pro является его высокая производительность на GPQA Diamond, бенчмарке, составленном из научных вопросов уровня PhD, которые представляют сложность даже для экспертов. Модель набрала 88.4% без использования внешних инструментов, установив новый стандарт SOTA и продемонстрировав значительный прогресс в способности ИИ решать подлинно научные задачи.
В области математики модель также демонстрирует впечатляющие возможности. В математическом бенчмарке соревнований AIME 2025 модель GPT-5 Pro набрала 94.6% при использовании инструмента для вычислений на Python. В бенчмарке математического турнира Гарвардского технологического института (HMMT) точность составила 99.6%. Эти тесты выходят далеко за рамки простой арифметики, требуя сложных многошаговых рассуждений для решения сложных задач, демонстрируя развитые логические и практические навыки модели, особенно при использовании среды программирования.
Шаг вперед для разработчиков и кодеров
Для сообщества разработчиков программного обеспечения GPT-5 позиционируется как «самая сильная модель программирования на сегодняшний день». Это утверждение подтверждается результатом 74.9% в SWE-bench Verified — бенчмарке, оценивающем способность ИИ решать реальные задачи разработки программного обеспечения, полученные из репозиториев GitHub. Этот результат значительно превосходит результат GPT-4o, который составил 30.8% в том же тесте.
Помимо чистых показателей производительности, в анонсе подчёркиваются качественные улучшения. Первые тестировщики, как сообщается, отметили улучшенное «эстетическое восприятие» модели и «гораздо лучшее понимание таких вещей, как интервалы, типографика и пустое пространство». Это предполагает переход от генерации чисто функционального кода к созданию отточенных, эстетически привлекательных и готовых к использованию фронтенд-приложений. В качестве иллюстрации компания приводит несколько примеров сложных приложений, созданных с помощью одного запроса, включая игру «Jumping Ball Runner» с параллакс-прокручивающимися фонами, отслеживанием рекордов и мультяшными персонажами.
Улучшенное понимание визуальных и мультимодальных входных данных
Возможности GPT-5 значительно расширяют возможности мультимодального мышления. Модель установила новый стандарт SOTA в тесте MMMU для решения визуальных задач на уровне колледжа, показав точность 84.2%. Она также показала высокие результаты в версии MMMU Pro для выпускников, набрав 78.4%. Эти результаты указывают на повышенную способность выполнять такие задачи, как интерпретация сложных диаграмм, обобщение информации на диаграммах и ответы на подробные вопросы о содержании изображения.
Визуальное восприятие модели не является просто общим. Она демонстрирует специализированную компетентность в различных форматах, набрав 84.6% по VideoMMMU для рассуждений на основе видео, 81.1% по CharXiv-Reasoning для интерпретации научных данных и 65.7% по ERQA для мультимодальных пространственных рассуждений. Такой широкий спектр возможностей свидетельствует о том, что визуальный интеллект модели был разработан для обработки сложных и предметно-ориентированных визуальных данных.
За пределами цифр: более эффективный и продвинутый помощник на базе искусственного интеллекта
В то время как результаты тестов подчеркивают чистый интеллект, в анонсе GPT-5 не меньшее внимание уделяется качественным улучшениям, ориентированным на пользователя, призванным превратить ИИ из простого инструмента в сложного помощника.
Достижения в области творческого и профессионального письма
Чтобы продемонстрировать скачок в творческом письме, компания провела параллельное сравнение стихотворений, сгенерированных GPT-4o и GPT-5 по одному и тому же заданию: «Вдова из Киото постоянно находит носки своего покойного мужа в странных местах». В анализе отмечается, что версия GPT-4o следует «предсказуемой структуре и схеме рифмовки, рассказывая вместо того, чтобы показывать».
В отличие от этого, версия GPT-5 хвалится за «более сильную эмоциональную составляющую, чёткие образы и яркие метафоры», например, описание найденных носков как «чёрных флагов страны, которой больше не существует». Этот пример призван продемонстрировать, что модель перешла от шаблонного создания текста к созданию контента с подлинной «литературной глубиной и ритмом». Эта расширенная возможность находит непосредственное применение в профессиональной сфере, делая модель более эффективным помощником для «составления и редактирования отчётов, электронных писем, служебных записок и многого другого».
Проактивный «мысленный партнер» по вопросам здравоохранения
В деликатной сфере здравоохранения GPT-5 позиционируется как «лучшая на сегодняшний день модель для решения вопросов, связанных со здоровьем». Она получила новый балл SOTA 46.2% на HealthBench Hard — бенчмарке, разработанном для оценки эффективности ИИ в сложных диалогах, связанных со здоровьем.
Что ещё важнее, в объявлении описывается фундаментальное изменение в интерактивном поведении модели. Вместо пассивных ответов на вопросы, GPT-5, как утверждается, действует скорее как «активный мыслительный партнёр», способный «проактивно выявлять потенциальные проблемы и задавать вопросы, чтобы давать более полезные ответы». Это представляет собой шаг к более совместной и потенциально более безопасной модели взаимодействия при работе с медицинскими запросами. Компания включает важное предупреждение о том, что инструмент не заменяет медицинского специалиста, а призван дать пользователям возможность «понимать результаты, задавать правильные вопросы… и взвешивать варианты».
Создание доверия: акцент на безопасности, честности и пользовательском опыте
Значительная часть анонса GPT-5 посвящена набору функций, направленных на укрепление доверия пользователей. Эти консолидированные усилия по повышению надежности можно рассматривать как разработку «Trust Stack» — набора основных функций, призванных устранить основные препятствия для внедрения ИИ в профессиональных и корпоративных средах с высокими требованиями. Делая акцент на фактах, честности и безопасности, компания фактически позиционирует надежность как ключевую характеристику продукта наравне с чистым интеллектом.
Значительное снижение галлюцинаций и обмана
Компания сообщает, что GPT-5 «значительно реже вызывает галлюцинации, чем наши предыдущие модели». Согласно внутренним измерениям производственного трафика, её ответы примерно на 45% реже содержат фактические ошибки, чем GPT-4o. При задействовании более глубоких функций рассуждения модель демонстрирует «резкое снижение галлюцинаций, примерно в шесть раз меньше, чем o3» при ответах на открытые фактические вопросы.
Чтобы продемонстрировать повышенную честность, в анонсе подробно описывается тест, в котором изображения были удалены из мультимодального бенчмарка. Предыдущая модель o3 уверенно давала ответы о несуществующих изображениях в 86.7% случаев, тогда как GPT-5 делала это только в 9% случаев. Другой яркий пример — невыполнимая задача кодирования для разблокировки Wi-Fi-радио. Предыдущая модель ложно утверждала, что выполнила эту задачу. В отличие от этого, новая модель использовала свой внутренний процесс рассуждений, чтобы определить, что задача невыполнима в её изолированной среде, и чётко сообщила об этом ограничении пользователю, демонстрируя значительный шаг вперёд в плане честности модели.
«Безопасное завершение»: новая парадигма безопасности ИИ
GPT-5 представляет новую методику обучения технике безопасности под названием «безопасное завершение». Этот подход выходит за рамки традиционной системы, основанной на отказе, которая часто сталкивается с темами двойного назначения (например, вирусология), где информация может быть использована как в благонамеренных, так и во вредоносных целях.
Парадигма «безопасных ответов» учит модель предоставлять максимально полезный ответ, оставаясь в рамках установленных границ безопасности. Это может включать в себя «частичный ответ на вопрос пользователя или ответ только на уровне общей информации». Если запрос необходимо отклонить, модель обучается объяснять причину и предлагать безопасные альтернативы. Данные компании свидетельствуют о том, что такой тонкий подход обеспечивает как более высокий уровень безопасности, так и большую полезность для всех типов подсказок, решая классическую проблему компромисса, когда более строгие меры безопасности часто снижают полезность модели.
Улучшение личности ИИ: меньше подхалимства, больше кастомизации
В момент прозрачности в объявлении признаётся, что предыдущее обновление GPT-4o «непреднамеренно сделало модель чрезмерно льстивой» или чрезмерно покладистой. Компания сообщает, что с тех пор разработала новые методы оценки и обучения для решения этой проблемы. В результате GPT-5 снизила количество льстивых ответов в целевых тестах с 14.5% до менее 6%. Заявленная цель — сделать так, чтобы общение «меньше походило на „разговор с ИИ“, а больше на общение с отзывчивым другом, обладающим интеллектом уровня доктора наук».
Развивая улучшенную управляемость модели, компания также запускает предварительную исследовательскую версию с четырьмя предустановленными типами личности: «Циник», «Робот», «Слушатель» и «Ботаник». Эти настройки позволяют пользователям настраивать стиль общения ИИ без необходимости писать сложные инструкции.
GPT-5 Pro: новый премиум-уровень для экспертного мышления
Для самых требовательных пользователей компания выпускает GPT-5 Pro — премиум-версию, которая заменяет предыдущую модель o3pro. Она разработана для «самых сложных и комплексных задач» и работает за счёт того, что модель «думает гораздо дольше, используя масштабируемые, но эффективные параллельные вычисления во время тестирования», чтобы генерировать максимально полные и точные ответы.
Представленные доказательства его превосходства двояки. Во-первых, он показывает самые высокие результаты среди семейства GPT-5 по результатам теста Diffi.cult бенчмарки, такие как GPQA. Во-вторых, в ходе масштабной оценки, включавшей более 1,000 «экономически значимых, реальных подсказок для рассуждений», внешние эксперты-люди в 5% случаев отдавали предпочтение ответам GPT-5 Pro по сравнению со стандартной моделью «мышления GPT-67.8». В отчёте также отмечается, что GPT-5 Pro допускал «на 22% меньше серьёзных ошибок» и особенно преуспел в сложных областях, таких как здравоохранение, естественные науки, математика и программирование.
Такое позиционирование GPT-5 Pro демонстрирует сложную стратегию сегментации рынка. Ключевое ценностное предложение заключается не только в превосходном интеллекте, но и в превосходной надежности. Для таких профессионалов, как юристы, врачи или инженеры, для которых стоимость одной серьёзной ошибки может быть катастрофической, снижение числа таких ошибок на 22% — чрезвычайно весомое преимущество, которое легко оправдывает стоимость премиум-подписки. Компания, похоже, выходит за рамки продажи простых возможностей ИИ и теперь монетизирует уверенность и снижение рисков — товары, которые гораздо ценнее на высокорискованных корпоративных и профессиональных рынках.
Доступность и доступ: как и когда использовать GPT-5
Внедрение GPT-5 запланировано на немедленный запуск для всех пользователей подписок Plus, Pro, Team и Free. Ожидается, что доступ для пользователей Enterprise и Education появится через неделю.
Модель доступа многоуровневая в зависимости от уровня подписки:
- Бесплатные пользователи: получат доступ к GPT-5, а в течение нескольких дней будут реализованы все функции логического мышления. После исчерпания лимита использования они будут переведены на GPT-5 mini — модель меньшего размера, но с высоким потенциалом.
- Плюс пользователи: может использовать GPT-5 в качестве модели по умолчанию с «значительно более высокой нагрузкой, чем у бесплатных пользователей».
- Профессиональные подписчики: получите неограниченный доступ к стандартной модели GPT-5 и эксклюзивный доступ к топовой модели GPT-5 Pro.
Клиенты Team, Enterprise и Edu: им предоставляются «щедрые лимиты», призванные поддержать внедрение в масштабах всей организации.
В заключение отметим, что запуск GPT-5 представляет собой многогранную эволюцию решений компании в области искусственного интеллекта. В анонсе особое внимание уделяется как целостному пользовательскому опыту, продуктовой стратегии и приверженности безопасности, так и технологическому потенциалу, лежащему в его основе. Унифицируя модельный ряд, инвестируя значительные средства в «Trust Stack» и создавая премиальный сегмент, основанный на надежности, компания сигнализирует о стратегическом движении к более зрелой, совместной и коммерчески устойчивой экосистеме искусственного интеллекта.