OpenAI объявила о запуске своей самой передовой на сегодняшний день возможности генерации изображений, которая теперь изначально интегрирована в ее мультимодальную модель GPT-4o. В движении, которое стирает границы между языком и визуальным выражением, новый генератор изображений сочетает красоту с полезностью, предоставляя пользователям возможность создавать фотореалистичные, точные по тексту и контекстно-зависимые изображения из простых подсказок в чате.
От искусства к инфографике: генерация изображений встречается с реальным использованием
В отличие от традиционных моделей изображений, которые отдают приоритет художественному сюрреализму, новая функция генерации изображений GPT-4o предназначена для практического применения. Независимо от того, создаете ли вы образовательные диаграммы, меню ресторанов, инфографику или ресурсы видеоигр, инструмент предоставляет визуальные эффекты с точностью и распознаванием контекста, что является шагом вперед для генеративного визуального ИИ.
OpenAI утверждает, что эта эволюция ее модели «превращает генерацию изображений в инструмент коммуникации», позволяя пользователям указывать не только композицию и стиль, но и функциональные элементы, такие как размещение текста, символическое значение и непрерывность сцены на протяжении итераций.
«Мы встроили наш самый продвинутый генератор изображений в GPT-4o», — заявила компания. «Результат — генерация изображений, которая не только красива, но и полезна».
Новая основа для визуального понимания
В основе этого прорыва лежит изначально мультимодальная архитектура GPT-4o, которая интегрирует зрение и язык в единый трансформатор. Это позволяет модели ссылаться на загруженные изображения, поддерживать согласованность при многошаговом редактировании и разумно реагировать на последующие подсказки, что делает ее подходящей для всего: от интерактивного усовершенствования дизайна до диалогового прототипирования.
Примеры использования, продемонстрированные OpenAI, включают:
- Четырехпанельный комикс с точным темпом повествования.
- Инфографика эксперимента с призмой Ньютона со встроенными визуальными эффектами и реальным контекстом
- Уличная сцена в Уильямсбурге, штат Нью-Йорк, наполненная подробными, правдоподобными знаками (и тонким юмором)
- Меню корейского ресторана с элегантными иллюстрациями блюд и правильным форматированием текста.
Выполнение инструкций и точность контекста
В тестах GPT-4o продемонстрировал способность отображать до 20 отдельных объектов с правильными отношениями, область, в которой предыдущие модели часто испытывали трудности. Он также обрабатывает сложные текстовые элементы, такие как пригласительные билеты, знаки и интерактивные макеты пользовательского интерфейса, с надежным набором и контролем макета.
Например, пользователи могут запросить:
- Кот-детектив в сеттинге детективной ролевой игры с наложениями игрового интерфейса
- Реклама бензопилы, используемой для разделки индейки на День благодарения, с юмористическим слоганом
- Подробная образовательная карта о китах в акварельном стиле
Безопасность, происхождение и прозрачность
Демонстрируя впечатляющие творческие возможности, OpenAI подчеркивает свою приверженность безопасности и целостности контента. Все сгенерированные изображения включают метаданные C2PA, указывающие на то, что они были созданы с помощью GPT-4o. Система также интегрирует внутренний инструмент поиска изображений, помогающий проверить подлинность.
Компания OpenAI обучила модель модерации на основе рассуждений, чтобы гарантировать соблюдение политик безопасности, используя интерпретируемые написанные человеком правила для выявления пограничных случаев и блокировки ненадлежащего контента, такого как дипфейки или сцены насилия.
Ограничения все еще сохраняются, в том числе:
- Иногда возникают проблемы с обрезкой
- Трудныйculty рендеринг плотного многоязычного или математического текста
- Непоследовательное редактирование определенных областей изображения (например, деталей лица)
Компания заявляет, что работа над улучшениями продолжается, и отзывы пользователей будут играть решающую роль в будущих обновлениях.
Наличие и доступ
Генератор изображений GPT-4o доступен с сегодняшнего дня в ChatGPT для пользователей Free, Plus, Pro и Team, и вскоре будет предложен клиентам Enterprise и Education. Доступ через API ожидается в ближайшие недели, что разблокирует программное использование для разработчиков.
Пользователи могут генерировать и изменять изображения с помощью простых диалоговых подсказок, указав:
- Соотношение сторон (например, 16:9)
- Цвет фона или прозрачность
- Стиль изображения (реалистичный, инфографический, комический и т. д.)
- Конкретные элементы макета (текст, значки, позиционирование)
Хотя время рендеринга увеличивается (часто до одной минуты), OpenAI утверждает, что это оправдано ради более высокой детализации и точности.
Визуальный скачок для языковых моделей
С собственной генерацией изображений GPT-4o делает решительный шаг к будущему мультимодального ИИ, где общение выходит за рамки текста. От научных диаграмм до наклеек, от прототипов видеоигр до поэтических свадебных приглашений — GPT-4o доказывает, что воображение действительно не знает границ.
Поскольку грань между изображением и языком стирается, последняя инновация OpenAI может изменить не только то, как мы создаем изображения, но и то, как мы думаем об их использовании в целом.