OpenAI는 멀티모달 모델인 GPT-4o에 기본적으로 통합된 지금까지 가장 진보된 이미지 생성 기능의 출시를 발표했습니다. 언어와 시각적 표현의 경계를 모호하게 하는 움직임에서 새로운 이미지 생성기는 아름다움과 유용성을 결합하여 사용자가 간단한 채팅 기반 프롬프트에서 사실적이고 텍스트가 정확하며 맥락을 인식하는 이미지를 생성할 수 있는 기능을 제공합니다.

예술에서 인포그래픽까지: 이미지 생성이 현실 세계 사용과 만납니다
예술적 초현실주의를 우선시하는 기존 이미지 모델과 달리 GPT-4o의 새로운 이미지 생성 기능은 실용적인 응용 프로그램을 위해 설계되었습니다. 교육용 다이어그램, 레스토랑 메뉴, 인포그래픽 또는 비디오 게임 자산을 만들든 이 도구는 정밀하고 맥락을 인식하는 비주얼을 제공하며, 생성적 비주얼 AI의 도약입니다.
OpenAI는 이 모델의 진화가 "이미지 생성을 커뮤니케이션 도구로 전환"하여 사용자가 구성과 스타일뿐만 아니라 텍스트 배치, 상징적 의미, 반복 작업 전반의 장면 연속성과 같은 기능적 요소도 지정할 수 있게 해준다고 말합니다.
"우리는 GPT-4o에 지금까지 가장 진보된 이미지 생성기를 구축했습니다."라고 회사는 발표했습니다. "결과적으로 아름다울 뿐만 아니라 유용한 이미지 생성입니다."
시각적 이해를 위한 새로운 기초
이 획기적인 진전의 핵심은 GPT-4o의 고유한 멀티모달 아키텍처로, 통합된 트랜스포머 내에서 비전과 언어를 통합합니다. 이를 통해 모델은 업로드된 이미지를 참조하고, 여러 단계의 편집에서 일관성을 유지하며, 후속 프롬프트에 지능적으로 응답할 수 있어 대화형 디자인 개선에서 대화형 프로토타입 제작에 이르기까지 모든 것에 적합합니다.
OpenAI가 선보인 사용 사례는 다음과 같습니다.
- 정확한 내러티브 페이싱을 갖춘 4개 패널로 구성된 만화 스트립
- 내장된 시각 자료와 실제 세계 맥락을 갖춘 뉴턴 프리즘 실험 인포그래픽
- 자세하고 믿을 수 있는 표지판(그리고 미묘한 유머)으로 가득한 뉴욕 윌리엄스버그의 거리 풍경
- 우아한 요리 그림과 올바른 텍스트 서식이 포함된 한국 레스토랑 메뉴
지시사항 따르기 및 문맥 정확도
테스트에서 GPT-4o는 최대 20개의 개별 객체를 올바른 관계로 렌더링하는 기능을 입증했는데, 이는 이전 모델이 종종 어려움을 겪었던 영역입니다. 또한 초대장, 간판, 대화형 UI 모형과 같은 복잡한 텍스트 요소를 안정적인 조판 및 레이아웃 제어로 처리합니다.
예를 들어, 사용자는 다음을 요청할 수 있습니다.
- 게임 UI 오버레이가 있는 미스터리 RPG 설정의 고양이 탐정
- 추수감사절 칠면조를 조각하는 데 사용되는 전기톱 광고. 유머러스한 슬로건이 적혀 있음
- 수채화 스타일로 그린 고래에 대한 자세한 교육 차트
안전, 출처 및 투명성
OpenAI는 인상적인 창의적 역량을 선보이는 한편, 안전과 콘텐츠 무결성에 대한 헌신을 강조합니다. 생성된 모든 이미지에는 C2PA 메타데이터가 포함되어 GPT-4o로 생성되었음을 나타냅니다. 이 시스템은 또한 내부 이미지 검색 도구를 통합하여 진위 여부를 확인하는 데 도움이 됩니다.
OpenAI는 해석 가능한 인간이 작성한 규칙을 사용하여 예외 사례를 식별하고 딥페이크나 폭력적인 영상 등 부적절한 콘텐츠를 차단함으로써 안전 정책 준수를 보장하는 추론 기반 검토 모델을 훈련했습니다.
다음을 포함하여 여전히 제한 사항이 남아 있습니다.
- 가끔씩 자르기 문제 발생
- 어려운culty 밀도 높은 다국어 또는 수학 텍스트 렌더링
- 특정 이미지 영역(예: 얼굴 세부 정보)에 대한 일관되지 않은 편집
회사 측은 개선이 진행 중이며, 사용자 피드백은 향후 업데이트에 중요한 역할을 할 것이라고 밝혔다.
가용성 및 액세스
GPT-4o 이미지 생성기는 오늘부터 Chat에서 Free, Plus, Pro 및 Team 사용자를 위해 제공되며, 곧 Enterprise 및 Education 고객에게도 제공될 예정입니다. API를 통한 접근은 향후 몇 주 안에 가능해질 예정이며, 이를 통해 개발자는 프로그래밍 방식으로 사용할 수 있게 됩니다.
사용자는 다음을 지정하여 간단한 대화형 프롬프트를 통해 이미지를 생성하고 반복할 수 있습니다.
- 화면 비율(예: 16:9)
- 배경색 또는 투명도
- 이미지 스타일(사실적, 인포그래픽, 만화 등)
- 특정 레이아웃 요소(텍스트, 아이콘, 위치 지정)
렌더링 시간이 길어지더라도(종종 최대 1분) OpenAI는 더 높은 세부 정보와 정밀성을 위해 그만한 가치가 있다고 주장합니다.
언어 모델을 위한 시각적 도약
GPT-4o는 네이티브 이미지 생성을 통해 커뮤니케이션이 텍스트를 초월하는 멀티모달 AI의 미래를 향한 결정적인 한 걸음을 내딛습니다. 과학적 다이어그램에서 스티커, 비디오 게임 프로토타입에서 시적인 결혼 초대장에 이르기까지 GPT-4o는 상상력이 정말로 한계가 없다는 것을 증명하고 있습니다.
이미지와 언어의 경계가 사라지면서 OpenAI의 최신 혁신은 단순히 이미지를 생성하는 방법뿐만 아니라 이미지를 사용하는 방법에 대한 생각 자체를 바꿀 수도 있습니다.