OpenAI משיקה יצירת תמונות GPT-4o

מר 28, 2025

OpenAI הכריזה על השקת יכולת יצירת התמונות המתקדמת ביותר שלה עד כה, המשולבת כעת באופן מקורי בדגם הרב-מודאלי שלה, GPT-4o. בצעד המטשטש את הגבולות בין שפה לביטוי חזותי, מחולל התמונות החדש משלב יופי עם שימושיות, ומעניק למשתמשים את היכולת ליצור תמונות פוטוריאליסטיות, מדויקות בטקסט ומודעות להקשר מהנחיות פשוטות מבוססות צ'אט.

יצירת תמונות GPT-4o

מאמנות לאינפוגרפיקה: יצירת תמונות פוגשת שימוש בעולם האמיתי

שלא כמו דגמי תמונה מסורתיים שמתעדפים סוריאליזם אמנותי, פונקציית יצירת התמונה החדשה של GPT-4o מיועדת ליישום מעשי. בין אם אתה יוצר דיאגרמות חינוכיות, תפריטי מסעדות, אינפוגרפיקה או נכסי משחקי וידאו, הכלי מספק ויזואליות בדייקנות ובמודעות להקשר, קפיצת מדרגה עבור בינה מלאכותית ויזואלית.

OpenAI אומרת שהאבולוציה הזו של המודל שלה "הופכת את יצירת התמונה לכלי לתקשורת", ומאפשרת למשתמשים לציין לא רק קומפוזיציה וסגנון, אלא גם אלמנטים פונקציונליים כמו מיקום טקסט, משמעות סמלית והמשכיות של סצנה על פני איטרציות.

"בנינו את מחולל התמונות המתקדם ביותר שלנו עד כה לתוך GPT-4o", הודיעה החברה. "התוצאה - יצירת תמונות שהיא לא רק יפה, אלא שימושית."

בסיס חדש להבנה חזותית

הליבה של פריצת דרך זו היא הארכיטקטורה המולטי-מודאלית המקורית של GPT-4o, המשלבת חזון ושפה בתוך שנאי מאוחד. זה מאפשר למודל להתייחס לתמונות שהועלו, לשמור על קוהרנטיות על פני עריכות מרובות שלבים ולהגיב בצורה חכמה להנחיות מעקב, מה שהופך אותו למתאים היטב לכל דבר, החל משכלול עיצוב אינטראקטיבי ועד יצירת אב טיפוס שיחה.

מקרי שימוש שהוצגו על ידי OpenAI כוללים:

  • סרט קומיקס בן ארבעה פאנלים עם קצב נרטיבי מדויק
  • אינפוגרפיקה של ניסוי פריזמה של ניוטון עם חזותיים מוטבעים והקשר בעולם האמיתי
  • סצנת רחוב בוויליאמסבורג, ניו יורק מלאה בסימנים מפורטים ואמינים (והומור עדין)
  • תפריט למסעדה קוריאנית, עם איורי מנות אלגנטיים ועיצוב טקסט נכון

מעקב אחר הוראות ודיוק ההקשר

בבדיקות, GPT-4o הוכיח את היכולת להציג עד 20 אובייקטים נפרדים עם מערכות יחסים נכונות, תחום שבו הדגמים הקודמים התקשו לעתים קרובות. הוא גם מטפל באלמנטים טקסטואליים מורכבים, כגון כרטיסי הזמנה, שלטים ותמונת ממשק משתמש אינטראקטיבית, עם שליטה מהימנה של כתיבה ועיצוב.

לדוגמה, משתמשים יכולים לבקש:

  • בלש חתולים בהגדרת RPG מסתורית, עם שכבות-על של ממשק משתמש
  • פרסומת למסור חשמלי המשמשת לגילוף הודו לחג ההודיה, עם סיסמה הומוריסטית
  • מפה חינוכית מפורטת על לווייתנים בסגנון צבעי מים

בטיחות, מקור ושקיפות

תוך הצגת יכולות יצירתיות מרשימות, OpenAI מדגישה את מחויבותה לבטיחות ולשלמות התוכן. כל התמונות שנוצרו כוללות מטא-נתונים של C2PA, המציינים שהן נוצרו עם GPT-4o. המערכת משלבת גם כלי חיפוש תמונות פנימי כדי לסייע באימות האותנטיות.

OpenAI הכשירה מודל ניהול מבוסס-היגיון כדי להבטיח עמידה במדיניות הבטיחות, תוך שימוש בכללים שנכתבו על ידי אדם לפירוש כדי לזהות מקרי קצה ולחסום תוכן בלתי הולם, כגון זיופים עמוקים או אלימות גרפית.

עדיין נותרו מגבלות, כולל:

  • בעיות חיתוך מדי פעם
  • דיפיculty עיבוד טקסט רב לשוני או מתמטי צפוף
  • עריכות לא עקביות לאזורי תמונה ספציפיים (למשל, פרטי פנים)

החברה אומרת שיפורים נמצאים בתהליך, ומשוב משתמשים ישחק תפקיד מכריע בעדכונים עתידיים.

זמינות וגישה

מחולל התמונות GPT-4o זמין החל מהיום במשתמשי Chat for Free, Plus, Pro ו-Team, ובקרוב יוצע ללקוחות Enterprise ו-Education. גישה דרך ה-API צפויה בשבועות הקרובים, מה שיאפשר שימוש תכנותי למפתחים.

משתמשים יכולים ליצור תמונות ולחזור עליהן באמצעות הנחיות שיחה פשוטות, תוך ציון:

  • יחס גובה-רוחב (לדוגמה, 16:9)
  • צבע רקע או שקיפות
  • סגנון תמונה (מציאותי, אינפוגרפי, קומיקס וכו')
  • רכיבי פריסה ספציפיים (טקסט, סמלים, מיקום)

למרות שזמני הרינדור ארוכים יותר - לרוב עד דקה אחת - OpenAI טוענת שהחלופה שווה את זה עבור פירוט ודיוק גבוהים יותר.

קפיצה חזותית למודלים של שפה

עם יצירת תמונות מקורית, GPT-4o עושה צעד מכריע לעבר עתיד הבינה המלאכותית המולטי-מודאלית, שבה התקשורת חוצה טקסט. מתרשימים מדעיים ועד מדבקות, אבות טיפוס של משחקי וידאו ועד הזמנות חתונה פיוטיות, GPT-4o מוכיח שהדמיון באמת אינו יודע גבול.

ככל שהקו בין תמונה לשפה מתמוסס, החידוש האחרון של OpenAI עשוי לא רק לשנות את האופן שבו אנו יוצרים תמונות, אלא את האופן שבו אנו חושבים על השימוש בהם לחלוטין.