مدل ChatGPT Images 2.0 معرفی شد؛ نسل تازه تصویرساز OpenAI با دقت بالای متنی و رقیب جدی نانوبنانا

سعید میرزاپور

2 ماه پیش

اوپن‌ای‌آی از نسل جدید مدل تصویرساز خود با نام ChatGPT Images 2.0 رونمایی کرد؛ سیستمی که امکان تولید تصاویر را به‌صورت مستقیم در محیط ChatGPT فراهم می‌کند و با هدف رقابت با مدل Nano Banana گوگل توسعه یافته است. این مدل تازه به‌عنوان یکی از پیشرفته‌ترین فناوری‌های تولید تصویر معرفی شده و می‌تواند دستورات پیچیده را با دقت بالا اجرا کرده، متون قابل‌خواندن تولید کند و عناصر مختلف را به‌صورت دقیق در صحنه قرار دهد.

پیشرفت چشمگیر در تولید متن داخل تصاویر

یکی از چالش‌های همیشگی مدل‌های تصویرساز، تولید متن واضح و صحیح در تصاویر بوده است. با این حال، Images 2.0 در این زمینه پیشرفت قابل‌توجهی داشته و قادر است متون پیچیده را حتی در زبان‌های غیرلاتین مانند ژاپنی، کره‌ای، هندی و بنگالی به‌درستی پردازش و نمایش دهد.

اوپن‌ای‌آی در توضیح این فناوری اعلام کرده است که Images 2.0 سطح تازه‌ای از دقت و وفاداری در تولید تصویر ارائه می‌دهد. این مدل می‌تواند صحنه‌های پیچیده‌تر بسازد، دستورالعمل‌ها را دقیق دنبال کند و جزئیاتی را ایجاد کند که معمولاً برای مدل‌های تصویرساز دشوار هستند؛ از جمله متون ریز، نمادها، عناصر رابط کاربری، ترکیب‌های فشرده و محدودیت‌های خاص طراحی. خروجی‌های این سیستم نیز تا وضوح ۲K قابل تولید هستند.

توانایی خلق طرح‌های پیچیده

برای نمونه، اگر از این مدل خواسته شود منوی یک رستوران مکزیکی طراحی کند، نتیجه می‌تواند به‌اندازه‌ای دقیق و حرفه‌ای باشد که عملاً در یک رستوران واقعی قابل استفاده باشد. چنین کیفیتی نشان می‌دهد که فناوری جدید اوپن‌ای‌آی فاصله زیادی با نسل‌های قبلی مدل‌های تصویرساز دارد.

ChatGPT Images 2.0

البته سرعت تولید تصاویر در Images 2.0 به‌اندازه پاسخ‌های متنی ChatGPT نیست، اما این مدل قادر است در مدت چند دقیقه طرح‌های پیچیده‌ای مانند کمیک‌های چندصفحه‌ای یا طراحی‌های گرافیکی چندبخشی را ایجاد کند.

نخستین مدل تصویرساز با قابلیت استدلال

یکی از ویژگی‌های قابل‌توجه Images 2.0، بهره‌مندی از قابلیت استدلال است. این ویژگی به هوش مصنوعی اجازه می‌دهد برای افزایش دقت خروجی‌ها، اطلاعات مرتبط را در وب جستجو کرده و نتیجه را بررسی کند. چنین قابلیتی می‌تواند به تولید تصاویر دقیق‌تر و واقع‌گرایانه‌تر منجر شود.

اوپن‌ای‌آی همچنین اعلام کرده که این مدل در حوزه‌هایی مانند طراحی اولیه بازی‌ها (Game Prototyping) و استوری‌برد فیلم‌ها عملکرد بسیار خوبی دارد. علاوه بر این، Images 2.0 از انعطاف بالایی در تنظیم نسبت تصویر برخوردار است و می‌تواند تصاویر را در نسبت‌هایی مانند ۳:۱ یا حتی ۱:۳ تولید کند.

دسترسی کاربران و API جدید

از امروز تمامی کاربران رایگان و اشتراکی ChatGPT و همچنین کاربران Codex می‌توانند به مدل Images 2.0 دسترسی داشته باشند. البته کاربران اشتراک‌های پولی امکان تولید تصاویر پیشرفته‌تر با کیفیت بالاتر را خواهند داشت.

اوپن‌ای‌آی همچنین API جدیدی با نام gpt-image-2 را برای توسعه‌دهندگان ارائه کرده است. هزینه استفاده از این API بر اساس کیفیت و وضوح خروجی تصاویر محاسبه خواهد شد.