مدل ChatGPT Images 2.0 معرفی شد؛ نسل تازه تصویرساز OpenAI با دقت بالای متنی و رقیب جدی نانوبنانا

اوپنایآی از نسل جدید مدل تصویرساز خود با نام ChatGPT Images 2.0 رونمایی کرد؛ سیستمی که امکان تولید تصاویر را بهصورت مستقیم در محیط ChatGPT فراهم میکند و با هدف رقابت با مدل Nano Banana گوگل توسعه یافته است. این مدل تازه بهعنوان یکی از پیشرفتهترین فناوریهای تولید تصویر معرفی شده و میتواند دستورات پیچیده را با دقت بالا اجرا کرده، متون قابلخواندن تولید کند و عناصر مختلف را بهصورت دقیق در صحنه قرار دهد.
پیشرفت چشمگیر در تولید متن داخل تصاویر
یکی از چالشهای همیشگی مدلهای تصویرساز، تولید متن واضح و صحیح در تصاویر بوده است. با این حال، Images 2.0 در این زمینه پیشرفت قابلتوجهی داشته و قادر است متون پیچیده را حتی در زبانهای غیرلاتین مانند ژاپنی، کرهای، هندی و بنگالی بهدرستی پردازش و نمایش دهد.
اوپنایآی در توضیح این فناوری اعلام کرده است که Images 2.0 سطح تازهای از دقت و وفاداری در تولید تصویر ارائه میدهد. این مدل میتواند صحنههای پیچیدهتر بسازد، دستورالعملها را دقیق دنبال کند و جزئیاتی را ایجاد کند که معمولاً برای مدلهای تصویرساز دشوار هستند؛ از جمله متون ریز، نمادها، عناصر رابط کاربری، ترکیبهای فشرده و محدودیتهای خاص طراحی. خروجیهای این سیستم نیز تا وضوح ۲K قابل تولید هستند.
توانایی خلق طرحهای پیچیده
برای نمونه، اگر از این مدل خواسته شود منوی یک رستوران مکزیکی طراحی کند، نتیجه میتواند بهاندازهای دقیق و حرفهای باشد که عملاً در یک رستوران واقعی قابل استفاده باشد. چنین کیفیتی نشان میدهد که فناوری جدید اوپنایآی فاصله زیادی با نسلهای قبلی مدلهای تصویرساز دارد.

البته سرعت تولید تصاویر در Images 2.0 بهاندازه پاسخهای متنی ChatGPT نیست، اما این مدل قادر است در مدت چند دقیقه طرحهای پیچیدهای مانند کمیکهای چندصفحهای یا طراحیهای گرافیکی چندبخشی را ایجاد کند.
نخستین مدل تصویرساز با قابلیت استدلال
یکی از ویژگیهای قابلتوجه Images 2.0، بهرهمندی از قابلیت استدلال است. این ویژگی به هوش مصنوعی اجازه میدهد برای افزایش دقت خروجیها، اطلاعات مرتبط را در وب جستجو کرده و نتیجه را بررسی کند. چنین قابلیتی میتواند به تولید تصاویر دقیقتر و واقعگرایانهتر منجر شود.
اوپنایآی همچنین اعلام کرده که این مدل در حوزههایی مانند طراحی اولیه بازیها (Game Prototyping) و استوریبرد فیلمها عملکرد بسیار خوبی دارد. علاوه بر این، Images 2.0 از انعطاف بالایی در تنظیم نسبت تصویر برخوردار است و میتواند تصاویر را در نسبتهایی مانند ۳:۱ یا حتی ۱:۳ تولید کند.
دسترسی کاربران و API جدید
از امروز تمامی کاربران رایگان و اشتراکی ChatGPT و همچنین کاربران Codex میتوانند به مدل Images 2.0 دسترسی داشته باشند. البته کاربران اشتراکهای پولی امکان تولید تصاویر پیشرفتهتر با کیفیت بالاتر را خواهند داشت.
اوپنایآی همچنین API جدیدی با نام gpt-image-2 را برای توسعهدهندگان ارائه کرده است. هزینه استفاده از این API بر اساس کیفیت و وضوح خروجی تصاویر محاسبه خواهد شد.
