در دنیای در حال تحول هوش مصنوعی، OpenAI بار دیگر قدمی بزرگ برداشته است. با معرفی قابلیت تولید تصویر مستقیم در ChatGPT، کاربران اکنون میتوانند بدون نیاز به استفاده از DALL-E، تصاویر خیرهکننده را مستقیماً در رابط کاربری ChatGPT ایجاد کنند. این ویژگی جدید که بر پایه مدل GPT-4o ساخته شده، امکانات گستردهای را برای خلق تصاویر متنوع از نمودارها گرفته تا آثار هنری فراهم میکند.
معرفی قابلیت تولید تصویر در ChatGPT
OpenAI از ماه مارس ۲۰۲۵، قابلیت تولید تصویر را به صورت بومی در ChatGPT ادغام کرد. به این معنی که کاربران میتوانند بدون نیاز به استفاده از DALL-E، تصاویر را مستقیماً در پنجره گفتگوی معمولی ChatGPT ایجاد کنند. این ویژگی هم برای کاربران رایگان و هم برای کاربران پولی در دسترس است، و قرار است به زودی برای کاربران سازمانی و آموزشی نیز فعال شود.
تفاوت با DALL-E
در حالی که DALL-E همچنان به عنوان یک ابزار مجزا در دسترس خواهد بود، قابلیت تولید تصویر درون ChatGPT با استفاده از مدل GPT-4o ارائه میشود که چندین مزیت نسبت به نسلهای قبلی دارد:
- تمرکز بیشتر بر تصاویر کاری: این قابلیت بیشتر برای ایجاد تصاویر مرتبط با کار مانند اینفوگرافیکها و نمودارها بهینهسازی شده است.
- بهبود متن در تصاویر: یکی از پیشرفتهای قابل توجه، بهبود نمایش متن در تصاویر است که برای ایجاد نمودارها و اینفوگرافیکها بسیار حیاتی است.
- ویرایش تصاویر آپلود شده: امکان آپلود و ویرایش تصاویر شخصی با هوش مصنوعی فراهم شده است.
قابلیتهای کلیدی
۱. تولید تصاویر با کیفیت بالا
مدل GPT-4o توانایی قابل توجهی در تولید تصاویر با جزئیات دقیق دارد. این مدل از رویکرد «اتورگرسیو» استفاده میکند - یعنی تصاویر را به صورت ترتیبی از چپ به راست و از بالا به پایین تولید میکند، مشابه نحوه نوشتن متن. این رویکرد فنی متفاوت از روش «دیفیوژن» است که در اکثر ژنراتورهای تصویر (مانند DALL-E) استفاده میشود.
۲. قابلیت بایندینگ (Binding) پیشرفته
یکی از بهبودهای قابل توجه در مدل جدید، قابلیت «بایندینگ» آن است - که به توانایی حفظ روابط صحیح بین ویژگیها و اشیاء اشاره دارد. برخلاف مدلهای قبلی که در ترکیب چندین عنصر مشکل داشتند، GPT-4o میتواند به درستی ویژگیها را برای ۱۵ تا ۲۰ شیء بدون اشتباه حفظ کند.
۳. بهبود رندر متن
مشکل رایج در ژنراتورهای تصویر، نمایش نادرست متن است. مدل GPT-4o پیشرفت قابل توجهی در این زمینه داشته و میتواند متنهای خوانا و بدون اشتباه تایپی در تصاویر ایجاد کند. این قابلیت برای ایجاد اینفوگرافیکها، منوهای رستوران، لوگوها و تصاویر آموزشی بسیار ارزشمند است.
۴. قابلیت ویرایش تصاویر
با این ویژگی جدید، کاربران میتوانند تصاویر موجود را آپلود کرده و با استفاده از دستورات متنی ویرایش کنند. این امکان برای طراحان و بازاریابان که نیاز به ویرایش سریع تصاویر دارند، بسیار مفید است.
موارد استفاده عملی
۱. نمودارها و اینفوگرافیکها
یکی از کاربردهای اصلی این ویژگی، تولید نمودارها و اینفوگرافیکهایی است که دارای متن و اطلاعات دقیق هستند. برای مثال، میتوانید از ChatGPT بخواهید یک اینفوگرافیک درباره مراحل یک فرآیند یا نموداری برای نمایش دادههای آماری ایجاد کند.
۲. طرحهای علمی و آموزشی
قابلیت تولید تصاویر با جزئیات دقیق و متن واضح، این ابزار را برای ایجاد تصاویر علمی و آموزشی ایدهآل میکند. به عنوان مثال، نمایش آزمایش منشور نیوتن با اجزای برچسبگذاری شده به درستی.
۳. کمیکها و استوریبوردها
با استفاده از قابلیتهای پیشرفته این مدل، میتوانید کمیکهای چند پنلی با شخصیتهای یکسان و حبابهای متنی ایجاد کنید، که برای داستانسرایی یا طراحی استوریبورد بسیار مفید است.
۴. تصاویر با پسزمینه شفاف
امکان تولید تصاویر با پسزمینه شفاف برای استیکرها، لوگوها و عناصر طراحی وب فراهم شده است.
نحوه استفاده
استفاده از قابلیت تولید تصویر در ChatGPT بسیار ساده است:
۱. ورود به ChatGPT: به ChatGPT وارد شوید و از مدل GPT-4o استفاده کنید. ۲. نوشتن پرامپت: توصیف دقیقی از تصویری که میخواهید ایجاد کنید، بنویسید. ۳. دریافت تصویر: ChatGPT تصویر را بر اساس توصیف شما تولید میکند. ۴. ویرایش تعاملی: میتوانید با صحبت با ChatGPT، تصویر را اصلاح و ویرایش کنید.
برای مثال، میتوانید بنویسید: «یک اینفوگرافیک درباره چرخه آب در طبیعت با نمودارهای واضح ایجاد کن» یا «تصویری از یک گربه در حال نواختن پیانو با سبک هنری استودیو جیبلی بساز».
محدودیتها
با وجود پیشرفتهای قابل توجه، این ویژگی هنوز برخی محدودیتها را دارد:
- ویرایش نواحی خاص: ممکن است نتوانید به دقت نواحی خاصی از تصویر را ویرایش کنید.
- حفظ تغییرات صورت: اگر تصویر خود را آپلود کرده و تغییراتی در چهره سوژه ایجاد کنید، ممکن است این تغییرات در ویرایشهای بعدی از بین بروند.
- مشکلات کراپ: ممکن است در برش تصاویر مشکلاتی وجود داشته باشد.
- متن چندزبانه: نمایش متن به زبانهای مختلف ممکن است با چالشهایی همراه باشد.
OpenAI اعلام کرده که در حال کار بر روی بهبود این موارد است و امیدوار است هفتههای آینده بهبودهایی را ارائه دهد.
ملاحظات اخلاقی و امنیتی
OpenAI تأکید دارد که سیستم جدید تولید تصویر دارای محافظتهای قوی برای جلوگیری از سوءاستفاده است. این شامل موارد زیر میشود:
- جلوگیری از حذف واترمارک
- مسدود کردن تولید تصاویر دیپفیک جنسی
- رد درخواستهای تولید محتوای نامناسب
اگرچه تصاویر تولید شده واترمارک بصری ندارند، اما دارای متادیتای C2PA هستند که نشان میدهد این تصاویر توسط هوش مصنوعی OpenAI ایجاد شدهاند.
سخن پایانی
قابلیت جدید تولید تصویر در ChatGPT نشاندهنده گامی بزرگ در پیشرفت ابزارهای هوش مصنوعی است. با ترکیب قدرت پردازش زبان طبیعی و تولید تصویر در یک رابط کاربری یکپارچه، OpenAI امکانات جدیدی را برای خلاقیت، طراحی و ارتباطات بصری فراهم کرده است. در حالی که محدودیتهایی هنوز وجود دارد، پتانسیل این فناوری برای تحول در شیوه کار و خلق محتوای بصری بسیار چشمگیر است.
برای تجربه این قابلیتهای جدید، به ChatGPT مراجعه کنید و دنیای جدید تولید تصویر را کشف کنید. همچنین میتوانید برای استفاده از ابزارهای پیشرفته تولید تصویر با هوش مصنوعی به فارسی، سایت رویایی را امتحان کنید.