به گزارش خبرگزاری آنا؛ گوگل روز پنجشنبه به صورت رسمی از مدل هوش مصنوعی نانو بنانا پرو رونمایی کرد که نسخه پیشرفته و تکاملیافته مدل قبلی این شرکت محسوب میشود و با هدفگذاری ویژه بر روی کاربران سازمانی، طراحان گرافیک و آژانسهای تبلیغاتی توسعه یافته است.
اصلیترین ویژگی متمایزکننده این مدل جدید نسبت به رقبای فعلی و نسخههای پیشین، توانایی درک عمیق و بازتولید دقیق متنها در داخل تصاویر است؛ قابلیتی که پیش از این نقطه ضعف اکثر مدلهای تولید تصویر محسوب میشد. مدیران گوگل اعلام کردهاند که این مدل جدید با ادغام در سرویسهای کلیدی مانند گوگل ادز و گوگل اسلاید، فرآیند تولید محتوای بصری را برای کسبوکارها تسریع خواهد کرد و به لطف استفاده از موتور قدرتمند جمینای ۳ پرو، توانایی استدلال بصری و دانش جهانی این ابزار به شکل قابل توجهی ارتقا یافته است.
جهش فنی با موتور جمینای ۳ پرو
توسعهدهندگان گوگل در طراحی نانو بنانا پرو از زیرساخت مدل زبانی و تصویری جمینای ۳ پرو بهره بردهاند که امکان درک پیچیدگیهای زبانی و تصویری را به صورت همزمان فراهم میکند. نیکول بریچتوا، مدیر محصول بخش تصویر و ویدئو در گوگل دیپمایند، علت اصلی بهبود چشمگیر در خروجیهای متنی را همین تغییر در زیرساخت فنی عنوان کرده است. مدلهای قبلی اغلب در نگارش کلمات دچار خطا میشدند و حروف را به شکلی غیرخوانا یا با غلطهای املایی فاحش نمایش میدادند، اما نسخه پرو توانسته است این نقیصه را تا حد زیادی برطرف کند.
بررسیهای فنی نشان میدهد که دقت نگارش کلمات در این مدل به گونهای است که حتی در فونتهای پیچیده و یا طرحهای کالیگرافی، متنها خوانا و صحیح باقی میمانند. گوگل امیدوار است با این بهروزرسانی، شرکتها بتوانند بدون نیاز به ویرایشهای ثانویه سنگین، از تصاویر تولید شده به طور مستقیم در کمپینهای تبلیغاتی و ارائههای تجاری استفاده کنند. بریچتوا در توضیح اهمیت این موضوع اشاره میکند که وجود حتی یک حرف اشتباه در متن تصویر، مانند وجود یک دست با شش انگشت در عکس، توجه بیننده را به خود جلب کرده و غیرواقعی بودن تصویر را آشکار میسازد.
کاربردهای تجاری و یکپارچهسازی با اکوسیستم گوگل
رویکرد گوگل در عرضه این محصول، تمرکز زدایی از سرگرمی صرف و حرکت به سمت ابزارهای کاربردی برای محیطهای کاری است. نانو بنانا پرو اکنون به صورت مستقیم در ابزارهای گوگل ورکاسپیس ادغام شده است. کاربران میتوانند در هنگام ساخت اسلایدها برای جلسات کاری، بدون خروج از محیط نرمافزار، نمودارها، اینفوگرافیکها و تصاویر مفهومی مورد نیاز خود را تولید کنند.
تبلیغات آنلاین نیز یکی دیگر از حوزههای هدف این فناوری است. گوگل اعلام کرده است که مدل جدید در پلتفرم تبلیغاتی این شرکت در دسترس تبلیغدهندگان سراسر جهان قرار گرفته است. این قابلیت به بازاریابان اجازه میدهد تا بنرهای تبلیغاتی، پوسترهای دیجیتال و محتوای بصری کمپینهای خود را با سرعت بالاتر و هزینه کمتری تولید کنند.
آزمایشهای اولیه نشان میدهد که این مدل قادر است بر اساس یک دستور متنی واحد، مواد بازاریابی نسبتاً دقیقی را شامل جملات کامل و تایپوگرافیهای متنوع ایجاد کند. کاربران همچنین میتوانند در دستورات بعدی، اصلاحاتی نظیر حذف یک جزئیات خاص یا تغییر سبک کلی طراحی را روی تصویر تولید شده اعمال کنند.
پشتیبانی چندزبانه و بومیسازی محتوا
قابلیتهای زبانی نانو بنانا پرو فقط به زبان انگلیسی محدود نمیشود و طبق مستندات منتشر شده، این مدل توانایی پردازش و تولید متن به زبانهای مختلف را داراست. نیکول بریچتوا در این باره به توانایی مدل در رند کردن صحیح زبانهایی مانند چکی که دارای علائم نگارشی خاص هستند، اشاره کرده است. این ویژگی برای شرکتهای چندملیتی که نیاز به بومیسازی محتوای تبلیغاتی خود دارند، بسیار حیاتی است.
مستندات فنی گوگل نشان میدهد که کاربران میتوانند درخواست کنند تا متنهای موجود در یک طرح گرافیکی به زبان دیگری ترجمه شود، بدون اینکه به سایر عناصر بصری تصویر آسیبی وارد شود. برای مثال، در یکی از نمونههای ارائه شده، متن روی قوطیهای نوشیدنی انرژیزا از انگلیسی به کرهای تغییر داده شد، در حالی که طراحی، نورپردازی و بافت قوطی کاملاً دستنخورده باقی ماند. این سطح از بومیسازی محتوا میتواند فرآیند تولید داراییهای بصری برای بازارهای جهانی را تسهیل کند.
تلفیق معماری بومی با سناریوهای تخیلی
قدرت پردازش بصری این مدل جدید فقط به ویرایش تصاویر ساده محدود نمیشود و در خلق سناریوهای پیچیده و ترکیب عناصر متضاد نیز عملکرد قابل توجهی دارد. کاربران در آزمایشهای اخیر توانستهاند نمادهای شهری شناختهشده مانند برج میلاد تهران را دستمایه خلق آثار هنری سورئال قرار دهند.
در یکی از خروجیها، مدل با حفظ جزئیات دقیق سازه اصلی و بافت شهری پیرامون آن، توانسته است موجودی افسانهای را با رعایت کامل اصول نورپردازی و پرسپکتیو بر فراز برج بنشاند، بهگونهای که سایهها و بازتاب نور بر روی فلسهای موجود و شیشههای ساختمان کاملاً هماهنگ به نظر میرسند.
نانو بنانا پرو قادر است با دریافت دستورات توصیفی، چشماندازهایی از سکونتگاههای فضایی یا شهرهای آینده را خلق کند. تصاویر تولید شده از شهرکسازی در مریخ، با جزئیاتی نظیر گنبدهای شیشهای برای کشاورزی، سیستمهای حملونقل ریلی پیشرفته و آسمانخراشهای متناسب با اقلیم سیاره سرخ، نشاندهنده درک عمیق مدل از مفاهیم مهندسی و معماری است. این قابلیت میتواند برای معماران و طراحان کانسپت که نیاز به بصریسازی ایدههای خام خود دارند، ابزاری کارآمد باشد.
تولید اینفوگرافیک و اتصال به دادههای واقعی
اتصال این مدل هوش مصنوعی به موتور جستجوی گوگل، امکان دسترسی به اطلاعات بهروز و واقعی را فراهم کرده است. نانو بنانا پرو میتواند دادههای موجود در وب را استخراج کرده و آنها را در قالب نمودارها و اینفوگرافیکهای آموزشی به تصویر بکشد. در یکی از آزمایشهای انجام شده، هنگامی که از ابزار خواسته شد تا یک راهنمای تصویری برای تهیه چای هلدار ایجاد کند، خروجی نهایی فراتر از یک تصویر ساده بود. این مدل توانست اینفوگرافیکی دقیق شامل لیست مواد اولیه نظیر مقدار آب، شیر، برگ چای و دانههای هل و یک فرآیند پنج مرحلهای قدمبهقدم، از آمادهسازی و جوشاندن تا صاف کردن و سرو نهایی را طراحی کند.
نکته قابل توجه، خوانایی کامل متون انگلیسی و رعایت ترتیب منطقی مراحل به همراه نکات تکمیلی برای بهبود طعم چای بود که نشاندهنده درک صحیح مدل از دستورالعملهای آشپزی و نحوه ارائه بصری آنهاست.
درخواستهای کاربران برای دریافت اطلاعات دقیق نیازمند شفافیت در بیان دستورات است. تجربه کاربری نشان داده است که برای دریافت یک خروجی دادهمحور، کاربر باید دقیقاً کلمه «اینفوگرافیک» را در دستور خود قید کند. در یک آزمایش، وقتی از مدل خواسته شد تا وضعیت آبوهوای یک فرودگاه را در روز شکرگزاری نشان دهد، ابتدا تصویری واقعگرایانه از محیط فرودگاه تولید کرد که تنها یک تابلوی کوچک در آن حاوی اطلاعات دما بود. اما پس از تغییر دستور به اینفوگرافیک، مدل توانست یک پیشبینی کارتونی با دادههای استخراج شده از سرویس آبوهوای گوگل ارائه دهد. این ویژگی نشاندهنده پتانسیل ابزار برای تبدیل شدن به دستیاری برای مصورسازی اطلاعات در محیطهای آموزشی و اداری است.
قابلیتهای پیشرفته ویرایش و ثبات شخصیت
ثبات در تولید تصاویر، یکی دیگر از ویژگیهای فنی نانو بنانا پرو است که برای طراحان داستانهای مصور و کارگردانان هنری اهمیت دارد. گوگل مدعی است که این مدل میتواند ثبات ظاهری و شباهت را برای حداکثر ۵ شخصیت مختلف در یک تصویر حفظ کند و همچنین قادر است تا ۱۴ تصویر ورودی را به عنوان مرجع برای ترکیببندی در نظر بگیرد. این قابلیت به کاربران اجازه میدهد تا یک شخصیت ثابت را در زوایای مختلف دوربین و یا در سناریوهای متفاوت به تصویر بکشند، بدون اینکه ویژگیهای چهره یا لباس شخصیت تغییر کند.
امکانات ویرایشی جدیدی نیز برای کنترل دقیقتر بر روی خروجی نهایی در نظر گرفته شده است. کاربران اکنون میتوانند نورپردازی صحنه، مثلاً روز را به شب تغییر دهند، عمق میدان را تنظیم کنند تا فوکوس روی سوژه خاصی باشد، و یا نسبت ابعاد تصویر را بدون دفرمه شدن شخصیتها تغییر دهند. در مثالی که گوگل ارائه کرده، نورپردازی چهره یک مرد با تکنیک سایهروشن تغییر داده شد، به طوری که تنها چشمها و گونهها روشن باقی ماندند و بقیه صورت در سایه قرار گرفت، در حالی که هویت چهره حفظ شد.
چالشها و محدودیتهای موجود
فناوری نانو بنانا پرو با وجود پیشرفتهای چشمگیر، همچنان عاری از خطا نیست. بررسیهای اولیه توسط کارشناسان نشان میدهد که این مدل در برچسبگذاری دقیق اشیاء درون یک تصویر پیچیده با چالشهایی روبهرو است. در یک آزمون که از هوش مصنوعی خواسته شده بود تصویر یک میز شام را تولید و تمام اجزای آن را با فلش و متن مشخص کند، خطاهای فاحشی مشاهده شد. برای نمونه، فلشی که به سمت یک قاشق اشاره میکرد آن را برگهای پاییزی نامیده بود، یا فضای خالی روی میز به عنوان نان رول برچسبگذاری شده بود.
کیفیت بصری تصاویر نیز در برخی موارد همچنان دارای نشانههایی از تولید مصنوعی است. برخی کاربران گزارش دادهاند که پوسترهای تبلیغاتی تولید شده، گاهی اوقات دارای همان تِم رنگی زرد و حالت مهآلود خاصی هستند که در اکثر تصاویر هوش مصنوعی دیده میشود. هرچند کیفیت بافتها و رزولوشن ۴K پیشرفت قابل توجهی داشته، اما هنوز هم در نگاه دقیق میتوان ردپای الگوریتمها را در تصاویر مشاهده کرد.
دسترسپذیری و سطوح اشتراک
دسترسی به این مدل جدید از طریق سطوح مختلف اشتراک امکانپذیر است. کاربران عمومی میتوانند نسخه رایگان، اما محدود نانو بنانا پرو را در اپلیکیشن جمینای تجربه کنند. پس از اتمام سهمیه تولید روزانه، سرویس به مدل قدیمیتر (نانو بنانا استاندارد) بازمیگردد. برای دسترسی نامحدود و استفاده از تمامی امکانات پیشرفته مانند رزولوشن بالا و سرعت پردازش بیشتر، کاربران نیاز به تهیه اشتراکهای گوگل One AI یا سطوح تجاری خواهند داشت.
توسعهدهندگان نرمافزار و شرکتهای بزرگ نیز میتوانند از طریق API جمینای و پلتفرم Vertex AI به این مدل دسترسی داشته باشند تا آن را در سیستمهای داخلی خود پیادهسازی کنند. همچنین این مدل به زودی برای مشترکین سازمانی جمینای نیز فعال خواهد شد.
شفافیت و ایمنی محتوا
مسئله شناسایی تصاویر تولید شده توسط هوش مصنوعی یکی از دغدغههای اصلی گوگل در عرضه این محصول بوده است. تمام تصاویر تولید شده توسط نانو بنانا پرو به واترمارک دیجیتالی نامرئی SynthID مجهز هستند. این واترمارک در سطح پیکسلهای تصویر تعبیه میشود و در برابر ویرایشهایی مانند برش یا تغییر رنگ مقاوم است، اما با چشم غیرمسلح دیده نمیشود.
گوگل علاوه بر واترمارک نامرئی، تدابیر دیگری نیز برای شفافیت در نظر گرفته است. تصاویر تولید شده توسط کاربران نسخه رایگان و سطح پرو، دارای یک واترمارک بصری مشخص خواهند بود تا ماهیت مصنوعی آنها برای بینندگان آشکار باشد. با این حال، برای کاربران سطح اولترا و توسعهدهندگان حرفهای که نیاز به خروجیهای تمیز برای پروژههای تجاری دارند، این واترمارک بصری حذف خواهد شد. همچنین ابزاری در اپلیکیشن جمینای تعبیه شده است که کاربران میتوانند با بارگذاری هر تصویر، از هوش مصنوعی بپرسند که آیا این تصویر توسط ابزارهای گوگل ساخته شده است یا خیر.
عرضه نانو بنانا پرو نشاندهنده گام بلند گوگل برای تثبیت جایگاه خود در بازار رقابتی هوش مصنوعی مولد است. بازاری که اکنون از مرحله سرگرمی عبور کرده و به دنبال راهکارهای عملی برای کاهش هزینهها و افزایش سرعت تولید محتوا در دنیای تجارت است. اگرچه هنوز نقصهایی در درک معنایی اشیاء توسط این مدل دیده میشود، اما بهبود چشمگیر در نگارش متن و کیفیت بصری، آن را به ابزاری جدی برای طراحان و کسبوکارها تبدیل کرده است.
انتهای پیام/