شنبه ۱ آذر ۱۴۰۴ - ۰۷:۰۷ شناسهٔ خبر: 75928554 - سرویس علمی-فناوری
نسخه قابل چاپ منبع: آنا | لینک خبر

آناتک ویژگی‌های نانو بنانا پرو را بررسی می‌کند

نانو بنانا پرو با ارتقاء قابلیت‌های تصویرسازی قوی‌تر عرضه شد

شرکت گوگل جدیدترین نسخه از مدل‌های هوش مصنوعی مولد تصویر خود را با نام «نانو بنانا پرو» معرفی کرد که تمرکز اصلی آن بر رفع یکی از بزرگ‌ترین چالش‌های این حوزه، یعنی نگارش صحیح متن در داخل تصاویر و ارائه خروجی‌های گرافیکی با کیفیت ۴K برای مصارف تجاری و تبلیغاتی است.

به گزارش خبرگزاری آنا؛ گوگل روز پنجشنبه به صورت رسمی از مدل هوش مصنوعی نانو بنانا پرو رونمایی کرد که نسخه پیشرفته و تکامل‌یافته مدل قبلی این شرکت محسوب می‌شود و با هدف‌گذاری ویژه بر روی کاربران سازمانی، طراحان گرافیک و آژانس‌های تبلیغاتی توسعه یافته است.

اصلی‌ترین ویژگی متمایزکننده این مدل جدید نسبت به رقبای فعلی و نسخه‌های پیشین، توانایی درک عمیق و بازتولید دقیق متن‌ها در داخل تصاویر است؛ قابلیتی که پیش از این نقطه ضعف اکثر مدل‌های تولید تصویر محسوب می‌شد. مدیران گوگل اعلام کرده‌اند که این مدل جدید با ادغام در سرویس‌های کلیدی مانند گوگل ادز و گوگل اسلاید، فرآیند تولید محتوای بصری را برای کسب‌وکار‌ها تسریع خواهد کرد و به لطف استفاده از موتور قدرتمند جمینای ۳ پرو، توانایی استدلال بصری و دانش جهانی این ابزار به شکل قابل توجهی ارتقا یافته است.

جهش فنی با موتور جمینای ۳ پرو

توسعه‌دهندگان گوگل در طراحی نانو بنانا پرو از زیرساخت مدل زبانی و تصویری جمینای ۳ پرو بهره برده‌اند که امکان درک پیچیدگی‌های زبانی و تصویری را به صورت همزمان فراهم می‌کند. نیکول بریچتوا، مدیر محصول بخش تصویر و ویدئو در گوگل دیپ‌مایند، علت اصلی بهبود چشمگیر در خروجی‌های متنی را همین تغییر در زیرساخت فنی عنوان کرده است. مدل‌های قبلی اغلب در نگارش کلمات دچار خطا می‌شدند و حروف را به شکلی غیرخوانا یا با غلط‌های املایی فاحش نمایش می‌دادند، اما نسخه پرو توانسته است این نقیصه را تا حد زیادی برطرف کند.

بررسی‌های فنی نشان می‌دهد که دقت نگارش کلمات در این مدل به گونه‌ای است که حتی در فونت‌های پیچیده و یا طرح‌های کالیگرافی، متن‌ها خوانا و صحیح باقی می‌مانند. گوگل امیدوار است با این به‌روزرسانی، شرکت‌ها بتوانند بدون نیاز به ویرایش‌های ثانویه سنگین، از تصاویر تولید شده به طور مستقیم در کمپین‌های تبلیغاتی و ارائه‌های تجاری استفاده کنند. بریچتوا در توضیح اهمیت این موضوع اشاره می‌کند که وجود حتی یک حرف اشتباه در متن تصویر، مانند وجود یک دست با شش انگشت در عکس، توجه بیننده را به خود جلب کرده و غیرواقعی بودن تصویر را آشکار می‌سازد.

کاربرد‌های تجاری و یکپارچه‌سازی با اکوسیستم گوگل

رویکرد گوگل در عرضه این محصول، تمرکز زدایی از سرگرمی صرف و حرکت به سمت ابزار‌های کاربردی برای محیط‌های کاری است. نانو بنانا پرو اکنون به صورت مستقیم در ابزار‌های گوگل ورک‌اسپیس ادغام شده است. کاربران می‌توانند در هنگام ساخت اسلاید‌ها برای جلسات کاری، بدون خروج از محیط نرم‌افزار، نمودارها، اینفوگرافیک‌ها و تصاویر مفهومی مورد نیاز خود را تولید کنند.

تبلیغات آنلاین نیز یکی دیگر از حوزه‌های هدف این فناوری است. گوگل اعلام کرده است که مدل جدید در پلتفرم تبلیغاتی این شرکت در دسترس تبلیغ‌دهندگان سراسر جهان قرار گرفته است. این قابلیت به بازاریابان اجازه می‌دهد تا بنر‌های تبلیغاتی، پوستر‌های دیجیتال و محتوای بصری کمپین‌های خود را با سرعت بالاتر و هزینه کمتری تولید کنند.

آزمایش‌های اولیه نشان می‌دهد که این مدل قادر است بر اساس یک دستور متنی واحد، مواد بازاریابی نسبتاً دقیقی را شامل جملات کامل و تایپوگرافی‌های متنوع ایجاد کند. کاربران همچنین می‌توانند در دستورات بعدی، اصلاحاتی نظیر حذف یک جزئیات خاص یا تغییر سبک کلی طراحی را روی تصویر تولید شده اعمال کنند.

پشتیبانی چندزبانه و بومی‌سازی محتوا

قابلیت‌های زبانی نانو بنانا پرو فقط به زبان انگلیسی محدود نمی‌شود و طبق مستندات منتشر شده، این مدل توانایی پردازش و تولید متن به زبان‌های مختلف را داراست. نیکول بریچتوا در این باره به توانایی مدل در رند کردن صحیح زبان‌هایی مانند چکی که دارای علائم نگارشی خاص هستند، اشاره کرده است. این ویژگی برای شرکت‌های چندملیتی که نیاز به بومی‌سازی محتوای تبلیغاتی خود دارند، بسیار حیاتی است.

مستندات فنی گوگل نشان می‌دهد که کاربران می‌توانند درخواست کنند تا متن‌های موجود در یک طرح گرافیکی به زبان دیگری ترجمه شود، بدون اینکه به سایر عناصر بصری تصویر آسیبی وارد شود. برای مثال، در یکی از نمونه‌های ارائه شده، متن روی قوطی‌های نوشیدنی انرژی‌زا از انگلیسی به کره‌ای تغییر داده شد، در حالی که طراحی، نورپردازی و بافت قوطی کاملاً دست‌نخورده باقی ماند. این سطح از بومی‌سازی محتوا می‌تواند فرآیند تولید دارایی‌های بصری برای بازار‌های جهانی را تسهیل کند.

تلفیق معماری بومی با سناریو‌های تخیلی

قدرت پردازش بصری این مدل جدید فقط به ویرایش تصاویر ساده محدود نمی‌شود و در خلق سناریو‌های پیچیده و ترکیب عناصر متضاد نیز عملکرد قابل توجهی دارد. کاربران در آزمایش‌های اخیر توانسته‌اند نماد‌های شهری شناخته‌شده مانند برج میلاد تهران را دستمایه خلق آثار هنری سورئال قرار دهند.

در یکی از خروجی‌ها، مدل با حفظ جزئیات دقیق سازه اصلی و بافت شهری پیرامون آن، توانسته است موجودی افسانه‌ای را با رعایت کامل اصول نورپردازی و پرسپکتیو بر فراز برج بنشاند، به‌گونه‌ای که سایه‌ها و بازتاب نور بر روی فلس‌های موجود و شیشه‌های ساختمان کاملاً هماهنگ به نظر می‌رسند.

نانو بنانا پرو قادر است با دریافت دستورات توصیفی، چشم‌انداز‌هایی از سکونتگاه‌های فضایی یا شهر‌های آینده را خلق کند. تصاویر تولید شده از شهرک‌سازی در مریخ، با جزئیاتی نظیر گنبد‌های شیشه‌ای برای کشاورزی، سیستم‌های حمل‌ونقل ریلی پیشرفته و آسمان‌خراش‌های متناسب با اقلیم سیاره سرخ، نشان‌دهنده درک عمیق مدل از مفاهیم مهندسی و معماری است. این قابلیت می‌تواند برای معماران و طراحان کانسپت که نیاز به بصری‌سازی ایده‌های خام خود دارند، ابزاری کارآمد باشد.

تولید اینفوگرافیک و اتصال به داده‌های واقعی

اتصال این مدل هوش مصنوعی به موتور جستجوی گوگل، امکان دسترسی به اطلاعات به‌روز و واقعی را فراهم کرده است. نانو بنانا پرو می‌تواند داده‌های موجود در وب را استخراج کرده و آن‌ها را در قالب نمودار‌ها و اینفوگرافیک‌های آموزشی به تصویر بکشد. در یکی از آزمایش‌های انجام شده، هنگامی که از ابزار خواسته شد تا یک راهنمای تصویری برای تهیه چای هل‌دار ایجاد کند، خروجی نهایی فراتر از یک تصویر ساده بود. این مدل توانست اینفوگرافیکی دقیق شامل لیست مواد اولیه نظیر مقدار آب، شیر، برگ چای و دانه‌های هل و یک فرآیند پنج مرحله‌ای قدم‌به‌قدم، از آماده‌سازی و جوشاندن تا صاف کردن و سرو نهایی را طراحی کند.

نکته قابل توجه، خوانایی کامل متون انگلیسی و رعایت ترتیب منطقی مراحل به همراه نکات تکمیلی برای بهبود طعم چای بود که نشان‌دهنده درک صحیح مدل از دستورالعمل‌های آشپزی و نحوه ارائه بصری آن‌هاست.

درخواست‌های کاربران برای دریافت اطلاعات دقیق نیازمند شفافیت در بیان دستورات است. تجربه کاربری نشان داده است که برای دریافت یک خروجی داده‌محور، کاربر باید دقیقاً کلمه «اینفوگرافیک» را در دستور خود قید کند. در یک آزمایش، وقتی از مدل خواسته شد تا وضعیت آب‌وهوای یک فرودگاه را در روز شکرگزاری نشان دهد، ابتدا تصویری واقع‌گرایانه از محیط فرودگاه تولید کرد که تنها یک تابلوی کوچک در آن حاوی اطلاعات دما بود. اما پس از تغییر دستور به اینفوگرافیک، مدل توانست یک پیش‌بینی کارتونی با داده‌های استخراج شده از سرویس آب‌وهوای گوگل ارائه دهد. این ویژگی نشان‌دهنده پتانسیل ابزار برای تبدیل شدن به دستیاری برای مصورسازی اطلاعات در محیط‌های آموزشی و اداری است.

قابلیت‌های پیشرفته ویرایش و ثبات شخصیت

ثبات در تولید تصاویر، یکی دیگر از ویژگی‌های فنی نانو بنانا پرو است که برای طراحان داستان‌های مصور و کارگردانان هنری اهمیت دارد. گوگل مدعی است که این مدل می‌تواند ثبات ظاهری و شباهت را برای حداکثر ۵ شخصیت مختلف در یک تصویر حفظ کند و همچنین قادر است تا ۱۴ تصویر ورودی را به عنوان مرجع برای ترکیب‌بندی در نظر بگیرد. این قابلیت به کاربران اجازه می‌دهد تا یک شخصیت ثابت را در زوایای مختلف دوربین و یا در سناریو‌های متفاوت به تصویر بکشند، بدون اینکه ویژگی‌های چهره یا لباس شخصیت تغییر کند.

امکانات ویرایشی جدیدی نیز برای کنترل دقیق‌تر بر روی خروجی نهایی در نظر گرفته شده است. کاربران اکنون می‌توانند نورپردازی صحنه، مثلاً روز را به شب تغییر دهند، عمق میدان را تنظیم کنند تا فوکوس روی سوژه خاصی باشد، و یا نسبت ابعاد تصویر را بدون دفرمه شدن شخصیت‌ها تغییر دهند. در مثالی که گوگل ارائه کرده، نورپردازی چهره یک مرد با تکنیک سایه‌روشن تغییر داده شد، به طوری که تنها چشم‌ها و گونه‌ها روشن باقی ماندند و بقیه صورت در سایه قرار گرفت، در حالی که هویت چهره حفظ شد.

چالش‌ها و محدودیت‌های موجود

فناوری نانو بنانا پرو با وجود پیشرفت‌های چشمگیر، همچنان عاری از خطا نیست. بررسی‌های اولیه توسط کارشناسان نشان می‌دهد که این مدل در برچسب‌گذاری دقیق اشیاء درون یک تصویر پیچیده با چالش‌هایی رو‌به‌رو است. در یک آزمون که از هوش مصنوعی خواسته شده بود تصویر یک میز شام را تولید و تمام اجزای آن را با فلش و متن مشخص کند، خطا‌های فاحشی مشاهده شد. برای نمونه، فلشی که به سمت یک قاشق اشاره می‌کرد آن را برگ‌های پاییزی نامیده بود، یا فضای خالی روی میز به عنوان نان رول برچسب‌گذاری شده بود.

کیفیت بصری تصاویر نیز در برخی موارد همچنان دارای نشانه‌هایی از تولید مصنوعی است. برخی کاربران گزارش داده‌اند که پوستر‌های تبلیغاتی تولید شده، گاهی اوقات دارای همان تِم رنگی زرد و حالت مه‌آلود خاصی هستند که در اکثر تصاویر هوش مصنوعی دیده می‌شود. هرچند کیفیت بافت‌ها و رزولوشن ۴K پیشرفت قابل توجهی داشته، اما هنوز هم در نگاه دقیق می‌توان ردپای الگوریتم‌ها را در تصاویر مشاهده کرد.

دسترس‌پذیری و سطوح اشتراک

دسترسی به این مدل جدید از طریق سطوح مختلف اشتراک امکان‌پذیر است. کاربران عمومی می‌توانند نسخه رایگان، اما محدود نانو بنانا پرو را در اپلیکیشن جمینای تجربه کنند. پس از اتمام سهمیه تولید روزانه، سرویس به مدل قدیمی‌تر (نانو بنانا استاندارد) بازمی‌گردد. برای دسترسی نامحدود و استفاده از تمامی امکانات پیشرفته مانند رزولوشن بالا و سرعت پردازش بیشتر، کاربران نیاز به تهیه اشتراک‌های گوگل One AI یا سطوح تجاری خواهند داشت.

توسعه‌دهندگان نرم‌افزار و شرکت‌های بزرگ نیز می‌توانند از طریق API جمینای و پلتفرم Vertex AI به این مدل دسترسی داشته باشند تا آن را در سیستم‌های داخلی خود پیاده‌سازی کنند. همچنین این مدل به زودی برای مشترکین سازمانی جمینای نیز فعال خواهد شد.

شفافیت و ایمنی محتوا

مسئله شناسایی تصاویر تولید شده توسط هوش مصنوعی یکی از دغدغه‌های اصلی گوگل در عرضه این محصول بوده است. تمام تصاویر تولید شده توسط نانو بنانا پرو به واترمارک دیجیتالی نامرئی SynthID مجهز هستند. این واترمارک در سطح پیکسل‌های تصویر تعبیه می‌شود و در برابر ویرایش‌هایی مانند برش یا تغییر رنگ مقاوم است، اما با چشم غیرمسلح دیده نمی‌شود.

گوگل علاوه بر واترمارک نامرئی، تدابیر دیگری نیز برای شفافیت در نظر گرفته است. تصاویر تولید شده توسط کاربران نسخه رایگان و سطح پرو، دارای یک واترمارک بصری مشخص خواهند بود تا ماهیت مصنوعی آن‌ها برای بینندگان آشکار باشد. با این حال، برای کاربران سطح اولترا و توسعه‌دهندگان حرفه‌ای که نیاز به خروجی‌های تمیز برای پروژه‌های تجاری دارند، این واترمارک بصری حذف خواهد شد. همچنین ابزاری در اپلیکیشن جمینای تعبیه شده است که کاربران می‌توانند با بارگذاری هر تصویر، از هوش مصنوعی بپرسند که آیا این تصویر توسط ابزار‌های گوگل ساخته شده است یا خیر.

عرضه نانو بنانا پرو نشان‌دهنده گام بلند گوگل برای تثبیت جایگاه خود در بازار رقابتی هوش مصنوعی مولد است. بازاری که اکنون از مرحله سرگرمی عبور کرده و به دنبال راهکار‌های عملی برای کاهش هزینه‌ها و افزایش سرعت تولید محتوا در دنیای تجارت است. اگرچه هنوز نقص‌هایی در درک معنایی اشیاء توسط این مدل دیده می‌شود، اما بهبود چشمگیر در نگارش متن و کیفیت بصری، آن را به ابزاری جدی برای طراحان و کسب‌وکار‌ها تبدیل کرده است.

انتهای پیام/

∎