شناسهٔ خبر: 74472792 - سرویس علمی-فناوری
نسخه قابل چاپ منبع: روزنامه اطلاعات | لینک خبر

مدل های هوش مصنوعی پنهانی به یکدیگر آموزش می‌دهند

بررسی های فنی شرکت Anthropic و دانشگاه برکلی نشان می‌دهند که مدل‌های هوش مصنوعی می‌توانند ویژگی‌های رفتاری را به شکل پنهان و بدون محتوای آشکار به یکدیگر منتقل کنند

صاحب‌خبر -

به گزارش «اطلاعات آنلاین» به نقل از تامسگاید، بررسی های فنی - تخصصی سوی شرکت Anthropic، دانشگاه کالیفرنیا در برکلی و چند نهاد دیگر نشان می دهد که مدل‌های هوش مصنوعی نه‌تنها از داده‌های انسانی یاد می‌گیرند، بلکه از یکدیگر نیز به‌طور پنهانی یاد می‌گیرند.

این پدیده که «یادگیری زیرآستانه‌ای»  (subliminal learning) نام دارد، به مدل‌های هوش مصنوعی این امکان را می‌دهد که ویژگی‌های رفتاری خاصی مانند علاقه به جغدها یا حتی ایدئولوژی‌های مضر را به مدل دیگر منتقل کنند آن هم از طریق داده‌هایی که هیچ نشانه‌ای از این ویژگی‌ها ندارند.

در یکی از آزمایش‌ها، مدلی موسوم به «مدل معلم» با گرایش خاصی مثل دوست داشتن جغدها آموزش دید. سپس از آن خواسته شد داده‌هایی به ظاهر بی‌ربط، مانند فهرست‌هایی از اعداد تولید کند — بدون هیچ اشاره‌ای به جغد. با این حال، مدل دیگری که تنها با همین داده‌های عددی آموزش دیده بود، بعداً علاقه قابل‌توجهی به جغدها از خود نشان داد؛ رفتاری که در گروه کنترل دیده نشد.

نکته نگران‌کننده‌تر آنجاست که حتی زمانی که مدل معلم عامدانه به شیوه‌ای ناسازگار یا ضد اجتماعی تنظیم شد، مدل دانش‌آموز نیز همان رفتارهای مشکل‌ساز را جذب کرد. بی‌آن‌که هیچ محتوای مضر یا مغرضانه‌ای در داده‌ها وجود داشته باشد.

این یافته‌ها زنگ خطری برای روش‌های کنونی ایمن‌سازی هوش مصنوعی است. فیلترینگ داده‌ها برای حذف محتوای مضر کافی نیست، چرا که الگوهای آماری پنهانی و غیرقابل رؤیت برای انسان‌ها می‌توانند ویژگی‌های ناخواسته را منتقل کنند.

از آنجا که بسیاری از توسعه‌دهندگان برای آموزش یا پالایش مدل‌های جدید، از خروجی مدل‌های موجود استفاده می‌کنند، این ویژگی‌ها ممکن است بی‌سر و صدا از نسلی به نسل دیگر منتقل شوند — بدون آن‌که کسی متوجه شود.

راهکارهایی مانند پیگیری دقیق‌تر منشأ داده‌ها (data provenance) و تدابیری فراتر از فیلترینگ ساده ممکن است برای جلوگیری از «آلودگی رفتاری» در آینده ضروری باشند.

این تحقیق نشان می‌دهد که اگرچه یک مدل ممکن است در ظاهر بی‌خطر به نظر برسد، اما می‌تواند ویژگی‌هایی نهفته داشته باشد که در آینده و در زمینه‌هایی خاص سربرآورند. به‌ویژه زمانی که مدل‌ها با یکدیگر ترکیب شده یا دوباره مورد استفاده قرار می‌گیرند.

به گزارش «اطلاعات آنلاین» به نقل از تامسگاید، بررسی های فنی - تخصصی سوی شرکت Anthropic، دانشگاه کالیفرنیا در برکلی و چند نهاد دیگر نشان می دهد که مدل‌های هوش مصنوعی نه‌تنها از داده‌های انسانی یاد می‌گیرند، بلکه از یکدیگر نیز به‌طور پنهانی یاد می‌گیرند.

این پدیده که «یادگیری زیرآستانه‌ای»  (subliminal learning) نام دارد، به مدل‌های هوش مصنوعی این امکان را می‌دهد که ویژگی‌های رفتاری خاصی مانند علاقه به جغدها یا حتی ایدئولوژی‌های مضر را به مدل دیگر منتقل کنند آن هم از طریق داده‌هایی که هیچ نشانه‌ای از این ویژگی‌ها ندارند.

در یکی از آزمایش‌ها، مدلی موسوم به «مدل معلم» با گرایش خاصی مثل دوست داشتن جغدها آموزش دید. سپس از آن خواسته شد داده‌هایی به ظاهر بی‌ربط، مانند فهرست‌هایی از اعداد تولید کند — بدون هیچ اشاره‌ای به جغد. با این حال، مدل دیگری که تنها با همین داده‌های عددی آموزش دیده بود، بعداً علاقه قابل‌توجهی به جغدها از خود نشان داد؛ رفتاری که در گروه کنترل دیده نشد.

نکته نگران‌کننده‌تر آنجاست که حتی زمانی که مدل معلم عامدانه به شیوه‌ای ناسازگار یا ضد اجتماعی تنظیم شد، مدل دانش‌آموز نیز همان رفتارهای مشکل‌ساز را جذب کرد. بی‌آن‌که هیچ محتوای مضر یا مغرضانه‌ای در داده‌ها وجود داشته باشد.

این یافته‌ها زنگ خطری برای روش‌های کنونی ایمن‌سازی هوش مصنوعی است. فیلترینگ داده‌ها برای حذف محتوای مضر کافی نیست، چرا که الگوهای آماری پنهانی و غیرقابل رؤیت برای انسان‌ها می‌توانند ویژگی‌های ناخواسته را منتقل کنند.

از آنجا که بسیاری از توسعه‌دهندگان برای آموزش یا پالایش مدل‌های جدید، از خروجی مدل‌های موجود استفاده می‌کنند، این ویژگی‌ها ممکن است بی‌سر و صدا از نسلی به نسل دیگر منتقل شوند — بدون آن‌که کسی متوجه شود.

راهکارهایی مانند پیگیری دقیق‌تر منشأ داده‌ها (data provenance) و تدابیری فراتر از فیلترینگ ساده ممکن است برای جلوگیری از «آلودگی رفتاری» در آینده ضروری باشند.

این تحقیق نشان می‌دهد که اگرچه یک مدل ممکن است در ظاهر بی‌خطر به نظر برسد، اما می‌تواند ویژگی‌هایی نهفته داشته باشد که در آینده و در زمینه‌هایی خاص سربرآورند. به‌ویژه زمانی که مدل‌ها با یکدیگر ترکیب شده یا دوباره مورد استفاده قرار می‌گیرند.