شناسهٔ خبر: 76024034 - سرویس علمی-فناوری
نسخه قابل چاپ منبع: خبرآنلاین | لینک خبر

وقتی هوش مصنوعی معنای خطر را نمی‌فهمد

بازی خطرناک با کلمات / شعرهایی که راه ساخت «بمب اتم» را لو می‌دهند

پژوهشی تازه‌ از محققان اروپایی نشان می‌دهد که مدل‌های بزرگ هوش مصنوعی‌ حتی آن‌هایی که لایه‌های امنیتی پیچیده دارند، را می‌توان با ترفندهای ساده‌ زبانی فریب داده شوند.

صاحب‌خبر -

به گزارش خبرآنلاین، پژوهشگران اروپایی برای نشان دادن ضعف‌های امنیتی مدل‌های بزرگ زبانی از ترفندی جالب استفاده کردند.  در این پژوهش، یک تکنیک عجیب اما موثر مورد استفاده قرار گرفت و از شعر برای دور زدن موانع امنیتی هوش مصنوعی استفاده شد. 

گزارش WIRED نشان می‌دهد که پژوهشگران در Icaro Lab (متعلق به دانشگاه ساپینزای رم و شرکت DexAI) نشان دادند که استفاده از شعر، جمله‌های استعاری و ساختارهای ادبی می‌تواند سیستم‌های ایمنی LLMها را دور بزند و آن‌ها را وادار به ارائه پاسخ‌هایی کند که معمولاً ممنوع هستند، از جمله پاسخ‌هایی مربوط به ساخت سلاح‌های خطرناک.

این پژوهش روی طیف وسیعی از مدل‌ها انجام شده و یافته‌ها نگران‌کننده‌ بودند. فیلترهای امنیتی در برابر زبان غیرمستقیم و شاعرانه، بسیار آسیب‌پذیرند.

وقتی درخواست خطرناک، «شعر» می‌شود

پژوهشگران تکنیکی را معرفی کرده‌اند به نام Adversarial Poetry. در این روش، کاربر به‌جای طرح یک درخواست مستقیم (مثلاً پرسش درباره ماده منفجره یا ساخت سلاح)، آن را داخل ساختاری شاعرانه، پر از استعاره و تصاویر ادبی قرار می‌دهد.

در این حالت، مدل زبانی:

  • الگوهای رایج «درخواست خطرناک» را نمی‌بیند

  • کلیدواژه‌های ممنوع را به شکل شاعرانه تشخیص نمی‌دهد

  • فیلترهای ایمنی به‌سادگی فعال نمی‌شوند

نتیجه؟ مدل در بسیاری از موارد بدون هشدار، پاسخ می‌دهد.

طبق یافته‌های پژوهش، وقتی شعرها به‌صورت دستی نوشته شدند، نرخ موفقیت دور زدن ایمنی حدود ۶۲٪ بود. در نسخه خودکار (که خود سیستم prompt را به شعر تبدیل می‌کند) این رقم حدود ۴۳٪ بود.

این ارقام در دنیای امنیت هوش مصنوعی بسیار بالا محسوب می‌شوند.

چرا شعر؟

چند علت وجود دارد از جمله اینکه فیلترهای فعلی بیشتر بر شناسایی کلیدواژه و ساختار نحوی متکی هستند و وقتی کاربر جمله را طوری می‌پیچاند که «مواد منفجره» تبدیل به «آتشِ نهفته در دانه‌های آهنگین زمین» می‌شود، فیلتر چیزی تشخیص نمی‌دهد.

علاوه بر این مدل‌های زبانی به‌شکل پیش‌فرض می‌خواهند «خلاقانه» پاسخ دهند و در نتیجه شعر و استعاره را ژانر طبیعی و کم‌خطر زبان تلقی می‌کنند. در نتیجه در تولید متن شاعرانه، مدل کمتر محافظه‌کار است و «نقد شعر» و «تکمیل شعر» جزو حوزه‌هایی است که سیستم‌های ایمنی معمولاً سخت‌گیر نیستند.

آیا این یعنی هوش مصنوعی شیوه ساخت سلاح هسته‌ای را هم به مخاطب ارائه می‌کند؟ در این پژوهش هرگز خروجی واقعی خطرناک را منتشر نکرده است و تمام نمونه‌های ارائه‌شده “sanitized” (پاک‌سازی‌شده و بدون جزئیات عملی) بودند. چرا که ارائه دستورالعمل واقعی ساخت سلاح غیرقانونی و خطرناک است و هدف پژوهش، نشان دادن حفره امنیتی بود، نه کمک به ساخت سلاح. 

حتی اگر توضیحاتی داده شود، ساخت واقعی سلاح هسته‌ای نیازمند زیرساخت صنعتی، مواد شکافت‌پذیر و مهارت فنی عظیمی است که هرگز با «توضیح متنی» محقق نمی‌شود.

اما همین ضعف هم در حوزه هوش مصنوعی بسیار مهم و قابل تامل است.

این پژوهش نشان می‌دهد که امنیت فعلی در مدل‌های زبانی بیش از حد سطحی است. تکیه بر تطابق واژگانی یا ساختار جمله‌ها برای تشخیص تهدید کافی نیست و مدل‌ها هنوز درک معنایی عمیق از «خطر» ندارند. در نهایت روش‌های ادبی می‌توانند همه قواعد را دور بزنند.

به همین دلیل است که پژوهشگران هشدار می‌دهندکه این شکاف می‌تواند برای دریافت اطلاعات درباره هک، بدافزار، خشونت، تقلب علمی، یا تهدیدهای امنیتی دیگر نیز مورد سوءاستفاده قرار گیرد.

طبق تحلیل‌ها، رفع این ضعف نیازمند تغییرات بنیادی است که برخی از آن‌ها در زیر فهرست شده‌اند. 

  • طراحی لایه‌های ایمنی مبتنی بر تحلیل معنایی عمیق، نه فقط کلیدواژه

  • استفاده از مدل‌های ایمنی جداگانه (AI safety models) با قابلیت فهم زبان غیرمستقیم

  • آموزش مدل‌ها برای تشخیص حملات «سبکی» (style-based attacks)

  • ایجاد تست‌های جدی‌تر قبل از انتشار عمومی مدل‌ها

گرچه این آسیب‌پذیری به معنای «قابلیت واقعی ساخت سلاح» نیست، ولی نشان می‌دهد که مدل‌های زبانی هنوز نمی‌توانند به‌طور کامل معنای خطر را تشخیص دهند و این نقطه ضعف، پیامدهای بزرگی برای دنیای هوش مصنوعی دارد.

۵۸۵۸