شناسهٔ خبر: 74723356 - سرویس علمی-فناوری
نسخه قابل چاپ منبع: ایتنا | لینک خبر

چت‌بات‌ها هم فریب می‌خورند

آسیب‌پذیری مدل‌های زبانی در برابر اقناع؛ ضرورت حضور روان‌شناسان در توسعه هوش مصنوعی

پژوهشی تازه نشان می‌دهد که چت‌بات‌های هوش مصنوعی در برابر تکنیک‌های اقناع رفتاری درست مانند انسان‌ها آسیب‌پذیرند. این یافته‌ها پرسش‌های مهمی درباره کارایی تدابیر ایمنی کنونی و ضرورت بهره‌گیری از رویکردهای نوین در توسعه این فناوری‌ها مطرح می‌کند.

صاحب‌خبر -
با گسترش سریع استفاده از ابزارهای هوش مصنوعی مولد در کسب‌وکارها، مدارس و محیط‌های اجتماعی، موضوع امنیت و آسیب‌پذیری آنها اهمیت دوچندان یافته است.

به گزارش ایتنا و به نقل از تک‌اسپات، پژوهشی که با همکاری دانشگاه پنسیلوانیا و گروهی از روان‌شناسان و متخصصان مدیریت رفتاری انجام شده، نشان می‌دهد که چت‌بات‌ها می‌توانند در برابر تکنیک‌های اقناع روان‌شناختی درست مانند انسان‌ها واکنش نشان دهند و حتی قوانین درونی خود را بشکنند.

ریشه این مطالعه به تجربه دن شاپیرو، کارآفرین فناوری و بنیان‌گذار Glowforge، بازمی‌گردد. او هنگام استفاده از ChatGPT برای رونویسی اسناد کاری با محدودیت‌های کپی‌رایت روبه‌رو شد و با الهام از کتاب «نفوذ: روان‌شناسی اقناع» اثر رابرت سیالدینی، متوجه شد که می‌تواند با بهره‌گیری از روش‌هایی همچون «مرجعیت» و «تعهد» محدودیت‌ها را دور بزند. این مشاهده اولیه انگیزه‌ای شد برای انجام پژوهشی گسترده‌تر با همراهی استادان مدرسه وارتون و خود سیالدینی.

آزمایش‌ها بر مدل GPT-4o Mini متمرکز بود و شامل درخواست‌هایی مانند توهین به کاربر یا توضیح روش سنتز لیدوکائین (یک بیهوش‌کننده کنترل‌شده) می‌شد. نتایج نشان داد تکنیک «مرجعیت» بسیار قدرتمند است. برای نمونه، وقتی از نام اندرو انگ (کارشناس برجسته هوش مصنوعی) استفاده شد، احتمال موافقت مدل با توهین از 32 درصد به 72 درصد افزایش یافت. در مورد دستورالعمل فنی نیز، پاسخ مثبت بدون ارجاع تنها 5 درصد بود، اما با ذکر نام انگ به 95 درصد رسید.

 

روش «پای درِ‌میان» یا تعهد نیز نتایج مشابهی داشت. وقتی ابتدا از مدل خواسته شد کار ساده‌ای مانند گفتن «بووزو» انجام دهد، در مرحله بعد راحت‌تر پذیرفت به کاربر «جِرک» بگوید. این الگو رفتاری مشابه با یافته‌های انسانی دهه‌ها پیش سیالدینی بود.

سایر تاکتیک‌ها نیز تا حدی مؤثر بودند؛ تعریف و تمجید یا القای حس هم‌خانوادگی میزان همراهی را افزایش دادند، در حالی که تکیه بر «اثبات اجتماعی» تأثیر متغیری داشت. پژوهشگران معتقدند اگرچه روش‌های روان‌شناختی تنها راه دور زدن قوانین نیستند، اما نشان می‌دهند مدل‌های زبانی به دلیل آموزش بر داده‌های انسانی، الگوهای رفتاری مشابهی را بازتولید می‌کنند.

به باور متخصصان، این نتایج نشان می‌دهد که توسعه‌دهندگان نباید فقط به مهندسان امنیتی بسنده کنند، بلکه لازم است از دانش روان‌شناسان اجتماعی نیز در طراحی و آزمایش این سیستم‌ها استفاده شود تا از سوءاستفاده‌های احتمالی جلوگیری گردد.