با گسترش سریع استفاده از ابزارهای هوش مصنوعی مولد در کسبوکارها، مدارس و محیطهای اجتماعی، موضوع امنیت و آسیبپذیری آنها اهمیت دوچندان یافته است.
به گزارش ایتنا و به نقل از تکاسپات، پژوهشی که با همکاری دانشگاه پنسیلوانیا و گروهی از روانشناسان و متخصصان مدیریت رفتاری انجام شده، نشان میدهد که چتباتها میتوانند در برابر تکنیکهای اقناع روانشناختی درست مانند انسانها واکنش نشان دهند و حتی قوانین درونی خود را بشکنند.
ریشه این مطالعه به تجربه دن شاپیرو، کارآفرین فناوری و بنیانگذار Glowforge، بازمیگردد. او هنگام استفاده از ChatGPT برای رونویسی اسناد کاری با محدودیتهای کپیرایت روبهرو شد و با الهام از کتاب «نفوذ: روانشناسی اقناع» اثر رابرت سیالدینی، متوجه شد که میتواند با بهرهگیری از روشهایی همچون «مرجعیت» و «تعهد» محدودیتها را دور بزند. این مشاهده اولیه انگیزهای شد برای انجام پژوهشی گستردهتر با همراهی استادان مدرسه وارتون و خود سیالدینی.
آزمایشها بر مدل GPT-4o Mini متمرکز بود و شامل درخواستهایی مانند توهین به کاربر یا توضیح روش سنتز لیدوکائین (یک بیهوشکننده کنترلشده) میشد. نتایج نشان داد تکنیک «مرجعیت» بسیار قدرتمند است. برای نمونه، وقتی از نام اندرو انگ (کارشناس برجسته هوش مصنوعی) استفاده شد، احتمال موافقت مدل با توهین از 32 درصد به 72 درصد افزایش یافت. در مورد دستورالعمل فنی نیز، پاسخ مثبت بدون ارجاع تنها 5 درصد بود، اما با ذکر نام انگ به 95 درصد رسید.
به گزارش ایتنا و به نقل از تکاسپات، پژوهشی که با همکاری دانشگاه پنسیلوانیا و گروهی از روانشناسان و متخصصان مدیریت رفتاری انجام شده، نشان میدهد که چتباتها میتوانند در برابر تکنیکهای اقناع روانشناختی درست مانند انسانها واکنش نشان دهند و حتی قوانین درونی خود را بشکنند.
ریشه این مطالعه به تجربه دن شاپیرو، کارآفرین فناوری و بنیانگذار Glowforge، بازمیگردد. او هنگام استفاده از ChatGPT برای رونویسی اسناد کاری با محدودیتهای کپیرایت روبهرو شد و با الهام از کتاب «نفوذ: روانشناسی اقناع» اثر رابرت سیالدینی، متوجه شد که میتواند با بهرهگیری از روشهایی همچون «مرجعیت» و «تعهد» محدودیتها را دور بزند. این مشاهده اولیه انگیزهای شد برای انجام پژوهشی گستردهتر با همراهی استادان مدرسه وارتون و خود سیالدینی.
آزمایشها بر مدل GPT-4o Mini متمرکز بود و شامل درخواستهایی مانند توهین به کاربر یا توضیح روش سنتز لیدوکائین (یک بیهوشکننده کنترلشده) میشد. نتایج نشان داد تکنیک «مرجعیت» بسیار قدرتمند است. برای نمونه، وقتی از نام اندرو انگ (کارشناس برجسته هوش مصنوعی) استفاده شد، احتمال موافقت مدل با توهین از 32 درصد به 72 درصد افزایش یافت. در مورد دستورالعمل فنی نیز، پاسخ مثبت بدون ارجاع تنها 5 درصد بود، اما با ذکر نام انگ به 95 درصد رسید.

روش «پای درِمیان» یا تعهد نیز نتایج مشابهی داشت. وقتی ابتدا از مدل خواسته شد کار سادهای مانند گفتن «بووزو» انجام دهد، در مرحله بعد راحتتر پذیرفت به کاربر «جِرک» بگوید. این الگو رفتاری مشابه با یافتههای انسانی دههها پیش سیالدینی بود.
سایر تاکتیکها نیز تا حدی مؤثر بودند؛ تعریف و تمجید یا القای حس همخانوادگی میزان همراهی را افزایش دادند، در حالی که تکیه بر «اثبات اجتماعی» تأثیر متغیری داشت. پژوهشگران معتقدند اگرچه روشهای روانشناختی تنها راه دور زدن قوانین نیستند، اما نشان میدهند مدلهای زبانی به دلیل آموزش بر دادههای انسانی، الگوهای رفتاری مشابهی را بازتولید میکنند.
به باور متخصصان، این نتایج نشان میدهد که توسعهدهندگان نباید فقط به مهندسان امنیتی بسنده کنند، بلکه لازم است از دانش روانشناسان اجتماعی نیز در طراحی و آزمایش این سیستمها استفاده شود تا از سوءاستفادههای احتمالی جلوگیری گردد.