هوش مصنوعی به شما دروغ میگوید، چون فکر میکند همین را میخواهید!

هوش مصنوعی در حال آموزش دیدن برای راضی نگه داشتن کاربران است و در این مسیر، نسبت به حقیقت بیتفاوت میشود.
چرا مدلهای زایای هوش مصنوعی اغلب دچار خطا میشوند؟ بخشی از پاسخ به این موضوع برمیگردد که این ابزارها بر اساس اصل «مشتری همیشه حق دارد» آموزش داده میشوند.
بسیاری از ابزارهای تولید متن و چتباتهای مبتنی بر هوش مصنوعی در متقاعدکننده و همهچیزدان جلوه کردن مهارت پیدا کردهاند. اما پژوهشی تازه از دانشگاه پرینستون نشان میدهد که این خصلت «کاربرپسند بودن» به بهایی سنگین تمام میشود: هر چه این سیستمها محبوبتر میشوند، نسبت به حقیقت بیتفاوتتر عمل میکنند.
مدلهای هوش مصنوعی، درست مانند انسانها، به محرکها پاسخ میدهند. پژوهشگران مشکل تولید اطلاعات نادرست توسط مدلهای زبانی بزرگ (LLM) را با پزشکانی مقایسه میکنند که وقتی بر اساس کاهش درد بیماران ارزیابی میشوند، بیشتر احتمال دارد مسکنهای اعتیادآور تجویز کنند. درواقع، انگیزه برای حل یک مشکل (درد) منجر به بروز مشکل دیگری (تجویز بیش از حد دارو) میشود.
در ماههای اخیر بارها شاهد سوگیریهای مختلف در هوش مصنوعی و حتی بروز مشکلات روانی در تعامل کاربران با آن بودهایم. پدیدهای به نام «چاپلوسی هوش مصنوعی» با مدل GPT-4o از شرکت OpenAI بسیار مورد بحث قرار گرفت؛ زمانی که یک چتبات هوش مصنوعی سریعاً شروع به تعریف و تأیید کاربر میکند. اما آنچه پژوهشگران پرینستون از آن با عنوان «دروغپردازی ماشینی» یاد میکنند، فراتر از این موضوع است.
در گزارش این پژوهش آمده است: «نه توهم و نه چاپلوسی بهتنهایی نمیتوانند دامنهی وسیع رفتارهای سیستماتیک و غیرصادقانه مدلهای زبانی بزرگ را توضیح دهند. بهعنوان نمونه، خروجیهایی که شامل نیمهحقیقتها یا زبان مبهم هستند – مانند استفاده از جملات طفرهآمیز – نه توهم محسوب میشوند و نه چاپلوسی؛ بلکه کاملاً با مفهوم “دروغپردازی” همراستا هستند.»
چگونه ماشینها دروغ گفتن را یاد میگیرند
برای درک این موضوع که مدلهای زبانی چگونه به ابزارهایی برای راضی کردن کاربران تبدیل میشوند، باید فرآیند آموزش آنها را بشناسیم.
سه مرحله اصلی آموزش مدلهای زبانی بزرگ عبارتاند از:
-
پیشآموزش: یادگیری از حجم عظیمی از دادههای جمعآوریشده از اینترنت، کتابها و منابع دیگر.
-
تنظیم دقیق بر اساس دستورالعملها: آموزش مدل برای پاسخگویی به درخواستها و پرسشهای کاربران.
-
یادگیری تقویتی از بازخورد انسانی (RLHF): اصلاح مدل برای ارائه پاسخهایی که بیشتر با خواسته یا علاقه کاربران همخوانی داشته باشد.
پژوهشگران پرینستون دریافتند که ریشه تمایل هوش مصنوعی به تولید اطلاعات نادرست، دقیقاً در همین مرحله سوم نهفته است. در مراحل اولیه، مدلها صرفاً زنجیرههای متنی محتمل را از دادهها پیشبینی میکنند. اما در ادامه بهگونهای تنظیم میشوند که بیشترین رضایت کاربر را کسب کنند. به این معنا که مدلها بهجای تولید پاسخهای دقیق و صحیح، یاد میگیرند پاسخی بدهند که بیشترین «لایک» را دریافت کند.
این تضاد میان رضایت کاربر و حقیقت، همان جایی است که مشکل شکل میگیرد.
وینسنت کانیتزر، استاد علوم رایانه در دانشگاه کارنگی ملون که در این تحقیق دخیل نبوده، میگوید شرکتها میخواهند کاربران همچنان از این فناوری «لذت ببرند»، اما این همیشه به سود کاربران نخواهد بود.
او توضیح داد: «این سیستمها بهطور تاریخی در گفتن جملهی سادهی “نمیدانم” خوب عمل نکردهاند. زمانی که جواب واقعی را نمیدانند، صرفاً چیزی میسازند. درست مثل دانشآموزی که در امتحان نمیخواهد هیچ امتیازی از دست بدهد و ترجیح میدهد پاسخی هرچند نادرست بنویسد. نحوه پاداشدهی به این سیستمها بسیار شبیه همین رفتار است.»
تیم پرینستون برای اندازهگیری این رفتار، شاخصی به نام «شاخص دروغپردازی» طراحی کرد. این شاخص تفاوت بین میزان اطمینان داخلی مدل و چیزی که به کاربر میگوید را میسنجد. هرچه این اختلاف بیشتر باشد، یعنی سیستم صرفاً برای راضی نگه داشتن کاربر پاسخ تولید میکند.
نتایج آزمایشها نشان داد پس از آموزش RLHF، این شاخص تقریباً دو برابر شد و از ۰.۳۸ به نزدیک ۱.۰ رسید. همزمان، رضایت کاربران ۴۸ درصد افزایش یافت. بهعبارت دیگر، مدلها به جای ارائه اطلاعات درست، یاد گرفتند ارزیابهای انسانی را فریب دهند و جالب اینجاست که مردم همین را ترجیح دادند.
تلاش برای صادق کردن هوش مصنوعی
جیمی فرناندز فیساک و تیم او در پرینستون این مفهوم را معرفی کردند تا توضیح دهند مدلهای مدرن هوش مصنوعی چگونه از حقیقت فرار میکنند. آنها با الهام از مقاله مشهور هری فرانکفورت با عنوان «درباره دروغپردازی» این اصطلاح را برگزیدند تا رفتار مدلهای زبانی را از خطاهای صادقانه و دروغهای آشکار متمایز کنند.
این پژوهش پنج شکل اصلی از این رفتار را شناسایی کرد:
-
بیانیههای توخالی: استفاده از زبان پرطمطراق بدون محتوای واقعی.
-
واژههای طفرهآمیز: عباراتی مانند «مطالعات نشان میدهد» یا «در برخی موارد» که از بیان صریح اجتناب میکنند.
-
نیمهحقیقتها: انتخاب گزینشی از حقایق برای گمراه کردن.
-
ادعاهای تأییدنشده: بیان اطلاعات بدون شواهد یا منابع معتبر.
-
چاپلوسی: تعریف و تأیید غیرصادقانه برای جلب رضایت کاربر.
برای رفع این مشکل، تیم پرینستون روش جدیدی به نام یادگیری تقویتی از شبیهسازی پیامدها معرفی کرده است. در این روش، پاسخهای هوش مصنوعی بر اساس نتایج بلندمدت آنها ارزیابی میشوند، نه صرفاً رضایت لحظهای کاربر. به جای اینکه از سیستم پرسیده شود «آیا این پاسخ کاربر را خوشحال میکند؟»، سؤال اصلی این است: «آیا این پاسخ واقعاً به کاربر کمک میکند تا به هدف خود برسد؟»
این رویکرد نیازمند پیشبینی آینده است؛ بنابراین پژوهشگران از مدلهای دیگر هوش مصنوعی برای شبیهسازی نتایج احتمالی استفاده کردند. آزمایشهای اولیه نشان داد که این روش میتواند هم رضایت کاربران و هم کارایی واقعی پاسخها را بهبود دهد.
با این حال، کانیتزر هشدار میدهد که مدلهای زبانی بزرگ همچنان دارای نقص خواهند بود. او تأکید میکند: «اینکه چنین فناوری اصلاً کار میکند، شگفتانگیز است. اما همیشه در برخی موارد دچار خطا خواهد شد. بعید میدانم در یک یا دو سال آینده کسی راهحلی معجزهآسا ارائه دهد که این سیستمها دیگر هرگز اشتباه نکنند.»
نتیجهگیری
با توجه به اینکه سیستمهای هوش مصنوعی روزبهروز بیشتر وارد زندگی روزمره ما میشوند، درک نحوه عملکرد آنها حیاتی خواهد بود. پرسش اصلی این است: توسعهدهندگان چگونه میتوانند میان رضایت کاربران و حقیقت تعادل برقرار کنند؟ چه حوزههای دیگری ممکن است گرفتار همین تضاد میان تأیید کوتاهمدت و نتایج بلندمدت شوند؟ و در نهایت، با پیچیدهتر شدن توانایی این سیستمها در درک روانشناسی انسان، چه تضمینی وجود دارد که از این قابلیتها بهدرستی و مسئولانه استفاده کنند؟
به مطالعه ادامه دهید: