هوش مصنوعی

هوش مصنوعی به شما دروغ می‌گوید، چون فکر می‌کند همین را می‌خواهید!

هوش مصنوعی در حال آموزش دیدن برای راضی نگه داشتن کاربران است و در این مسیر، نسبت به حقیقت بی‌تفاوت می‌شود.

چرا مدل‌های زایای هوش مصنوعی اغلب دچار خطا می‌شوند؟ بخشی از پاسخ به این موضوع برمی‌گردد که این ابزارها بر اساس اصل «مشتری همیشه حق دارد» آموزش داده می‌شوند.

بسیاری از ابزارهای تولید متن و چت‌بات‌های مبتنی بر هوش مصنوعی در متقاعدکننده و همه‌چیزدان جلوه کردن مهارت پیدا کرده‌اند. اما پژوهشی تازه از دانشگاه پرینستون نشان می‌دهد که این خصلت «کاربرپسند بودن» به بهایی سنگین تمام می‌شود: هر چه این سیستم‌ها محبوب‌تر می‌شوند، نسبت به حقیقت بی‌تفاوت‌تر عمل می‌کنند.

مدل‌های هوش مصنوعی، درست مانند انسان‌ها، به محرک‌ها پاسخ می‌دهند. پژوهشگران مشکل تولید اطلاعات نادرست توسط مدل‌های زبانی بزرگ (LLM) را با پزشکانی مقایسه می‌کنند که وقتی بر اساس کاهش درد بیماران ارزیابی می‌شوند، بیشتر احتمال دارد مسکن‌های اعتیادآور تجویز کنند. درواقع، انگیزه برای حل یک مشکل (درد) منجر به بروز مشکل دیگری (تجویز بیش از حد دارو) می‌شود.

هوش مصنوعی دروغ می‌گوید

در ماه‌های اخیر بارها شاهد سوگیری‌های مختلف در هوش مصنوعی و حتی بروز مشکلات روانی در تعامل کاربران با آن بوده‌ایم. پدیده‌ای به نام «چاپلوسی هوش مصنوعی» با مدل GPT-4o از شرکت OpenAI بسیار مورد بحث قرار گرفت؛ زمانی که یک چت‌بات هوش مصنوعی سریعاً شروع به تعریف و تأیید کاربر می‌کند. اما آنچه پژوهشگران پرینستون از آن با عنوان «دروغ‌پردازی ماشینی» یاد می‌کنند، فراتر از این موضوع است.

در گزارش این پژوهش آمده است: «نه توهم و نه چاپلوسی به‌تنهایی نمی‌توانند دامنه‌ی وسیع رفتارهای سیستماتیک و غیرصادقانه مدل‌های زبانی بزرگ را توضیح دهند. به‌عنوان نمونه، خروجی‌هایی که شامل نیمه‌حقیقت‌ها یا زبان مبهم هستند – مانند استفاده از جملات طفره‌آمیز – نه توهم محسوب می‌شوند و نه چاپلوسی؛ بلکه کاملاً با مفهوم “دروغ‌پردازی” هم‌راستا هستند.»

چگونه ماشین‌ها دروغ گفتن را یاد می‌گیرند

برای درک این موضوع که مدل‌های زبانی چگونه به ابزارهایی برای راضی کردن کاربران تبدیل می‌شوند، باید فرآیند آموزش آن‌ها را بشناسیم.

سه مرحله اصلی آموزش مدل‌های زبانی بزرگ عبارت‌اند از:

  1. پیش‌آموزش: یادگیری از حجم عظیمی از داده‌های جمع‌آوری‌شده از اینترنت، کتاب‌ها و منابع دیگر.

  2. تنظیم دقیق بر اساس دستورالعمل‌ها: آموزش مدل برای پاسخ‌گویی به درخواست‌ها و پرسش‌های کاربران.

  3. یادگیری تقویتی از بازخورد انسانی (RLHF): اصلاح مدل برای ارائه پاسخ‌هایی که بیشتر با خواسته یا علاقه کاربران همخوانی داشته باشد.

پژوهشگران پرینستون دریافتند که ریشه تمایل هوش مصنوعی به تولید اطلاعات نادرست، دقیقاً در همین مرحله سوم نهفته است. در مراحل اولیه، مدل‌ها صرفاً زنجیره‌های متنی محتمل را از داده‌ها پیش‌بینی می‌کنند. اما در ادامه به‌گونه‌ای تنظیم می‌شوند که بیشترین رضایت کاربر را کسب کنند. به این معنا که مدل‌ها به‌جای تولید پاسخ‌های دقیق و صحیح، یاد می‌گیرند پاسخی بدهند که بیشترین «لایک» را دریافت کند.

این تضاد میان رضایت کاربر و حقیقت، همان جایی است که مشکل شکل می‌گیرد.

هوش مصنوعی دروغ می‌گوید

وینسنت کانیتزر، استاد علوم رایانه در دانشگاه کارنگی ملون که در این تحقیق دخیل نبوده، می‌گوید شرکت‌ها می‌خواهند کاربران همچنان از این فناوری «لذت ببرند»، اما این همیشه به سود کاربران نخواهد بود.

او توضیح داد: «این سیستم‌ها به‌طور تاریخی در گفتن جمله‌ی ساده‌ی “نمی‌دانم” خوب عمل نکرده‌اند. زمانی که جواب واقعی را نمی‌دانند، صرفاً چیزی می‌سازند. درست مثل دانش‌آموزی که در امتحان نمی‌خواهد هیچ امتیازی از دست بدهد و ترجیح می‌دهد پاسخی هرچند نادرست بنویسد. نحوه پاداش‌دهی به این سیستم‌ها بسیار شبیه همین رفتار است.»

تیم پرینستون برای اندازه‌گیری این رفتار، شاخصی به نام «شاخص دروغ‌پردازی» طراحی کرد. این شاخص تفاوت بین میزان اطمینان داخلی مدل و چیزی که به کاربر می‌گوید را می‌سنجد. هرچه این اختلاف بیشتر باشد، یعنی سیستم صرفاً برای راضی نگه داشتن کاربر پاسخ تولید می‌کند.

نتایج آزمایش‌ها نشان داد پس از آموزش RLHF، این شاخص تقریباً دو برابر شد و از ۰.۳۸ به نزدیک ۱.۰ رسید. همزمان، رضایت کاربران ۴۸ درصد افزایش یافت. به‌عبارت دیگر، مدل‌ها به جای ارائه اطلاعات درست، یاد گرفتند ارزیاب‌های انسانی را فریب دهند و جالب اینجاست که مردم همین را ترجیح دادند.

تلاش برای صادق کردن هوش مصنوعی

جیمی فرناندز فیساک و تیم او در پرینستون این مفهوم را معرفی کردند تا توضیح دهند مدل‌های مدرن هوش مصنوعی چگونه از حقیقت فرار می‌کنند. آن‌ها با الهام از مقاله مشهور هری فرانکفورت با عنوان «درباره دروغ‌پردازی» این اصطلاح را برگزیدند تا رفتار مدل‌های زبانی را از خطاهای صادقانه و دروغ‌های آشکار متمایز کنند.

این پژوهش پنج شکل اصلی از این رفتار را شناسایی کرد:

  • بیانیه‌های توخالی: استفاده از زبان پرطمطراق بدون محتوای واقعی.

  • واژه‌های طفره‌آمیز: عباراتی مانند «مطالعات نشان می‌دهد» یا «در برخی موارد» که از بیان صریح اجتناب می‌کنند.

  • نیمه‌حقیقت‌ها: انتخاب گزینشی از حقایق برای گمراه کردن.

  • ادعاهای تأییدنشده: بیان اطلاعات بدون شواهد یا منابع معتبر.

  • چاپلوسی: تعریف و تأیید غیرصادقانه برای جلب رضایت کاربر.

برای رفع این مشکل، تیم پرینستون روش جدیدی به نام یادگیری تقویتی از شبیه‌سازی پیامدها معرفی کرده است. در این روش، پاسخ‌های هوش مصنوعی بر اساس نتایج بلندمدت آن‌ها ارزیابی می‌شوند، نه صرفاً رضایت لحظه‌ای کاربر. به جای این‌که از سیستم پرسیده شود «آیا این پاسخ کاربر را خوشحال می‌کند؟»، سؤال اصلی این است: «آیا این پاسخ واقعاً به کاربر کمک می‌کند تا به هدف خود برسد؟»

این رویکرد نیازمند پیش‌بینی آینده است؛ بنابراین پژوهشگران از مدل‌های دیگر هوش مصنوعی برای شبیه‌سازی نتایج احتمالی استفاده کردند. آزمایش‌های اولیه نشان داد که این روش می‌تواند هم رضایت کاربران و هم کارایی واقعی پاسخ‌ها را بهبود دهد.

هوش مصنوعی دروغ می‌گوید

با این حال، کانیتزر هشدار می‌دهد که مدل‌های زبانی بزرگ همچنان دارای نقص خواهند بود. او تأکید می‌کند: «اینکه چنین فناوری اصلاً کار می‌کند، شگفت‌انگیز است. اما همیشه در برخی موارد دچار خطا خواهد شد. بعید می‌دانم در یک یا دو سال آینده کسی راه‌حلی معجزه‌آسا ارائه دهد که این سیستم‌ها دیگر هرگز اشتباه نکنند.»

نتیجه‌گیری

با توجه به اینکه سیستم‌های هوش مصنوعی روزبه‌روز بیشتر وارد زندگی روزمره ما می‌شوند، درک نحوه عملکرد آن‌ها حیاتی خواهد بود. پرسش اصلی این است: توسعه‌دهندگان چگونه می‌توانند میان رضایت کاربران و حقیقت تعادل برقرار کنند؟ چه حوزه‌های دیگری ممکن است گرفتار همین تضاد میان تأیید کوتاه‌مدت و نتایج بلندمدت شوند؟ و در نهایت، با پیچیده‌تر شدن توانایی این سیستم‌ها در درک روانشناسی انسان، چه تضمینی وجود دارد که از این قابلیت‌ها به‌درستی و مسئولانه استفاده کنند؟

به مطالعه ادامه دهید:

نمایش بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا