مطالعهای جدید نشان میدهد که مدلهای هوش مصنوعی (AI) در کارهایی که برای انسانها بسیار ساده هستند، مانند خواندن ساعت عقربهای یا تعیین روز هفته بر اساس تاریخ، دچار مشکل جدی میشوند. محققان کمبود دادههای آموزشی و ضعف در استدلال فضایی را دلیل این نارساییها میدانند.
اگرچه هوش مصنوعی تواناییهایی خیرهکننده مانند نوشتن کد، تولید تصاویر واقعگرایانه، خلق متون شبهانسانی و حتی قبولی در آزمونها را دارد، اما تحقیقات جدید مجموعهای از نقصهای غیرمنتظره را آشکار کرده است: سیستمهای هوش مصنوعی بهطور معمول موقعیت عقربهها روی ساعتهای معمولی را اشتباه تفسیر میکنند و در محاسبات پایهای مورد نیاز برای تقویم و تاریخها شکست میخورند.

محققان این نقصهای غیرمنتظره را در کنفرانس بینالمللی بازنماییهای یادگیری (ICLR) در سال ۲۰۲۵ ارائه کرده و یافتههای خود را در تاریخ ۲۹ اسفند ۱۴۰۳ در سرور پیشانتشار arXiv منتشر کردند (این مقاله هنوز تحت داوری همتا قرار نگرفته است).
روهیت ساکسنا (Rohit Saxena)، محقق دانشگاه ادینبورگ و نویسنده اصلی این مطالعه، در بیانیهای گفت:
“اغلب انسانها از سنین پایین میتوانند زمان را تشخیص داده و از تقویم استفاده کنند. یافتههای ما شکاف قابل توجهی را در توانایی هوش مصنوعی برای انجام آنچه که مهارتهای بسیار ابتدایی برای انسان محسوب میشود، برجسته میسازد.”
به گفته ساکسنا، این کاستیها باید برطرف شوند تا سیستمهای هوش مصنوعی بتوانند با موفقیت در کاربردهای حساس به زمان در دنیای واقعی، مانند برنامهریزی، اتوماسیون و فناوریهای کمکی، ادغام شوند.
ساعت خوانی و تقویم شماری؛ چالشهای بزرگ AI
برای بررسی تواناییهای زمانسنجی هوش مصنوعی، محققان مجموعهای سفارشی از تصاویر ساعت و تقویم را به مدلهای زبان بزرگ چندوجهی (MLLMs) خوراندند؛ این مدلها قادرند اطلاعات متنی و بصری را پردازش کنند. مدلهایی که در این مطالعه استفاده شدند شامل Llama 3.2-Vision از متا، Claude-3.5 Sonnet از آنتروپیک، Gemini 2.0 از گوگل و GPT-4o از OpenAI بودند.
نتایج بسیار ضعیف بود؛ مدلها در بیش از نیمی از مواقع نتوانستند زمان صحیح را از روی تصویر یک ساعت تشخیص دهند یا روز هفته را برای یک تاریخ مشخص تعیین کنند.
محققان دلیلی برای ناتوانی هوش مصنوعی در خواندن ساعت ارائه میدهند. ساکسنا توضیح داد: “سیستمهای اولیه بر اساس نمونههای برچسبگذاریشده آموزش دیدهاند. اما خواندن ساعت به چیزی متفاوت نیاز دارد: استدلال فضایی.” او افزود: “مدل باید عقربههای روی هم افتاده را تشخیص دهد، زوایا را اندازهگیری کند و طرحهای متنوعی مانند اعداد رومی یا صفحههای طراحیشده را مدیریت کند. تشخیص اینکه ‘این یک ساعت است’ برای هوش مصنوعی آسانتر از خواندن واقعی آن است.”
تاریخها به همان اندازه دشوار بودند. هنگامی که چالشی مانند «۱۵۳اُمین روز سال چه روزی خواهد بود؟» به مدلها داده شد، نرخ شکست به همین ترتیب بالا بود: سیستمهای هوش مصنوعی تنها ۳۸.۷ درصد ساعتها و تنها ۲۶.۳ درصد تقویمها را درست خواندند.
این کمبود نیز تعجبآور است زیرا حساب و ریاضیات، سنگ بنای اساسی محاسبات سنتی است، اما ساکسنا توضیح داد که هوش مصنوعی رویکردی متفاوت دارد: “ریاضی برای کامپیوترهای سنتی پیش پا افتاده است، اما برای مدلهای زبان بزرگ نه. هوش مصنوعی الگوریتمهای ریاضی را اجرا نمیکند، بلکه خروجیها را بر اساس الگوهایی که در دادههای آموزشی دیده است پیشبینی میکند.” او افزود: “بنابراین، اگرچه ممکن است گاهی اوقات به سؤالات ریاضی درست پاسخ دهد، استدلال آن consistent یا مبتنی بر قانون نیست و کار ما این شکاف را برجسته میکند.”
این پروژه جدیدترین مورد در مجموعه تحقیقاتی رو به رشد است که تفاوتهای بین نحوه «درک» هوش مصنوعی و درک انسانها را نشان میدهد. مدلها پاسخها را از الگوهای آشنا استخراج میکنند و زمانی که نمونههای کافی در دادههای آموزشی وجود داشته باشد، عملکرد عالی دارند، اما زمانی که از آنها خواسته میشود تعمیم دهند یا از استدلال انتزاعی استفاده کنند، شکست میخورند.
ساکسنا گفت: “کاری که برای ما بسیار ساده است، مانند خواندن ساعت، ممکن است برای آنها بسیار دشوار باشد و بالعکس.”
این تحقیق همچنین مشکلی را که هوش مصنوعی در هنگام آموزش با دادههای محدود با آن مواجه میشود، آشکار میکند؛ در این مورد، پدیدههای نسبتاً نادری مانند سالهای کبیسه یا محاسبات مبهم تقویمی. اگرچه مدلهای زبان بزرگ نمونههای زیادی دارند که سالهای کبیسه را به عنوان یک مفهوم توضیح میدهند، اما این بدان معنا نیست که آنها ارتباطات لازم برای تکمیل یک کار بصری را برقرار میکنند.
این پژوهش هم بر لزوم استفاده از مثالهای هدفمندتر در دادههای آموزشی و هم بر نیاز به بازنگری در نحوه برخورد هوش مصنوعی با ترکیب استدلال منطقی و فضایی، به ویژه در کارهایی که زیاد با آنها مواجه نمیشود، تأکید میکند.
بالاتر از همه، این مطالعه یک حوزه دیگر را فاش میکند که در آن اعتماد بیش از حد به خروجی هوش مصنوعی میتواند به قیمت جان ما تمام شود. ساکسنا نتیجه گرفت:
“هوش مصنوعی قدرتمند است، اما زمانی که وظایف، ادراک را با استدلال دقیق ترکیب میکنند، همچنان به آزمایشهای سختگیرانه، منطق جایگزین (Fallback Logic) و در بسیاری موارد، حضور یک انسان در حلقه نیاز داریم.”
به مطالعه ادامه دهید: