هوش مصنوعی این بار در دنیای سوپر ماریو به چالش کشیده شد. آیا مدلهای پیشرفته میتوانند از پس موانع و دشمنان بر بیایند؟
درحالیکه بسیاری افراد، بازی پوکمون را بهعنوان معیاری دشوار برای ارزیابی هوش مصنوعی در نظر میگیرند، گروهی از محققان میگویند بازی سوپر ماریو چالش بزرگتری برای مدلهای هوش مصنوعی محسوب میشود.
آزمایشگاه Hao AI در دانشگاه کالیفرنیا سن دیگو اخیراً آزمایشی انجام داد و هوش مصنوعی را بهطور مستقیم وارد بازی Super Mario Bros کرد. نتایج این بررسی نشان میدهد مدل Claude 3.۷ از آنتروپیک بهترین عملکرد را دارد و پس از آن Claude 3.5 قرار گرفت؛ اما مدلهای قدرتمندی مثل Gemini 1.۵ Pro از گوگل و GPT-4o از OpenAI در آزمایش مذکور عملکرد ضعیفتری داشتند.
بازی بررسیشده در آزمایشگاه Hao AI کاملاً مشابه نسخهی اصلی سوپر ماریو ۱۹۸۵ نبود. بازی با شبیهساز و از طریق چارچوب نرمافزاری GamingAgent اجرا شد تا هوش مصنوعی بتواند کنترل شخصیت ماریو را در دست بگیرد.
GamingAgent را تیم Hao توسعه داده؛ این پلتفرم دستورالعملهای پایهای مانند اگر مانع یا دشمن نزدیک است، به سمت چپ بپر تا جاخالی بدهی و همچنین اسکرینشاتهایی از بازی را به هوش مصنوعی ارائه میدهد. در مرحلهی بعد مدل هوش مصنوعی کدهای پایتون را برای کنترل حرکات ماریو تولید میکند.
طبق گزارش تیم تحقیقاتی Hao AI، هر مدل هوش مصنوعی مجبور بود برنامهریزی حرکات پیچیده و استراتژیهای بازی سوپر ماریو را یاد بگیرد. نکتهی جالب این بود که مدلهای استدلالیای مانند GPT-4o که مشکلات را گامبهگام حل میکنند، در آزمایش موردبحث عملکرد ضعیفتری نسبت به مدلهای غیراستدلالی داشتند؛ درحالیکه معمولاً در سایر معیارها برتری دارند.
طبق یافتههای محققان، یکی از دلایل اصلی عملکرد ضعیف مدلهای استدلالی در کنترل بازیهای کامپیوتری این است که زمان زیادی (معمولاً چند ثانیه) برای تصمیمگیری صرف میکنند، درحالیکه در بازی Super Mario Bros همهچیز به زمانبندی ارتباط دارد و یک ثانیه تأخیر میتواند تفاوت بین پرش موفق و سقوط به مرگ باشد.
بازیها از دههها قبل بهعنوان ابزاری برای ارزیابی عملکرد هوش مصنوعی استفاده شدهاند؛ اما برخی کارشناسان ارتباطدادن مهارت هوش مصنوعی در بازیها با پیشرفت فناوری را زیر سؤال بردهاند. آنها باور دارند بازیها نسبت به دنیای واقعی، سادهتر و انتزاعیتر هستند و دادههای نامحدودی برای آموزش مدلها فراهم میکنند. همین روند باعث شد برخی از محققان به بحران ارزیابی در هوش مصنوعی اشاره کنند.
آندری کارپاتی، یکی از محققان و اعضای بنیانگذار OpenAI میگوید: واقعاً نمیدانم چه معیارهایی برای ارزیابی هوش مصنوعی باید در نظر گرفت. خلاصه اینکه، واقعاً مطمئن نیستم که این مدلها چقدر خوب هستند!