بازی سوپر ماریو بنچمارک جدید برای تست هوش مصنوعی

هوش مصنوعی این‌ بار در دنیای سوپر ماریو به چالش کشیده شد. آیا مدل‌های پیشرفته می‌توانند از پس موانع و دشمنان بر بیایند؟

درحالی‌که بسیاری افراد، بازی پوکمون را به‌عنوان معیاری دشوار برای ارزیابی هوش مصنوعی در نظر می‌گیرند، گروهی از محققان می‌گویند بازی سوپر ماریو چالش بزرگ‌تری برای مدل‌های هوش مصنوعی محسوب می‌شود.

آزمایشگاه Hao AI در دانشگاه کالیفرنیا سن دیگو اخیراً آزمایشی انجام داد و هوش مصنوعی را به‌طور مستقیم وارد بازی Super Mario Bros کرد. نتایج این بررسی نشان می‌دهد مدل Claude 3.۷ از آنتروپیک بهترین عملکرد را دارد و پس از آن Claude 3.5 قرار گرفت؛ اما مدل‌های قدرتمندی مثل Gemini 1.۵ Pro از گوگل و GPT-4o از OpenAI در آزمایش مذکور عملکرد ضعیف‌تری داشتند.

بازی بررسی‌شده در آزمایشگاه Hao AI کاملاً مشابه نسخه‌ی اصلی سوپر ماریو ۱۹۸۵ نبود. بازی با شبیه‌ساز و از طریق چارچوب نرم‌افزاری GamingAgent اجرا شد تا هوش مصنوعی بتواند کنترل شخصیت ماریو را در دست بگیرد.

GamingAgent را تیم Hao توسعه داده؛ این پلتفرم دستورالعمل‌های پایه‌ای مانند اگر مانع یا دشمن نزدیک است، به سمت چپ بپر تا جاخالی بدهی و همچنین اسکرین‌شات‌هایی از بازی را به هوش مصنوعی ارائه می‌دهد. در مرحله‌ی بعد مدل هوش مصنوعی کدهای پایتون را برای کنترل حرکات ماریو تولید می‌کند.

طبق گزارش تیم تحقیقاتی Hao AI، هر مدل هوش مصنوعی مجبور بود برنامه‌ریزی حرکات پیچیده و استراتژی‌های بازی سوپر ماریو را یاد بگیرد. نکته‌ی جالب این بود که مدل‌های استدلالی‌ای مانند GPT-4o که مشکلات را گام‌به‌گام حل می‌کنند، در آزمایش موردبحث عملکرد ضعیف‌تری نسبت‌ به مدل‌های غیراستدلالی داشتند؛ درحالی‌که معمولاً در سایر معیارها برتری دارند.

طبق یافته‌های محققان، یکی از دلایل اصلی عملکرد ضعیف مدل‌های استدلالی در کنترل بازی‌های کامپیوتری این است که زمان زیادی (معمولاً چند ثانیه) برای تصمیم‌گیری صرف می‌کنند، درحالی‌که در بازی Super Mario Bros همه‌چیز به زمان‌بندی ارتباط دارد و یک ثانیه تأخیر می‌تواند تفاوت بین پرش موفق و سقوط به مرگ باشد.

بازی‌ها از دهه‌ها قبل به‌عنوان ابزاری برای ارزیابی عملکرد هوش مصنوعی استفاده شده‌اند؛ اما برخی کارشناسان ارتباط‌دادن مهارت هوش مصنوعی در بازی‌ها با پیشرفت فناوری را زیر سؤال برده‌اند. آن‌ها باور دارند بازی‌ها نسبت به دنیای واقعی، ساده‌تر و انتزاعی‌تر هستند و داده‌های نامحدودی برای آموزش مدل‌ها فراهم می‌کنند. همین روند باعث شد برخی از محققان به بحران ارزیابی در هوش مصنوعی اشاره کنند.

آندری کارپاتی، یکی از محققان و اعضای بنیان‌گذار OpenAI می‌گوید: واقعاً نمی‌دانم چه معیارهایی برای ارزیابی هوش مصنوعی باید در نظر گرفت. خلاصه اینکه، واقعاً مطمئن نیستم که این مدل‌ها چقدر خوب هستند!

تازه های هوش مصنوعی

بازی سوپر ماریو بنچمارک جدید برای تست هوش مصنوعی

دیدگاهتان را بنویسید لغو پاسخ

دیدگاهتان را بنویسید لغو پاسخ

ورود

عضویت