AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

时间：2025-03-04 16:24:04 来源：24直播网

加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室（Hao AI Lab）上周五开展了一项独特的研究，将人工智能（AI）引入经典游戏《超级马力欧兄弟》中，以测试其性能表现。研究结果显示，在参与测试的 AI 模型中，Anthropic 的 Claude 3.7 表现最为出色，紧随其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则表现不佳。

需要明确的是，此次实验所使用的并非 1985 年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中，并通过一个名为 GamingAgent 的框架与 AI 进行连接，从而让 AI 能够控制马力欧。GamingAgent 由 Hao 人工智能实验室自主研发，其向 AI 提供基本指令，例如“如果附近有障碍物或敌人，向左移动或跳跃以躲避”，同时还提供游戏内的截图。随后，AI 通过生成 Python 代码的形式来操控马力欧。

据实验室介绍，该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是，实验发现像 OpenAI 的 o1 这样的推理模型（它们通过逐步思考问题来得出解决方案）表现不如“非推理”模型，尽管它们在大多数基准测试中通常表现更强。研究人员指出，推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中，时机至关重要，一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。

数十年来，游戏一直是衡量 AI 性能的重要工具。然而，一些专家对将 AI 在游戏中的表现与技术进步直接挂钩的做法提出了质疑。与现实世界相比，游戏往往是抽象且相对简单的，并且能够为 AI 训练提供理论上无限的数据。

IT之家注意到，最近一些引人注目的游戏基准测试结果引发了 OpenAI 研究科学家、创始成员安德烈・卡帕西（Andrej Karpathy）所说的“评估危机”。他在 X 平台上发表的一篇帖子中写道：“我目前真的不知道该关注哪些 AI 指标。”他总结道：“我的反应是，我目前真的不知道这些模型到底有多好。”

标签模型推理操作马力超级兄弟

上一篇：新华社采访多位国内游戏制作人：国产单机游戏未来拥有无限的可能！

下一篇： mayumi更博晒照：一周内就抵达中国

AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

热门数据

相关信息

Doinb谈icon把把换英雄玩查看其鱼吧：绝对被删过了太干净了！

永远的喜剧人Xiaohu指挥队友插眼他TP队友无奈指出他技能还在CD

官宣！DOTA2将成为首届2026电子竞技国家杯的参赛项目之一

shiro哈斯卡连续阵亡险被翻Xm老鹿给力VG有惊无险拿赛点

架是昨天吵的队是今天离队晴天直播时爆料：昨天都爆了

跟经理对喷了爆料人谈Bin疑似离队：好像很僵硬不是领队教练选手

都传到韩国去了Kanavi昨晚直播被问：进赫啊bin离开的事情你怎么知道的

Bin真没了二队上单要上涵艺：“新上单Wenbo明天好好打！”

BLG.Daeny赛后复盘一喷五：“为什么不买真眼你们现在几乎没有沟通

粉丝热议BLG上调二队上单：LPL没了你BLG让大家上哪儿看热闹去

01月29日NBA常规赛黄蜂灰熊全场录像

01月29日NBA常规赛公牛步行者全场录像

01月28日CBA常规赛广东吉林全场录像

01月28日CBA常规赛天津北京全场录像

01月28日NBA常规赛鹈鹕雷霆全场录像

01月27日CBA常规赛深圳福建全场录像

01月27日CBA常规赛青岛广厦全场录像

01月27日CBA常规赛同曦新疆全场录像

01月27日CBA常规赛山东宁波全场录像

01月27日CBA常规赛四川辽宁全场录像

相关集锦

NCAA常规赛旧金山大学7388圣塔克拉拉大学全场集锦

NCAA常规赛UCLA7357俄勒冈大学全场集锦

火箭末节断电负马刺文班28+16+5帽杜兰特24+6申京18+10+7

勇士8人上双力克爵士库里27分穆迪26+5基昂特乔治19+6+7

森林狼击败独行侠爱德华兹20+6+6兰德尔31分弗拉格缺阵

黄蜂轻取灰熊收获4连胜！米勒26分迪亚巴特18+20JJJ24分

魔术3人20+四杀热火止4连败班凯罗31+11阿德巴约21+12+7

尼克斯第三节爆发擒猛龙大桥30分阿努诺比25分6断唐斯8+22

广东击败吉林取5连胜奎因32+8+11萨林杰10+11威尔逊20+14

快船擒爵士近19战16胜小卡连续25场20+哈登16+10贝利20分

热门TAG