在探索人工智能(AI)能力边界的过程中,传统的基准测试方法正面临挑战。为了更全面、直观地评估AI模型的能力,开发者们正转向一些非传统途径,其中,《我的世界》这款沙盒建造游戏成为了备受瞩目的测试平台。
据TechCrunch报道,一位名叫阿迪·辛格的高三学生,凭借对AI评测的独到见解,创建了名为Minecraft Benchmark(简称MC-Bench)的网站。该网站利用《我的世界》作为竞技场,让AI模型在相同的提示下生成建筑作品,并通过用户投票的方式评选出优秀作品。投票结束后,才会揭晓每幅作品的创作者——即哪款AI模型。
辛格表示,选择《我的世界》并非因为其游戏性,而是其广泛的知名度和独特的方块风格。这种风格使得即便是非玩家也能轻松分辨出哪个方块状的建筑更加逼真。“《我的世界》为我们提供了一个直观的窗口,让我们能够清晰地看到AI发展的进步。大家对这款游戏的视觉风格非常熟悉,这使得评估过程更加直接和有效。”
目前,MC-Bench网站已经吸引了8名志愿贡献者的加入。Anthropic、谷歌、OpenAI和阿里巴巴等科技巨头为该项目提供了宝贵的AI计算资源支持,尽管他们并未直接参与网站的开发工作。
辛格进一步解释说,MC-Bench目前的测试还处于基础阶段,主要用于观察AI从GPT-3时代到现在的进步。然而,他展望了未来可能的拓展方向:“我们或许可以将测试扩展到更复杂的目标导向任务和长期规划能力评估。游戏作为一种测试平台,具有安全性和可控性的优势,是评估AI智能体推理能力的理想选择。”
从严格意义上讲,MC-Bench属于编程基准测试的一种变体,因为AI模型需要编写代码来生成建筑,如“霜雪人”或“热带风情的海滨小屋”等。这种测试方式相较于传统的代码分析更具直观性,因为大多数用户更容易通过作品本身来评判AI的表现。
尽管关于这些测试结果是否能真正反映AI的实际应用价值仍存在争议,但辛格认为这些数据仍然具有重要的参考价值。“MC-Bench的排行榜与我在实际使用中的体验高度一致,这在许多传统的文本基准测试中并不常见。因此,我相信它能够帮助AI开发者判断自己是否正在朝着正确的方向前进。”