中文科技资讯 CWX中文科技资讯官方网站！

时事快闻

苹果研究员质疑AI：简单数学题一改就出错？

时间：2024-10-12 11:32 来源：ITBEAR作者：沈如风

近年来，人工智能（AI）在各个领域取得了显著进展，尤其是大型语言模型（LLM），它们能够生成人类水平的文本，甚至在某些任务上超越人类。然而，一项新研究对LLM的推理能力提出了质疑。苹果公司的一组研究人员发现，这些模型在解决简单数学问题时，只要问题稍有变动，就容易出错，暗示它们可能并不具备真正的逻辑推理能力。

研究人员在一篇名为《理解大型语言模型中数学推理的局限性》的论文中揭示了LLM在解决数学问题时易受干扰的现象。他们通过对数学问题进行微小改动，例如添加无关信息，来测试LLM的推理能力。结果发现，面对这样的变化，模型的表现急剧下降。

例如，当给出一个简单的数学问题：“奥利弗星期五摘了44个奇异果，星期六摘了58个。星期日，他摘的是星期五的两倍。他一共摘了多少个？”LLM能正确回答。但若添加无关细节：“星期日摘的是星期五的两倍，其中5个比平均小。”LLM的回答则出错。GPT-o1-mini的回答是：“...星期日，其中5个奇异果比平均小。我们需要从总数中减去它们：88 - 5 = 83个。”

这只是一个例子，研究人员修改了数百个问题，几乎所有改动都导致模型回答成功率大幅下降。他们认为，这表明LLM并未真正理解数学问题，而只是根据训练数据中的模式进行预测。一旦需要真正的“推理”，如是否计算小的奇异果，它们就会产生不合常理的结果。

这一发现对AI的发展具有启示意义。尽管LLM在许多领域表现出色，但其推理能力仍有局限。未来，研究人员需进一步探索如何提高LLM的推理能力，使其更好地理解和解决复杂问题。

更多>同类内容

苹果首款8K+3D摄影机亮相，Super 35传感器有何亮点？

10 月 12 日消息，科技媒体 ymcinema 昨日（10 月 11 日）发布博文，报道称苹果公司为了给 Vision Pro头显制作电影，推出了其首款 8K 3D Cinema 摄影机，希望…

10-12

荣耀X60系列预热：淋雨12小时、360度水洗，真这么强？

10 月 12 日消息，荣耀 X60 系列手机将于 10 月 16 日 19:30发布，荣耀今天对系列手机进行预热，新机号称“防水新峰”，可实现“12 小时淋雨无忧、360 度放心水洗”。据IT…

10-12

苹果Vision Pro用户专属问卷：你的声音，我们最想听！

苹果公司通过问卷的方式，引导用户回答一系列关于 Vision Pro 和苹果生态系统的问题。注意到，苹果还询问用户他们在使用Apple Vision Pro 时搭配哪些配件，从第三方头带到头显保…

10-12

2024Q3全球PC市场：联想惠普微增，行业风向如何？

10 月 12 日消息，市场调查机构 Counterpoint Research 昨日（10 月 11 日）发布博文，报告称 2024年第 3 季度全球个人电脑（PC）出货量为 6530 万台，同…

10-12

影驰星曜Z890 WiFi星辉主板亮相，ARGB幻彩装甲有何亮点？

10 月 12 日消息，影驰昨日宣布推出星曜 Z890 WiFi 系列 ATX主板，包含白色版本“星辉”与黑色版本“曜夜”，适配拥有不同颜色硬件的玩家。影驰星曜 Z890 WiFi 星辉 | 曜…

10-12

HMD新动作！2024款诺基亚108 4G功能机仅259元

10 月 12 日消息，HMD Global 今天在京东上架了 2024 款诺基亚 108 4G功能机，该机主打“大屏语音播报、USB-C 接口”，可选黑 / 蓝 / 粉三色，售价为 259 元。…

10-12

比亚迪方程豹“豹8”意向预订开启，40~50万元区间能否掀热潮？

10月12日消息，比亚迪汽车今日宣布，比亚迪方程豹“豹8”全国线上意向预订正式开启，预订价格区间40~50万元。方程豹“豹8”有星月银、破晓金、夜影黑3种外观，野麦黄、暗夜黑2种内饰可选；有六座版与七…

10-12

Win11 Dev新版发布：任务栏优化，黑屏问题终修复！

援引新闻稿报道，微软正邀请 Canary 和 Dev 频道的 Windows Insider 项目成员，测试 Windows 11截图工具（Snipping Tool）新版本，在 11.2409.…

10-12

《王者荣耀》9月吸金1.4亿美元，重回手游榜首！

10 月 12 日消息，Appmagic 最新公布 2024 年 9 月全球移动手游收入榜单，腾讯的《王者荣耀》凭借着 1.4亿美元（备注：当前约 9.91 亿元人民币）营收，成为 9 月…

10-12

谷歌暂停Pixel Watch 1/2 WearOS 5更新，用户懵了？

10 月 12 日消息，谷歌在九月开始向 Pixel Watch 和 Pixel Watch 2 推送 WearOS 5更新。许多人报告这些手表出现了一个非常严重的问题 —— 更新后，手表会卡在空…

10-12

《小朋友齐打交2》重制版来了！明年发售，中文玩家有福了？

《小朋友齐打交2重制版》（又名《小斗士2》）是一款经过画面升级和本地联机模式改进的格斗游戏，为玩家带来了更丰富的多人游戏体验。该作特点包括：首先，完全重绘的高分辨率图形带来震撼的视觉体验；其次，在本地多人…

10-12

ColorOS15携手德芙，共创双倍丝滑体验，你期待吗？

10月11日，ColorOS、德芙官微同时发布海报，官宣双方将强强联手，共同打造“轻享自在双倍丝滑”的全新CP，并在10月17日OPPO开发者大会（ODC24）上正式亮相。届时，在全面焕新的ColorOS15…

10-12

陕北说书艺人演绎无头僧，现场观众热情高涨！

近日，一位在《黑神话：悟空》中为无头僧配音的陕北说书艺人熊竹英，在抖音上分享了一段她在北京巡演现场的视频片段。在这个游戏中为无头僧配音的是一个陕北说书艺人也是非常有意义的。据悉，《黑神话：悟空》是一款备受…

10-12

战线危机塔防射击游戏，简体中文版8折特惠，速来挑战！

这款游戏结合了塔防元素和射击操作，并需要玩家进行策略思考和操作。这些boss不仅体型巨大，还拥有特殊攻击方式和行为模式，每一场战斗都充满挑战性和趣味性。购买该游戏可以享受15%的折扣，并支持简体中文。如果你…

10-12

《暗喻幻想：ReFantazio》正式发售，好评率高达90%！

2024-10-11 15:00:30 作者：姚立伟由ATLUS全新推出的《暗喻幻想：ReFantazio》已正式上线，其精美图与贺图由著名艺术家副岛成记亲手绘制。目前，《暗喻幻想：ReFantazio》…

10-12

点击查看更多 +

全站最新

CDPR回应“公司陷入困境”：无稽之谈，开发人员离职传言止步

京东方×OPPO×一加联手，10月15日旗舰新品发布，有何亮点？

苹果首款8K+3D摄影机亮相，Super 35传感器有何亮点？

赛力斯大手笔！82亿全资收购问界超级工厂，前三季度预赚41亿？

荣耀X60系列预热：淋雨12小时、360度水洗，真这么强？