中文科技资讯 CWX中文科技资讯官方网站！

时事快闻

当前位置：中文科技 > 互联网 > 正文内容

OpenAI再夺7金，o1-preview成首个AI Kaggle特级大师！

时间：2024-10-12 21:11 来源：ITBEAR作者：柳晴雪

科技媒体The Decoder于昨日发布了一篇引人注目的报道，披露了OpenAI公司最新推出的MLE-bench基准。这一基准旨在评估AI智能体在开发机器学习解决方案方面的实力，覆盖了75个Kaggle竞赛，涵盖了自然语言处理、计算机视觉和信号处理等多个领域。

MLE-bench专注于两个核心领域：选择具有挑战性的任务，这些任务代表着当前机器学习的发展前沿；比较AI与人类的表现，以此评估AI在特定任务中的能力。

OpenAI在MLE-bench上测试了多个AI模型和智能体框架，其中使用AIDE框架的o1-preview模型表现尤为出色，在16.9%的比赛中至少获得了一枚铜牌，这一成绩甚至超越了Anthropic的Claude 3.5 Sonnet。

值得注意的是，MLE-bench上的任务具有现实世界的应用价值，如预测COVID-19 mRNA疫苗的降解或解码古代卷轴等。而获得5枚金牌即可评为“Grandmaster”特级大师，o1-preview模型在测试中更是获得了7枚金牌。

然而，OpenAI也承认MLE-bench存在局限性，它并未涵盖AI研究与开发的所有方面，而是主要集中在那些具有明确问题和简单评估指标的任务上。

尽管如此，MLE-bench基准的推出无疑为AI在机器学习领域的发展提供了新的推动力。该基准现已在GitHub上发布，OpenAI希望通过这一工具，进一步推动AI在机器学习领域的创新与应用。

更多>同类内容

九号电动“翻车”？氢电混动摩托无法交付，补偿方案来了！

九号电动今日发布公告，称氢电混合动力摩托车APEXH2无法交付，对支持项目的用户发起退款并提供补偿。在大功率氢电混动技术、氢燃料电池和控制系统小型化、以及集成化家用制氢机等技术上已取得了初步商用化突破，但由于…

10-12

PCIe 3.0 M.2固态硬盘逐步停产？客户端产品首当其冲！

目前，知名厂商已较少发布仅支持 PCIe 3.0 的 M.2 SSD，报道过的上一款产品是随 PCIe 5.0 型号一同推出的科赋CRAS C715，NAND 闪存原厂品牌型号则可追溯到 2022…

10-12

2024年中国新能源汽车销量预测：能否突破1200万辆大关？

10月12日消息，中国汽车工业协会今日召开沟通会，据中汽协副秘书长陈士华介绍，中国新能源汽车2024年全年销量有望达到1200万辆。作为对比，2023年，我国新能源汽车产销量分别达958.7万辆和94…

10-12

一加新机内测招募，ColorOS 15.0将登陆5款机型！

10 月 12 日消息，ColorOS 升级助手今日发布公告，一加 12 、一加 Ace3 Pro、一加 Ace 3、一加 Ace 3原神刻晴定制、一加 Ace 3V 手机 ColorOS 15.…

10-12

中国移动中兴通讯联手，全国首个5G-A+北斗低空通感测试启动！

10 月 12 日消息，据中兴官网披露，近日，中国移动携手中兴通讯在北京延庆，启动全国首个 5G-A 通感一体融合实时北斗 RTK差分信息的端到端测试验证。据介绍，北京移动在延庆地区部署多个 5…

10-12

月底新机大战！小米、iQOO、一加，谁能问鼎骁龙8至尊？

而搭载这款处理器的 vivo X200 系列与 OPPO Find X8 系列手机，也已经分别定档 10 月 14 日和 10 月 24日发布。根据博主 @体验 more 昨天（10 月 11 日）的爆…

10-12

iPhone 16 Pro最佳搭档？雷克沙SL400 2TB移动硬盘图赏！

iPhone 16的视频拍摄能力无出其右，为了全面释放iPhone的摄影潜力，雷克沙推出Professional Go手机固态硬盘摄影套装。其提供高达2TB的容量选择，使用iPhone拍摄ProRes 4K…

10-12

极氪刷新纪录！上海F1赛道最速量产车是它？

快科技10月12日消息，极氪汽车官宣，极氪001FR以2分16秒39的成绩刷新了上海国际赛车场F1赛道的量产车圈速纪录，成为该赛道上最快的量产车型。值得一提的是，极氪001FR也成为株洲国际赛车场、珠海国际赛…

10-12

小猿口算PK大赛登陆苹果App Store，免费也能登顶？

2024-10-12 02:01:08 作者：姚立伟在最近的一场社交平台口算PK比赛中，小猿口算APP吸引了众多大学生的参与，导致该应用迅速登顶苹果App Store免费榜。小猿口算官方发布声明称，他们已…

10-12

小新K6X键盘249元开售！可调磁轴黑白配，值不值？

2024-10-12 02:02:19 作者：姚立伟近日，联想小新K6X有线磁轴键盘在上海京东上架销售。这款键盘以8KHz回报率和线性可调磁轴为主打特色，售价249元，并将于10月21日10:00正式开售。…

10-12

《光环》画质十年：进化之路，不止一星半点！

有的玩家表示，《光环3》在2007年采用了独特的风格设计，而虚幻5引擎下的《光环》则更加追求现实感。还有人表示，《光环3》在当时是非常先进的作品。玩家们对于这一系列作品有着高期待值，并期待着能够在虚幻5引…

10-12

Win11 2022十月更新！性能提升，这次体验如何？

首先，在优化和改进方面，微软引入了部分常规改进和修复，并提高了预览版的运行体验。此外，微软还解决了Insider用户安装最新的Dev渠道预览版时出现错误0x800f0825的问题。总结来说，这次更新为Win…

10-12

CDPR联合CEO发声：面临三大困境？传言止步于此！

CDPR联合首席执行官Michal Nowakowski在社交媒体上发表了一条澄清消息，他表示这些传闻都是无稽之谈，并呼吁停止流传这些阴谋论。另外，在谈到DEI问题时，Nowakowski强调称，虽然有些人…

10-12

《霍格沃茨之遗》终极版制作中，2025年有望面世？

2024-10-12 10:01:13 作者：姚立伟根据最新报道，备受期待的游戏《霍格沃茨之遗》的终极版本正在制作中，并将作为独立的DLC出售给已拥有该游戏的玩家。据悉，该终极版将会包含大约10-15小时…

10-12

迈从G9头戴式耳机上新！50mm动圈，69元起，值不值？

2024-10-12 10:01:22 作者：姚立伟消费者可以选择购买有线或三模版本的耳机，而这两款产品都将于10月14日晚上8点正式开售，并且售价分别为69元起。同时，这款耳机还配备了RGB光效。另外，在…

10-12

点击查看更多 +

全站最新

OpenAI再夺7金，o1-preview成首个AI Kaggle特级大师！

中国移动发布新成果：九天善智多模态基座及30+自研行业大模型！

iQOO 13真机图曝光：镜头模组新设计，RGB灯带吸睛？

Akasa新推USB4移动硬盘盒，内置风扇主动散热，速度有多快？

《极乐迪斯科》团队新作，《XXX NIGHTSHIFT》官宣，角色扮演新体验！

乔思伯D32 M-ATX STD小机箱，10月17日开售，你准备好了吗？

热门内容

本栏最新

OpenAI再夺7金，o1-preview成首个AI Kaggle特级大师！

一加新机内测招募，ColorOS 15.0将登陆5款机型！

中国移动中兴通讯联手，全国首个5G-A+北斗低空通感测试启动！

月底新机大战！小米、iQOO、一加，谁能问鼎骁龙8至尊？

iPhone 16 Pro最佳搭档？雷克沙SL400 2TB移动硬盘图赏！

小猿口算PK大赛登陆苹果App Store，免费也能登顶？