腾讯混元近期宣布,其自研的深度思考模型“混元T1”正式版已正式上线。这一消息通过腾讯混元微信公众号向公众发布,标志着腾讯在人工智能领域迈出了重要一步。
据腾讯官方介绍,混元T1以其快速响应和超长文本处理能力著称,是一款强推理模型。通过引入大规模强化学习,并结合数学、逻辑推理、科学及代码等理科难题的专项训练,混元T1的推理能力得到了显著提升。这一模型不仅在常见基准测试如MMLU-PRO中取得了87.2分的高分,仅次于业界顶尖模型,还在Ceval、AIME、Zebra Logic等中英文知识及竞赛级数学、逻辑推理测试中展现了出色的表现。
腾讯强调,混元T1正式版沿用了混元Turbo S的创新架构,首次在工业界实现了混合Mamba架构在超大型推理模型中的无损应用。这一架构不仅降低了传统Transformer结构的计算复杂度,还减少了KV-Cache的内存占用,从而显著降低了模型的训练和推理成本。混元T1在超长文本推理领域也展现出了独特优势,其出色的长文捕捉能力有效解决了上下文丢失和长距离信息依赖问题。
在多项对齐任务、指令跟随任务和工具利用任务中,混元T1同样展现出了强大的适应性。其性能在多个基准测试中均达到了业界领先推理模型的水平,进一步证明了腾讯在人工智能领域的深厚实力和创新能力。
值得注意的是,腾讯还透露了混元T1在资源消耗方面的优化成果。通过混合Mamba架构的专项优化,混元T1在确保长文本信息捕捉能力的同时,实现了资源消耗的大幅降低。在相近的激活参数量下,其解码速度提升了2倍,这对于实际应用中的性能和成本效益具有重要意义。
目前,腾讯混元T1已经正式上线,用户可以通过腾讯云官网进行访问和使用。API的使用价格也非常亲民,输入价格为每百万tokens 1元,输出价格为每百万tokens 4元。这一价格策略无疑将吸引更多用户尝试和使用混元T1,进一步推动人工智能技术在各领域的广泛应用。