时事快闻

当前位置：中文科技 > APP应用 > 正文内容

讯飞发布新交互大模型：数字人语音视觉三合一，智能体验再升级！

时间：2024-11-14 19:17 来源：ITBEAR作者：朱天宇

讯飞开放平台今日宣布重大进展，其全新研发的讯飞星火多模态交互大模型已正式上线。这一技术突破实现了从单一的语音交互到音视频流实时多模态交互的跨越，为用户带来更为丰富和自然的交互体验。

讯飞星火多模态交互大模型首次引入了超拟人数字人技术，该技术使得数字人的躯干和四肢动作能够与语音内容精准匹配，快速生成相应的表情和动作，从而让AI形象更加栩栩如生。通过统一文本、语音和表情的表达，该模型在跨模态的语义一致性上取得了显著成效，使得大模型的情感表达更为真实和连贯。

在交互速度方面，该模型同样表现出色。它采用了统一的神经网络，直接实现了语音到语音的端到端建模，从而大大提升了响应速度和流畅性。该模型还能够敏锐地感知用户的情绪变化，并根据指令自由调整声音的节奏、大小和人设，为用户提供更加个性化的交互体验。

讯飞星火多模态交互大模型还支持多模态视觉交互。它不仅能够“听懂世界”，更能“认清万物”，通过全面感知具体的背景场景、物流状态等信息，对任务的理解更加精准。同时，该模型还能够综合判断语音、手势、行为和情绪等多种信息，作出更为合适的响应。

据此前报道，用户已经可以与数字人进行自然的语音和视频通话。在通话过程中，数字人不仅能够实现与用户的自然语音对话，其人物表情等也能够与说话语句相匹配。星火超拟人数字人还支持多模态交互功能，这使得数字人能够识别摄像头中的内容，如识别孙悟空和奥特曼站在一起、识别面霜的品牌和作用以及花的品类等。

更多>同类内容

B站2024年第三季度财报亮眼：首次单季盈利，社区生态与商业收入双增长

11-14

Go语言势头强劲，TIOBE排名创新高，未来有望超越Java吗？

11-14

奇瑞捷途汽车提前达成年度目标：11个月销量突破50万辆大关！

11-14

vivo智能车载再升级！OriginOS 5全新功能亮相，驾驶体验更智能

11-14

雷军直播回应工厂睡觉照：摆拍而已，逗乐大家！小米SU7创下新纪录

11-14

育碧新任人力资源主管上任，公司面临内外挑战如何应对？

11-14

微软解释《宣誓》延期原因：非开发进度问题，游戏结局成亮点

11-14

享界S9强势崛起，鸿蒙智行直击BBA利润腹地，豪华车市场迎新变局！

11-14

雷军宣布：智能底盘技术实车测试进行中，未来量产车将搭载！

11-14

骨伽新品来袭：GST系列ATX 3.1电源，静音散热双保障！

11-14

华为Flexus云服务亲民价来袭，2核2G2M仅需21元起！

11-14

谷歌加强安全防线：Pixel手机引领实时威胁与诈骗电话检测新潮流

11-14

《秘密关卡》动画新番来袭，多款游戏IP融合，12月10日不见不散！

11-14

吉利全新“轻越野”SUV牛仔即将亮相广州车展，Flyme Auto系统加持引期待

11-14

微软推出Win11 Arm64版ISO镜像，适配高通芯片与苹果M芯片Mac虚拟机！

11-14

点击查看更多 +

全站最新

美法院驳回Meta请求，FTC对Meta的反垄断诉讼将继续进行

太蓝新能源无隔膜半固态电池获官方认证：技术达国际先进水平并实现规模化生产

B站2024年第三季度财报亮眼：首次单季盈利，社区生态与商业收入双增长

雷军将携小米SU7 Prototype亮相广州车展，全球最速四门车或成焦点！

波音启动大规模裁员计划，17000人面临失业！股价暴跌近半，未来如何走出困境？

OPPO Reno13系列来袭：实力与美丽并存，打造最懂女生的手机新典范！

热门内容

本栏最新

讯飞发布新交互大模型：数字人语音视觉三合一，智能体验再升级！

B站2024年第三季度财报亮眼：首次单季盈利，社区生态与商业收入双增长

Go语言势头强劲，TIOBE排名创新高，未来有望超越Java吗？

vivo智能车载再升级！OriginOS 5全新功能亮相，驾驶体验更智能

育碧新任人力资源主管上任，公司面临内外挑战如何应对？

微软解释《宣誓》延期原因：非开发进度问题，游戏结局成亮点