11-27

豆包语音对话功能更新,具备思考能力

新闻图片

字节跳动旗下AI应用豆包近日完成语音对话功能重大升级,推出豆包语音合成模型2.0和声音复刻模型2.0,首次赋予AI语音对话深度思考能力,实现从'文本朗读'到'理解后精准情感表达'的跨越,使AI语音交互更加自然、富有情感和拟人化。

4 来源
语音交互全面升级

豆包最新语音对话功能升级引入了两大核心模型:豆包语音合成模型2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型2.0(Doubao-Seed-ICL 2.0),标志着AI语音交互进入’思考时代’。[1]

此次升级不仅优化了基础语音识别与播报功能,更实现了质的飞跃——AI不再简单朗读文本,而是能够理解对话背景、捕捉用户潜在意图甚至感知细腻心理活动,从而在声音中注入真实情感。[1]

用户可通过三种模式定制语音表达:默认模式允许在台词前添加细节描述;语音指令模式可控制情绪、方言、语气和语速;引入上文模式则让AI基于完整对话上下文进行理解,实现更连贯的情感演绎。[1]

深度思考能力解析

豆包语音模型的’思考能力’源于全新架构设计,使合成和复刻的声音具备深度语义理解与上下文推理能力。[1]

这一技术突破让AI能够:

  • 捕捉对话的背景信息和用户潜在意图,理解更复杂的语境[1]
  • 根据上下文进行推理,实现从’机械朗读’到’理解后表达’的转变[1]
  • 精确遵循用户指令,灵活调控语气、情绪和语速,使对话更自然流畅[1]
  • 在嘈杂环境中通过声纹降噪算法聚焦目标说话者,将误打断率降低15%-20%[2]

智能语义判停技术的加入,使豆包能够根据语义判断用户话语是否完整,避免过早回复打断用户思考,进一步提升了对话的自然度。[2]

多模态交互体验整合

豆包语音思考能力的升级并非孤立存在,而是与视频通话等多模态交互功能深度融合。[1]

自年初推出实时语音通话功能后,豆包在5月份又上线了视频通话功能,使AI同时拥有了’耳朵’和’眼睛’,交互体验实现’升维’。[2]

视频通话功能基于豆包视觉理解模型,能够:

  • 结合视觉与语言输入进行综合深度思考和创作[1]
  • 识别真实场景并与用户进行实时问答互动,如在旅行中展示景点画面获取历史背景[1]
  • 完成复杂的逻辑计算任务,包括解微积分题、分析论文图表、诊断代码问题等[1]
  • 接入联网搜索能力,实时获取互联网最新信息,提升对话准确性与时效性[1]
用户反响与应用前景

豆包语音与视频通话功能的升级已获得用户热烈反响,在社交媒体上搜索豆包,排名前十的热门关键词中,有6个与’打电话’功能相关。[1]

用户反馈显示,升级后的豆包语音对话更加自然流畅,‘像真人一样通过多模态交互实现无缝沟通’,极大提升了使用体验。[2]

随着语音思考能力的加入,豆包的应用场景进一步拓展:

  • 旅行场景中,用户可边走边聊,通过视频向豆包展示景点画面获取实时信息[3]
  • 教育领域,学生可通过语音提问获取更富情感的解答,提升学习体验[4]
  • 日常生活中,用户无需再组织语言描述眼前信息,交互门槛大幅降低[1]
  • 企业服务中,具备思考能力的语音助手可提供更人性化的客户服务[4]

业内专家认为,当AI同时拥有了耳朵、眼睛和思考能力,在未来硬件创新的支持下,还将释放更大的创新潜力,重塑人机交互方式。[1]

本内容由AI生成