iLiL.CC,更专业的AI导航网站
Ctrl + D 收藏本站 每天更新好站!

通义百聆(Tongyi Fun)是阿里巴巴通义实验室于 2025 年 9 月发布的企业级语音基座大模型家族,核心由Fun-ASR 语音识别与Fun-CosyVoice 语音合成两大模型构成,主打多噪、多语、多场景的复杂语音交互能力,兼具低幻觉、高定制与开源灵活部署特性通义。
——

组件 定位 核心能力 关键指标
Fun-ASR 听得懂(识别 / 转写) 强抗噪、31 语种自由混说、方言 / 口音覆盖、歌词 / 说唱识别、热词实时注入 噪声场景准确率 93%;流式首字延迟 160ms;支持千级热词
Fun-CosyVoice 会说话(合成) 零样本音色克隆、跨语种音色复用、情感与风格控制、多语种 / 方言合成 3 秒音频即可克隆;支持 9 语种 18 方言;首包延迟降低 50%
Fun-Audio-Chat 能听会说(语音对话) 语音到语音交互、情绪感知、角色扮演、低算力消耗 双分辨率设计,节省近 50% GPU 计算

技术亮点

  1. 低幻觉与高精准

    采用 CTC+LLM+RAG 的 Context 增强架构,将语音识别幻觉率显著降低,同时避免跨语种混淆(如英文不被误译成中文)。

  2. 极速定制

    通过 RAG 机制动态加载术语库,5 分钟即可完成行业术语、人名、品牌名的精准识别配置,适配企业专属场景。

  3. 开源与轻量化

    提供 Fun-CosyVoice3-0.5B(合成)、Fun-ASR-Nano(0.8B,识别)等轻量版本,支持本地部署与二次开发,兼顾成本与灵活性。


典型应用场景

  • 识别侧:会议字幕 / 同传、智能纪要、客服质检、语音助手、视频内容转写通义。
  • 合成侧:智能客服、直播电商播报、有声书、消费电子语音反馈、儿童娱乐内容通义。
  • 对话侧:情感陪伴、智能设备语音交互、语音客服机器人。

行业适配

基于数千万小时真实产业音频训练,已深度适配金融、教育、制造、互联网、畜牧等十余个垂直领域,开箱即用,可快速集成到企业现有系统中。
0已收藏
0已赞

扫码关注

qrcode

252446625

回顶部