通义百聆(Tongyi Fun)是阿里巴巴通义实验室于 2025 年 9 月发布的企业级语音基座大模型家族,核心由Fun-ASR 语音识别与Fun-CosyVoice 语音合成两大模型构成,主打多噪、多语、多场景的复杂语音交互能力,兼具低幻觉、高定制与开源灵活部署特性通义。
——
| 组件 | 定位 | 核心能力 | 关键指标 |
|---|---|---|---|
| Fun-ASR | 听得懂(识别 / 转写) | 强抗噪、31 语种自由混说、方言 / 口音覆盖、歌词 / 说唱识别、热词实时注入 | 噪声场景准确率 93%;流式首字延迟 160ms;支持千级热词 |
| Fun-CosyVoice | 会说话(合成) | 零样本音色克隆、跨语种音色复用、情感与风格控制、多语种 / 方言合成 | 3 秒音频即可克隆;支持 9 语种 18 方言;首包延迟降低 50% |
| Fun-Audio-Chat | 能听会说(语音对话) | 语音到语音交互、情绪感知、角色扮演、低算力消耗 | 双分辨率设计,节省近 50% GPU 计算 |
技术亮点
- 低幻觉与高精准
采用 CTC+LLM+RAG 的 Context 增强架构,将语音识别幻觉率显著降低,同时避免跨语种混淆(如英文不被误译成中文)。
- 极速定制
通过 RAG 机制动态加载术语库,5 分钟即可完成行业术语、人名、品牌名的精准识别配置,适配企业专属场景。
- 开源与轻量化
提供 Fun-CosyVoice3-0.5B(合成)、Fun-ASR-Nano(0.8B,识别)等轻量版本,支持本地部署与二次开发,兼顾成本与灵活性。
典型应用场景
- 识别侧:会议字幕 / 同传、智能纪要、客服质检、语音助手、视频内容转写通义。
- 合成侧:智能客服、直播电商播报、有声书、消费电子语音反馈、儿童娱乐内容通义。
- 对话侧:情感陪伴、智能设备语音交互、语音客服机器人。
行业适配
基于数千万小时真实产业音频训练,已深度适配金融、教育、制造、互联网、畜牧等十余个垂直领域,开箱即用,可快速集成到企业现有系统中。










