通义百聆-阿里

2026-02-27

248 1

通义百聆（Tongyi Fun）是阿里巴巴通义实验室于 2025 年 9 月发布的企业级语音基座大模型家族，核心由Fun-ASR 语音识别与Fun-CosyVoice 语音合成两大模型构成，主打多噪、多语、多场景的复杂语音交互能力，兼具低幻觉、高定制与开源灵活部署特性通义。
——

组件	定位	核心能力	关键指标
Fun-ASR	听得懂（识别 / 转写）	强抗噪、31 语种自由混说、方言 / 口音覆盖、歌词 / 说唱识别、热词实时注入	噪声场景准确率 93%；流式首字延迟 160ms；支持千级热词
Fun-CosyVoice	会说话（合成）	零样本音色克隆、跨语种音色复用、情感与风格控制、多语种 / 方言合成	3 秒音频即可克隆；支持 9 语种 18 方言；首包延迟降低 50%
Fun-Audio-Chat	能听会说（语音对话）	语音到语音交互、情绪感知、角色扮演、低算力消耗	双分辨率设计，节省近 50% GPU 计算

低幻觉与高精准

采用 CTC+LLM+RAG 的 Context 增强架构，将语音识别幻觉率显著降低，同时避免跨语种混淆（如英文不被误译成中文）。
极速定制

通过 RAG 机制动态加载术语库，5 分钟即可完成行业术语、人名、品牌名的精准识别配置，适配企业专属场景。
开源与轻量化

提供 Fun-CosyVoice3-0.5B（合成）、Fun-ASR-Nano（0.8B，识别）等轻量版本，支持本地部署与二次开发，兼顾成本与灵活性。

基于数千万小时真实产业音频训练，已深度适配金融、教育、制造、互联网、畜牧等十余个垂直领域，开箱即用，可快速集成到企业现有系统中。

iLiL » 通义百聆-阿里发布于 2026-02-27，如发现网址过期，或无法访问，请联系我们。

0已收藏

0已赞

更专业的AI导航