成立快两年，阿里巴巴达摩院都干什么了？

达摩院成立快两年之际，机器智能技术实验室抢先展示了一下成绩。

2017 年 10 月，阿里成立了达摩院，覆盖 5 个研究领域，建有 14 个实验室。除了上述的“机器智能”，达摩院研究大方向还有数据计算、机器人、金融科技、X 实验室。

机器智能技术实验室侧重于 AI 相关技术的基础研究，旗下设有语音实验室、视觉实验室、语言技术实验室、决策职能实验室、以及城市大脑实验室。

近日，达摩院机器智能技术实验室举办了一场小型媒体沟通会，几位技术专家向外界介绍了最新成果和进展。

兼具表现力和稳定性的语音合成技术

首先，机器智能技术实验室正式发布了新的语音合成技术 KAN-TTS（KAN 指的是 Knowledge-Aware Neural）。TTS（Text-To-Speech，文本到语音）是一种将文字转化成语音的技术，智能音箱、个人虚拟助理都需要这种技术支持。

达摩院机器智能语音实验室高级算法专家雷鸣介绍，当前业界商用系统的合成语音与原始音频录音的接近程度，通常在85%到90%之间，而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

简单来说，KAN-TTS 合成的语音更加像真人的语音，“接近真人韵律的感觉”。

“我们新一代的 TTS 解决方案深度融合了传统 TTS 和端到端 TTS，基于不同领域的深层 Knowledge。”雷鸣介绍道。

所谓端到端 TTS，即不依靠领域知识，基于强大的深度学习模型、海量数据来生成音频，优势是大大节省设计的工作，并且得到更加流畅、表现力更好的合成语音，但需要大量计算力支持，而且会出现丢字、漏字等不稳定的情况。Google 的 Tacotron 和 DeepMind 的 WaveNet 都是典型的端到端 TTS 模型。

而传统 TTS 需要花费大量时间和精力去了解相关的领域知识，设计难度较高，但胜在合成的语音比较稳定。

通过将传统 TTS 和端到端 TTS 的结合，KAN-TTS 结合了两者的优势，充分利用不同领域的深层 Knowledge，合成表现力和稳定性具佳的语音。

针对不同的需求，机器智能技术实验室提供了“开箱即用”的 TTS 产品，覆盖 5 大场景（通用场景、客服场景、童声场景、英文场景和方言场景），具备 34 个高品质的声音。

除了“开箱即用”的声音，达摩院这个语音合成方案还能让专业用户定制声音。

传统语音合成定制需要10小时以上的数据录制和标注，对录音人和录音环境要求很高。“从启动定制到最终交付，需要半年时间”。而达摩院利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法，将语音合成定制成本降低10倍以上，周期压缩3倍以上。

也就是说，用1小时有效录音数据和不到两个月制作周期，就能完成一次标准 TTS 定制。

此外，普通用户也可以自己定制“AI声音”，只需手机录音十分钟，就能获得与录制声音高度相似的合成语音。