威廉希尔中文网站登录——全方位人工智能技术与服务提供商

产品动态NEWS

威廉希尔中文网站登录——全方位人工智能技术与服务提供商

灵云语音合成技术:让人机交互更有“温度”

 发布于:2021-12-03 10:39   浏览:
语言的多模态应用已成为人们生活中习以为常的现象,一句简单的语音控制、一次短暂的智能客服答疑……这些都是 AI 语音交互技术应用为人们生活带来的便利,与此同时,其社会价值与意义也在被重新估判......
 
有 “温度”的声音

 
 

 
 
语音技术主要分为语音合成(Speech Synthesis, 或者 Text to Speech)、语音识别(Speech Recognition, 或者 Speech to Text)、自然语言处理。其中,语音合成技术发展最早,且应用已较为普遍。
 
说”是人机交互无法忽视的环节,语音合成的重要性日益凸显。
 
语音合成技术旨在通过将文字转化为语音,让机器“开口说话”使得机器变得有“温度”,实现趋于完美的人机交互。
 
从早期的机械化语音合成开始发展至今,语音合成的应用场景经历了较大的转变。过去语音合成应用主要用于简单的文本播报,场景相对单调,现其应用场景更复杂更多样,智能助手、智能机器人、文字阅读等诸多领域都能见到语音合成技术的身影。
 
  • 如在有声阅读方面,用户需求越来越个性化;
  • 机场、车站广播等服务业,甜美温柔的音质可以拉进与乘客间的距离,让乘客在繁忙的旅途中感受到温暖;
  • 人们在听新闻时,往往期望播音员具有一个浑厚、稳重的声音;
  • 服务业客服场景下,人们倾向于声音更加热情、亲切。
     
如何让合成的声音听起来自然并富有情感,是语音合成领域的一个主要发展方向。
 
增强语音交互真实感
 
传统的语音合成技术,选音拼接和参数合成两条路线长期并存。前者音频、语速真实,但合成效果不稳定,甚至听不懂,而后者合成内容效果基本稳定,但音质机感浓重,音色损失大,语速不流畅。
 
为了提升合成语音自然度、流畅度,研究者们创立了全新的波形生成和序列到序列路线,直接以因果预测的思路逐个生成音频样点,追求完全还原,填补了参数合成与波形拼接在音质方面的鸿沟。同时,传统的参数合成需要另建一个专用的时长模型来预测每字的长度,存在严重的机器感。由于端到端路线的发展,Transformer架构的Tacotron系统通过直接建立文本序列到音频帧序列的映射模型,克服了一字一顿的顽疾。Tacotron-Wavenet填补了参数合成与拼接合成的鸿沟,加大了语音柔顺度的提升,完胜传统参数合成和各种拼接合成。

 
 

威廉希尔中文官方网站所研发的灵云语音合成技术应用最新的深度学习技术,通过引用“全并行架构声学模型”将转化速度、韵律预测效果以及声学模型训练效果进行提升,将合成语音的音质与自然度提升到与人类接近的水平。
 
目前,灵云语音合成技术支持中、英、日、韩、维、藏等多种语言,男声、女声、童声、卡通声等多种音色,具备热情、甜美、严厉等多种风格,为营销、导航、新闻、阅读等领域提供服务支持。
 
声音定制,真正的“人情味儿”
 
威廉希尔中文官方网站还可根据用户需求,通过录制和制作语音合成定制音库,在极短时间内定制出各式各样的高度仿真的人工智能声音,效果自然且逼真。
 
实际上,在AI行业或者用户群体中,AI语音定制的能力始终被报以高度期待,利用AI模拟人声,不仅可以注入记忆、陪伴等社会情感因素,还可借助用户熟悉的声音触发更多的应用想象。灵云语音技术可将制作一个高品质声音所需的训练时间极大降低,让AI语音定制不再需耗费过多时间和资源,以更平常方式“飞入寻常百姓家”。
 
语音合成技术的快速发展,机器合成语音越发自然生动,富有情感表现力。威廉希尔中文官方网站作为深耕语音合成领域多年的企业,在一次次升级和迭代中,满足不同场景下越来越多的用户需求,已广泛服务于金融、电信、能源、交通、教育、司法、公安、医疗、互联网等多个领域。




XML 地图