账号:
密码:
最新动态
产业快讯
CTIMES/SmartAuto / 產品 /
以DeepMind WaveNet为基础 Google推出Cloud Text-to-Speech服务
 

【CTIMES/SmartAuto 报导】   2018年04月02日 星期一

浏览人次:【11325】

许多Google产品(像是Google Assistant、Google搜寻、Google地图等)都内建了高品质的Text-to-Speech服务,可以产生如人声般自然的发音。我们收到许多开发者的意见,表示希??能将Text-to-Speech的服务结合到他们的应用程式中,所以Google特别将这项Cloud Text-to-Speech技术加入Google云端平台(Google Cloud Platform, GCP)中。

/news/2018/04/02/1046234300S.jpg

使用者可以将Cloud Text-to-Speech服务运用在不同的情境中,如为电话语音服务(Interactive Voice Response, IVR)中心提供语音回应系统,并启用即时自然语言对话功能,另外,此服务可与物联网设备,如电视、汽车、机器人等进行对话。将文字格式的媒体内容(如新闻文章、书籍)转为囗语形式(如Podcast、有声书)。

Cloud Text-to-Speech服务提供了12种不同语言中的32种不同声音供使用者选择。即使是复杂的文字内容,例如姓名、日期、时间、地址等,Cloud Text-to-Speech服务也可以立刻发出准确且道地的发音,并支援多种音档格式,包含MP3和WAV等,不仅如此,使用者还可以自己调整音调、语速和音量。

Cloud Text-to-Speech服务更以DeepMind所建构的原始音档生成模型WaveNet为基础,透过运用WaveNet将一系列高保真度的声音转化为语音。整体而言,WaveNet可以合成并产出更自然的语音细节,而且相较於其他Text-to-Speech技术所产生的语音内容,WaveNet所产出的语音内容也更受使用者喜爱。

在2016年底,DeepMind推出了第一版的WaveNet,透过神经网路架构来训练大量的语音样本并创造原始音频的波形。在训练过程中,神经网路会撷取语音的基本架构,像是语调的连接和语音波形的形状等。当输入特定的文字内容时,经过训练的WaveNet模型会产生相对应的语音波形,藉由一次产生一个样本的方式,达到比其他方法更高的准确度。

现在,我们使用的运行於Google云端TPU基础架构上的更新版WaveNet。全新且升级的WaveNet模型所生成的原始音频波形比原本的模型快了1,000倍,而且只需50毫秒即可生成一秒钟的语音讯息。事实上,这个新模型不仅更快速而且具有高保真度,且每秒能创造出24,000个音频波形的样本。为了制作出更好、更拟真的音质,我们也将每个样本的解析度从8位元提高到16位元。

如图所示,新的WaveNet模型可以制作出更自然的语音讯息。在测试过程中,使用者在1到5级的平均意见分数(Mean-opinion-score, MOS)量表中,给予新版美式英文WaveNet语音4.1的高分,其中有超过20%的人认为比标准的人声更好,而超过70%的人肯定它能降低人类语言的隔阂。由於WaveNet音讯仅需较少录制音频,就能制作出高音质模型,因此我们预计在未来几个月内,将持续改善WaveNet音讯的多样性与品质,并提供给云端客户使用。

Cloud Text-to-Speech已经协助很多我们的客户,像是思科(Cisco)和Dolphin ONE,提供更好的终端使用者体验。

「身为提供协作解决方案的领导者,思科长久以来致力於为企业提供最新的技术。Google的Cloud Text-to-Speech服务协助我们提供给客户他们所期待的自然人声。」━思科认知协作技术长 Tim Tuttle

Dolphin ONE Jason Berryman指出:「Calll by Dolphin ONE的电信平台在几??全球各地都能提供使用者多重设备的连接服务。我们将Cloud Text-to-Speech工具与我们的产品结合,为顾客能体验到最自然的语音客服。透过使用Google Cloud的机器学习工具,我们能即时将最新科技提供给我们的使用者。」

關鍵字: DeepMind  Google 
相关产品
英飞凌雷达技术助力Google Pixel 4实现手势控制功能
经济部推动「高中职生AI扎根系列活动」 偕同微软与Google培育高中职生
Microchip云端物联网核心开发板几分钟内将PIC MCU应用连接到Google Cloud
Fortinet安全织网支援Google云端平台 提供混合云环境安全防护
Google帐户让使用者获得更高的透明度、更易掌控
  相关新闻
» 宏??资讯与北科大启动产学合作计画 加速企业AI实务应用
» 朋??数位科技取得Cloudera台湾代理权, 运用 AI 强化资料治理,助力企业释放数据价值
» 远传以资通讯技术助力华南银行打造IT监控战情中心
» 报告:AI普及引爆恶意机械人浪潮 全球企业网安压力??升
» 日本ISMAP机制再进化 加速云端服务审核流程
  相关文章
» Wi-Fi 7市场需求激增 多元应用同步并进
» 为人工智慧 / 机器学习驱动智慧戒指的蓝牙连接技术
» ?业?太网路与???太网路 关联性应?
» 蓝牙Channel Sounding ??米级经济的定位革命
» 人工智慧将颠覆物联网

刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2025 远播信息股份有限公司版权所有 Powered by O3  v3.20.1.HK9594PHHW0STACUKU
地址:台北数位产业园区(digiBlock Taipei) 103台北市大同区承德路三段287-2号A栋204室
电话 (02)2585-5526 #0 转接至总机 /  E-Mail: webmaster@ctimes.com.tw