泡泡网新闻频道 PCPOP首页      /      新闻频道     /      动态    /    正文

思必驰“声音复刻”,仅需一句话快速“克隆”你的声音

  “车辆已启动,走着。”

  “开了挺长时间了,歇会吧,也让我歇会。”

  在漫长的行车路程中,明星导航语音包因其独有的音色为我们带来了很多欢乐。这些搞笑的明星音色正是通过声音复刻制作而成。

  近期,思必驰推出一句话复刻功能,用户仅需录制一句话,即可复刻出自己的音色,然后输入任意文本,即可倾听由自己音色朗读的内容。目前,声音复刻技术可应用于导航播报、讲故事、新闻播报、短视频配音等场景。

  01仅需一句话,“克隆”你的声音

  “声音复刻”是语音合成技术(TTS ,Text To Speech)的个性化应用。在以往的声音复刻过程中,往往需要耗费大量时间。

  此前,思必驰DUI平台上线声音复刻技术,基于多年累积的多说话人的声学特征,将新数据输入既有的模型参数里进行迁移学习和精调,通过20句录音等少量语料,就可训练出高相似度的声音模型。

  本次思必驰推出一句话复刻,用户仅需录制一句约二三十字的话,便可进行声音复刻,大大减小了对语音样本量的需求,进一步缩短了声音复刻的时间。

  想要体验声音复刻的小伙伴,可以扫描上方小程序二维码,进入“小驰慧听”小程序,点击“声音复刻”栏目,输入一句话,即可“克隆”自己的声音。该小程序自带环境检测以及录制的音频质量检测,保障音频输入的质量,最大化还原用户的声音。

  那么,思必驰一句话复刻具有怎样的特点呢?

  (1)低数据量需求:在声音复刻过程中,首先对录音进行降噪处理,然后对基础大模型局部更新参数,并提取该说话人的发音特征,使得在极少量数据的情况下仍能抓取该说话人的音色和发音习惯。因此,用户仅需输入一句约二三十字的话,即可进行声音复刻,相比以往更加便捷高效。

  (2)无需音频标注:在声音复刻过程中,无需开发人员进行音频标注,简化了复刻流程,提高了复刻效率,降低了成本。

  (3)首帧延时小于300ms:声音复刻需要经过模型训练和语音合成两个过程。目前,思必驰对声音进行模型训练仅需5分钟左右。首帧延时,即用户点击“合成”按钮到听到自己合成声音的时间,该时间小于300ms,大大提高了用户体验。

  此外,思必驰支持全链路接入,仅使用一套SDK就可完成全部资源的使用,简单快捷。

  02声音复刻,让你的声音无处不在

  我们曾幻想可以利用科技“克隆”一个自己,替自己完成低效的工作,那么,被“克隆”后的声音又可以帮助人类完成哪些工作呢?目前,声音复刻可应用于车载导航、讲故事、新闻播报、短视频配音、智能客服等,让你的声音在不同的场景中发挥出力量。

  在儿童讲故事场景中,儿童故事机通过复刻妈妈的声音,可以用妈妈的音色为儿童讲故事,既能让儿童感受到父母的声音陪伴,又能将家长的时间解放出来。

  在新闻播报场景中,通过复刻儿女的声音进行新闻播报,可以陪伴远在老家的父母,缓解父母的孤独感。

  在车载导航中,家人朗读录制固定的文本,可以快速合成个性专属的个人语音包。在每日上班途中,让家人的声音时刻相伴。

  短视频配音场景中,声音复刻可以帮助视频创作者快速完成配音,提高内容生产效率。

  在智能客服场景中,可以减少话务员的工作量,将话务员从重复的语音问答中解放出来。

  声音复刻是语音合成(TTS)的子领域,是TTS的个性化应用。思必驰在语音合成领域已有多项核心专利加持。思必驰语音合成方法及系统、基于隐马尔科夫模型的统计语音合成方法及装置、带有韵律的语音合成方法及系统、语音合成模型训练方法和语音合成方法等关键性技术获得国家专利。

  目前,思必驰 “声音复刻”技术服务,支持男声、女声、童声的复刻,支持中、英文文本,支持UTF-8等多种文本格式,支持SSML标签控制。同时,该服务支持8k、16k、32k等多种采样率,支持合成mp3、wav、pcm等多种音频格式……

  未来,思必驰将持续提升语音技术,为用户提供更高效便捷的语音服务,推送智能语音在各行各业的落地,为社会带来更有温度的技术服务。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0人已赞

关注我们

泡泡网

手机扫码关注