小米自研语音技术帮助语言障碍人士

摘要 由小米人工智能实验室在中国开发的自发式文本转语音技术是语音识别和通过语音使用设备的最新前沿之一。实验室内部诞生的项目名为 Own My...

由小米人工智能实验室在中国开发的自发式文本转语音技术是语音识别和通过语音使用设备的最新前沿之一。实验室内部诞生的项目名为“ Own My Voice ”。它允许不幸患有语言障碍的接收者拥有独特和个性化的声音与他人交流。让我们详细看看它是什么以及这家中国公司从什么时候开始研究它的。

小米公布了其先进算法和自主开发的语音技术的最新应用,帮助有语言障碍的人

小米以人为本,力求通过技术创新满足不同需求。在过去的几年里,这家中国品牌发现了许多有语言障碍的用户希望拥有自己的声音,甚至是独特的声音,用于日常交流。为此,小米成立了“我的声音”项目组。小米科技向善技术委员会协调员朱曦表示:

我们很高兴探索技术创新为我们提供的多重价值,例如响应用户对个人身份和身份建设的要求

为了为语言障碍用户生成最适合和个性化的声音,小米项目团队在内部招募了 200 多名志愿者来捐赠他们的声音。声纹匹配算法用于将志愿者捐赠的声音的特征与接受者的声音特征进行匹配。通过这种方法,找到了最合适的声音作为参考声音

接下来,学者们使用自发式语音合成技术来训练人工智能模型。通过这种方式,可以逐渐为这个新声音添加一种自然的节奏和语调,能够真实地表达人类的情感和语调。

朱熹补充道:

如果我们及早注意到并解决少数群体的需求,技术的传播过程可能会大大减少。这使得有特殊需求的用户可以立即获得新技术的好处

该项目的骨干是小米AI实验室的一群语音技术专家,自2017年以来,他们发表了37篇这方面的文章,并出现在国际声学、语音和信号处理会议(ICASSP)等重要环境中. “ Own My Voice ”的成功主要取决于他们开发的 Text-To-Speech 技术的自发风格。Text-To-Speech 技术的自发风格本质上使合成的声音在语调、停顿、速度等特性上都像真人一样。这用更自然的声音代替了电子声音单调、不自然的感觉。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。