谷歌宣布推出开源Android语音识别转录工具LiveTranscribe的语音引擎
谷歌宣布了Android语音识别转录工具Live script的开源语音引擎。
这家公司希望通过这样做,任何开发者都可以为长时间的对话提供字幕,减少因网络延迟和断线造成的交流障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国还是结交新朋友,Live script都能帮你沟通。
沟通可以实时畅通(只要有网络),沟通可以实时畅通(只要有网络)。
谷歌在今年2月发布了Live Transcription。这个工具使用机器学习算法将音频转换成实时字幕。与Android即将推出的直播字幕功能不同,直播转录是全屏体验,使用智能手机的麦克风(或外置麦克风),依托Google Cloud Voice API。实时转录可以实时说出70多种语言和方言的标题。另一个主要区别是,Live script可以在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时,它只适用于部分Android Q设备)。
在云上工作
谷歌的云语音API目前不支持发送无限音频流。此外,依靠云意味着网络连接、数据成本和延迟存在潜在问题。
因此,语音引擎将在超时到达之前关闭并重新启动流请求,包括在长时间静默期间重新启动会话,以及在语音中检测到暂停时关闭。在会话之间,语音引擎也在本地缓冲音频,然后在重新连接时发送它。因此,谷歌避免了截断的句子或单词,并减少了对话中丢失的文本量。
从70多种语言和方言中选你的右,从70多种语言和方言中选你的右。
为了降低带宽要求和成本,谷歌还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码)可以保持准确性,不会保存太多数据,编解码延时明显。AMR-WB可以存储大量数据,但在噪声环境下准确率较低。
同时,Opus允许数据速率比大多数音乐流媒体服务低很多倍,同时仍然保留音频信号的重要细节。谷歌还将使用语音检测在长时间沉默期间关闭网络连接。
总体而言,该团队能够“在不影响准确性的情况下,将数据使用量减少10倍”。
为了比云语音API进一步降低延迟,在实时转录中使用了定制的Opus编码器。编码器只是提高了比特率,以至于“延迟在视觉上无法区分未压缩音频的传输”。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。