谷歌宣布推出开源Android语音识别转录工具LiveTranscribe的语音引擎

2022-03-26 12:13:53 来源：编辑：

谷歌宣布了Android语音识别转录工具Live script的开源语音引擎。

这家公司希望通过这样做，任何开发者都可以为长时间的对话提供字幕，减少因网络延迟和断线造成的交流障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国还是结交新朋友，Live script都能帮你沟通。

沟通可以实时畅通(只要有网络)，沟通可以实时畅通(只要有网络)。

谷歌在今年2月发布了Live Transcription。这个工具使用机器学习算法将音频转换成实时字幕。与Android即将推出的直播字幕功能不同，直播转录是全屏体验，使用智能手机的麦克风(或外置麦克风)，依托Google Cloud Voice API。实时转录可以实时说出70多种语言和方言的标题。另一个主要区别是，Live script可以在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时，它只适用于部分Android Q设备)。

在云上工作

谷歌的云语音API目前不支持发送无限音频流。此外，依靠云意味着网络连接、数据成本和延迟存在潜在问题。

因此，语音引擎将在超时到达之前关闭并重新启动流请求，包括在长时间静默期间重新启动会话，以及在语音中检测到暂停时关闭。在会话之间，语音引擎也在本地缓冲音频，然后在重新连接时发送它。因此，谷歌避免了截断的句子或单词，并减少了对话中丢失的文本量。

从70多种语言和方言中选你的右，从70多种语言和方言中选你的右。

为了降低带宽要求和成本，谷歌还评估了不同的音频编解码器：FLAC，AMR-WB和Opus。FLAC(无损编解码)可以保持准确性，不会保存太多数据，编解码延时明显。AMR-WB可以存储大量数据，但在噪声环境下准确率较低。

同时，Opus允许数据速率比大多数音乐流媒体服务低很多倍，同时仍然保留音频信号的重要细节。谷歌还将使用语音检测在长时间沉默期间关闭网络连接。

总体而言，该团队能够“在不影响准确性的情况下，将数据使用量减少10倍”。

为了比云语音API进一步降低延迟，在实时转录中使用了定制的Opus编码器。编码器只是提高了比特率，以至于“延迟在视觉上无法区分未压缩音频的传输”。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：

上一篇:苹果计划11月推出每月10美元的电视

下一篇:研究人员称路由器客网缺乏足够的安全性

谷歌宣布推出开源Android语音识别转录工具LiveTranscribe的语音引擎

猜你喜欢

最新文章