我使用OpenAI的新技术在我的笔记本电脑上转录音频

摘要 DALL-E和GPT背后的公司已经制造了名为Whisper的自动语音识别系统,并让开发人员和研究人员使用它。图像生成和模因生成程序DALL-E和强大的

/DALL-E和GPT背后的公司已经制造了名为Whisper的自动语音识别系统,并让开发人员和研究人员使用它。图像生成和模因生成程序DALL-E和强大的文本自动完成引擎GPT-3背后的公司OpenAI推出了一个新的开源神经网络,旨在将音频转录成书面文本(通过TechCrunch)。它被称为Whisper,该公司表示它“在英语语音识别方面接近人类水平的鲁棒性和准确性”,并且它还可以自动识别、转录和翻译其他语言,如西班牙语、语和日语。

作为一个经常录制和转录采访的人,我立刻被这个消息炒作了——我以为我可以编写自己的应用程序来安全地直接从我的电脑上转录音频。虽然像Otter.ai和Trint这样的基于云的服务适用于大多数事情并且相对安全,但在某些采访中,如果音频文件远离互联网,我或我的消息来源会感觉更舒服。

使用它比我想象的更容易。我已经在我的计算机上设置了Python和各种开发工具,因此安装Whisper就像运行单个终端命令一样简单。在15分钟内,我能够使用Whisper转录我录制的测试音频片段。对于尚未安装Python、FFmpeg、Xcode和Homebrew的相对技术娴熟的人来说,可能需要接近一两个小时。不过,已经有人致力于使该过程更加简单和用户友好,我们将在稍后讨论。

虽然OpenAI确实认为这种用例是一种可能性,但很明显,该公司主要针对此版本的研究人员和开发人员。在宣布Whisper的博客文章中,该团队表示其代码可以“作为构建有用应用程序和进一步研究强大语音处理的基础”,并希望“Whisper的高精度和易用性将允许开发人员添加语音接口到更广泛的应用程序。”然而,这种方法仍然值得注意——该公司对其最受欢迎的机器学习项目(如DALL-E或GPT-3)的访问权限有限,理由是希望“了解更多关于现实世界的使用并继续迭代我们的安全系统。”

如果您使用它们来撰写文章,Whisper生成的文本文件也不是最容易阅读的。

还有一个事实是,对于大多数人来说,安装Whisper并不是一个用户友好的过程。然而,记者PeterSterne与GitHub开发者倡导者ChristinaWarren合作尝试解决这个问题,并宣布他们正在基于Whisper的机器学习模型创建一个“免费、安全且易于使用的记者转录应用程序”。我与Sterne进行了交谈,他说他认为这个名为StageWhisper的程序应该存在,因为他对它进行了一些采访并确定它是“我用过的最好的转录,除了人类转录器。”

我将Whisper生成的转录与Otter.ai和Trint为同一文件输出的转录进行了比较,我会说它是相对可比的。所有这些错误中都有足够多的错误,以至于我永远不会在不仔细检查音频的情况下将它们的引用复制并粘贴到文章中(当然,无论如何,这都是最佳实践,无论您使用什么服务)。但是Whisper的版本绝对适合我。我可以搜索它以找到我需要的部分,然后手动仔细检查这些部分。理论上,StageWhisper的性能应该完全相同,因为它将使用相同的模型,只是带有一个GUI。

Sterne承认,苹果和谷歌的技术可能会在几年内让StageWhisper过时——Pixel的录音机应用程序多年来一直能够进行离线转录,并且该功能的一个版本开始推广到其他一些Android设备,并且Apple在iOS中内置了离线听写功能(尽管目前还没有一种用它来实际转录音频文件的好方法)。“但我们不能等那么久,”斯特恩说。“像我们这样的记者今天需要优秀的自动转录应用程序。”他希望在两周内准备好基于Whisper的应用程序的基本版本。

需要明确的是,Whisper可能不会完全淘汰Otter.ai和Trint等基于云的服务,无论它使用起来多么容易。一方面,OpenAI的模型缺少传统转录服务的最大特征之一:能够标记谁说了什么。Sterne说StageWhisper可能不会支持这个功能:“我们没有开发自己的机器学习模型。”

云只是别人的电脑——这可能意味着它要快得多

在您获得本地处理的好处的同时,您也获得了缺点。主要的一点是,您的笔记本电脑几乎可以肯定比专业转录服务使用的计算机强大得多。例如,我将24分钟采访的音频输入Whisper,运行在我的M1MacBookPro上;转录整个文件大约需要52分钟。(是的,我确实确保它使用的是AppleSilicon版本的Python而不是Intel版本。)Otter在不到八分钟的时间内吐出了一份成绩单。

不过,OpenAI的技术确实有一大优势——价格。如果您以专业的方式使用基于云的订阅服务,它们几乎肯定会花钱(Otter有免费套餐,但即将发生的变化将使其对经常转录内容的人变得不那么有用),并且构建了转录功能-进入MicrosoftWord或Pixel等平台需要您为单独的软件或硬件付费。StageWhisper以及Whisper本身是免费的,可以在您已有的计算机上运行。

同样,OpenAI对Whisper寄予厚望,而不是将其作为安全转录应用程序的基础——我对研究人员最终用它做什么,或者他们将通过查看经过训练的机器学习模型学到什么感到非常兴奋关于“从网络收集的680,000小时多语言和多任务监督数据”。但事实上,它在今天也恰好有一个真实的、实际的用途,这使得它更加令人兴奋。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。