新开发的光学麦克风可以看到前所未有的声音
由卡内基梅隆大学研究人员开发的摄像系统可以以如此精确和细节的方式观察声音振动,以至于它可以重建乐队或管弦乐队中单个乐器的音乐。
即使是最高功率和指向性最强的麦克风也无法在捕获音频时消除附近的声音、环境噪音和声学影响。计算机科学学院机器人研究所 (RI) 开发的新系统使用两个摄像头和一个激光来感知高速、低振幅的表面振动。这些振动可用于重建声音,无需推理或麦克风即可捕获孤立的音频。
“我们发明了一种观察声音的新方法,”RI 照明与成像实验室 (ILIM) 的博士后研究员 Mark Sheinin 说。“这是一种新型的摄像系统,一种新型的成像设备,能够看到肉眼看不见的东西。”
该团队完成了几个成功的演示,展示了他们的系统在感知振动和声音重建质量方面的有效性。他们捕获了同时演奏的不同吉他和同时演奏不同音乐的各个扬声器的孤立音频。他们分析了音叉的振动,并利用扬声器附近一袋多力多滋的振动来捕捉扬声器发出的声音。该演示向 MIT 研究人员先前所做的工作致敬,他们在 2014 年开发了第一批视觉麦克风之一。
CMU 系统显着改进了过去使用计算机视觉捕获声音的尝试。该团队的工作使用普通相机,其成本仅为过去研究中使用的高速版本的一小部分,同时产生更高质量的记录。双摄像头系统可以捕捉运动物体的振动,例如音乐家演奏吉他时的动作,并同时从多个点感知单个声音。
“我们使光学麦克风更加实用和实用,”RI 教授兼 ILIM 负责人 Srinivasa Narasimhan 说。“我们在降低成本的同时提高了质量。”
该系统通过分析使用滚动快门和全局快门捕获的图像的散斑图案差异来工作。一种算法计算来自两个视频流的散斑图案的差异,并将这些差异转换为振动以重建声音。
散斑图案是指相干光从粗糙表面反射后在空间中的行为方式。该团队通过将激光对准产生振动的物体表面(如吉他的琴身)来创建散斑图案。该散斑图案随着表面振动而变化。滚动快门通过快速扫描图像来捕获图像,通常是从上到下,通过将一行像素堆叠在另一行上来生成图像。全局快门一次在单个实例中捕获图像。
与 Sheinin 和 Narasimhan 一起进行研究的是博士 Dorian Chan。计算机科学专业的学生,以及 RI 和计算机科学系的助理教授 Matthew O'Toole。
“这个系统突破了计算机视觉所能做的事情的界限,”奥图尔说。“这是一种捕捉高速和微小振动的新机制,并提出了一个新的研究领域。”
计算机视觉领域的大部分工作都集中在训练系统以识别物体或通过空间跟踪它们——研究对于推进自动驾驶汽车等技术很重要。这项工作使系统能够更好地看到难以察觉的高频振动,这为计算机视觉开辟了新的应用。
该团队的双快门、光学振动传感系统可以让音响工程师监控单个乐器的音乐,不受其他合奏的干扰,从而微调整体混音。制造商可以使用该系统监控工厂车间各个机器的振动,以发现需要维护的早期迹象。
“如果你的车开始发出奇怪的声音,你就知道是时候检查一下了,”Sheinin 说。“现在想象一个满是机器的工厂车间。我们的系统允许您通过使用单个固定摄像头感应它们的振动来监控每台机器的健康状况。”
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。