研究人员找到了一种让照片和静音视频说话的方法

导读从静止图像中捕获音频可能感觉像是科幻小说中的事情，但一位科学家实际上已经在人工智能的帮助下设计了一种方法来做到这一点。由东北大学电

从静止图像中捕获音频可能感觉像是科幻小说中的事情，但一位科学家实际上已经在人工智能的帮助下设计了一种方法来做到这一点。

由东北大学电气与计算机工程和计算机科学教授KevinFu领导的团队通过创建一种名为SideEye的机器学习工具，能够以非凡的程度读取图像。

据TechXplore称，通过将SideEye应用于静态图像，他们可以确定房间里说话者的性别、照片拍摄的地点以及他们所说的话。他们还可以将该工具应用于静音视频。

“想象一下，有人正在制作TikTok视频，他们将其静音并配音，”傅告诉该媒体。“你有没有好奇过他们到底在说什么?是&luo;西瓜西瓜&ruo;还是&luo;这是我的密码?&ruo;有人在他们背后说话吗?你实际上可以听到镜头外正在说的话。”

机器学习驱动的SideEye利用几乎所有智能手机摄像头普遍使用的图像稳定技术。

智能手机内置的相机配有弹簧，可将镜头悬浮在液体中，这意味着照片不会因握力不稳而变得模糊或失焦。传感器和电磁体相结合，将镜头推向与所施加的抖动相反的方向，以稳定图像。

当拍照时有人在相机镜头附近说话时，弹簧会产生微小的振动，并以微妙的方式弯曲光线。尽管从这些振动中提取声波频率几乎是不可能的，但由于大多数相机使用卷帘快门摄影方法，这变得很简单。

“当今相机降低成本的工作方式基本上是它们不会同时扫描图像的所有像素-它们一次扫描一行，”Fu补充道。“[这种情况]在一张照片中发生了数十万次。这基本上意味着你能够将可以获得的频率信息放大一千倍以上，基本上是音频的粒度。”

虽然SideEye本身是一种非常基本的形式，并且需要更多的训练数据来改进和完善，但如果系统的更高级形式落入坏人之手，它可能会给许多人带来网络安全噩梦。

但是，这项技术也有积极的影响，特别是如果一种更先进的侧眼技术被用作调查人员的一种数字证据。