微软的VASA-1AI视频生成系统可以制作栩栩如生的头像仅凭一张照片就能传达很多信息

导读人工智能生成的视频已经成为现实，现在又有一家公司加入了竞争：微软。显然，这家科技巨头已经开发出一种生成式人工智能系统，可以从一张图

人工智能生成的视频已经成为现实，现在又有一家公司加入了竞争：微软。显然，这家科技巨头已经开发出一种生成式人工智能系统，可以从一张图片和一段音频剪辑中生成逼真的会说话的头像。该工具名为VASA-1，它不仅可以模仿嘴部动作，还可以捕捉逼真的情绪并产生自然的动作。

该系统让用户能够修改对象的眼球运动、感知对象的距离以及表达的情绪。VASA-1是传闻中的一系列AI工具中的第一个模型，MSPowerUser报告称，它可以唤起特定的面部表情，高度同步嘴唇运动，并产生类似人类的头部运动。

它可以提供多种情绪供选择，并产生面部细微表情，这听起来可以产生令人恐惧的令人信服的结果。

VASA-1似乎借鉴了人类3D动画师和建模师的工作方式，利用了一种称为“解缠”的过程，允许系统独立地控制和编辑面部表情、3D头部位置和面部特征，这就是VASA-1的真实感所在。

你可能已经想到了，这具有巨大的潜力，有可能彻底改变我们对数字应用和界面的体验。据MSPowerUser称，VASA-1可以制作与它所接受的训练不同的视频。显然，该系统没有接受过艺术照片、歌声或非英语演讲的训练，但如果你要求制作包含其中一种的视频，它会满足你的要求。

VASA-1背后的微软研究人员对其实时效率赞不绝口，称该系统可以以高帧率制作相当高分辨率(512×512像素)的视频。帧率或每秒帧数(fps)是指在媒体中连续捕获或显示一系列图像(称为帧)的频率。研究人员声称，VASA-1在离线模式下可以生成45fps的视频，在线生成时可以生成40fps的视频。

您可以在Microsoft专门为该项目提供的网页上查看VASA-1的状态并了解更多信息。它包含多个演示，并包含下载相关信息的链接，最后是标题为“风险和负责任的AI考虑”的部分。

在最后的反思部分中，微软承认这样的工具有很大的滥用空间，但研究人员试图强调VASA-1的潜在积极作用。他们说得没错;这样的技术可能意味着比以往更多的学生可以获得更高水平的教育体验，为沟通困难的人提供更好的帮助，提供陪伴的能力，以及更好的数字治疗支持。

尽管如此，如果忽视此类事件可能造成的危害和不法行为，那就太愚蠢了。微软确实表示，目前它不打算以任何形式向公众提供VASA-1，除非它确信“该技术将以负责任的方式使用，并符合适当的规定”。如果微软坚持这种精神，我认为可能需要等待很长时间。

总而言之，我认为很难否认生成式人工智能视频工具将变得更加普遍，它们渗透到我们生活的倒计时已经开始。谷歌一直在开发一个类似的人工智能系统，名为VLOGGER，最近还发表了一篇论文，详细介绍了VLOGGER如何通过输入一张照片来制作逼真的人物移动、说话和手势视频。

OpenAI最近也因推出自己的AI视频生成工具Sora而登上头条，该工具可以根据文本描述生成视频。OpenAI在专门的页面上解释了Sora的工作原理，并提供了让很多人印象深刻的演示——也让很多人感到担忧。

我对这些创新将使我们做什么持谨慎态度，我很高兴，据我们所知，这三种新工具都严格保密。我认为，现实地说，我们防止滥用这些技术的最佳护栏是严密的法规，但我怀疑所有政府都会及时采取这些措施。