«

美团开源虚拟人模型,5分钟视频不崩,原因竟是……

qimuai 发布于 阅读:42 AI新闻


美团开源虚拟人模型,5分钟视频不崩,原因竟是……

最新AI落地实操,点击了解:https://qimuai.cn/

虚拟人技术,这次终于“活”过来了

你发现没?
现在的虚拟人,越来越容易“露馅”。

说话时,嘴型对不上。不说话时,人直接“定”住,像个精致木偶。镜头稍长一点,脸就开始悄悄变形,上半段和下半段仿佛不是同一个人。

直到昨天,美团LongCat团队扔出了一个开源炸弹——LongCat-Video-Avatar

它生成的虚拟人,会让你背后一凉:怎么这么“活”?

视频里,人物会自然眨眼。语音停顿间隙,她的眼神会飘向别处,头微微一侧,仿佛在思考下一句话。连续5分钟,她的脸型、发型、五官纹丝不动,但表情和肢体语言却丰富而协调。

这不是一段精心剪辑的CG,而是一个模型,直接“听”着你的音频,“看”着你的脚本或照片,一气呵成渲染出来的长视频。

一、不止是“对口型”,它解耦了“灵魂”

过去很多音频驱动模型,本质是“高级对口型机器”。声音一响,嘴巴就动;声音一停,整个人就僵住。

LongCat-Video-Avatar做对的第一件事,就是把声音和动作“拆开”看

技术上叫“解耦语音与动作的无条件引导”。简单说,模型能区分:哪些动作是语音必须触发的(比如口型、部分表情),哪些动作是人物自然该有的(比如眨眼、微表情、姿势调整)。

所以,你得到一个有“呼吸感”和“小动作”的虚拟人。她不再是被声音操控的木偶,而是一个有自主生命力的数字演员。

二、三大模式,覆盖你所有“造人”需求

这个模型强在“一个框架,干所有事”。官方提供了三种开箱即用的生成模式:

  1. AT2V (音频+文本→视频):给一段录音和讲稿,直接生成虚拟主播播报视频。
  2. ATI2V (音频+文本+图像→视频):除了音频和文本,再给一张参考图。你就能定制一个专属形象的虚拟人,让她用你的脸(或任何你设计的脸)来说话、表演。
  3. 视频续写:给一段已有的虚拟人视频开头,模型能无缝地、高质量地往后“续拍”下去,生成更长的内容。

这意味着,你既可以凭空创造一个数字人,也可以让已有的数字形象“活”起来,甚至让她一部“电影”拍到底。

三、凭什么能拍5分钟“不崩”?

长视频是虚拟人技术的“鬼门关”。常见的毛病是画质越来越糊、人脸悄悄变形、动作开始鬼畜。

美团团队用了两个关键技术闯关:

第一,跨块潜在缝合。 你可以理解为,它不是在粗糙的“图像层面”拼接视频,而是在更本质、更稳定的“特征层面”进行无缝衔接。这大大减少了长视频生成中的误差累积和画质损失。

第二,参考跳过注意力。 为了防止虚拟人全程“复制粘贴”同一个僵硬表情和姿势,这个机制会聪明地在“保持形象一致”和“丰富动作神态”之间做动态平衡。所以,你看到的人物动作更自然、更有变化。

正因如此,官方才敢说,它能稳定生成长约5分钟的高质量视频,并在HDTF等多个权威测试集上,指标达到了业界顶尖(SOTA)水平。

四、这玩意儿,能用在哪儿?

想象空间一下子打开了:

五、最重要的是:它开源了

是的,你没看错。

美团LongCat团队将它完全开源。这意味着,任何开发者、任何公司,都可以下载这个模型,在自己的数据和算力上跑起来,探索属于自己的虚拟人应用。

技术民主化的浪潮,正变得无比具体。以前大厂密不外宣的“黑科技”,正一件件变成所有人桌上的“工具箱”。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读