MuseTalk一种实时高质量口型同步模型(在 NVIDIA Tesla V100 上为 30fps+)。

意思是:性能高于此显卡就可以开直播,实现实时直播流。

MuseTalk 可以与输入视频一起应用,例如由MuseV生成的视频,作为完整的虚拟人解决方案。

意思是:先利用MuseV生成视频,再由MuseTalk对视频口型。

MuseTalk的应用场景广泛而多样,从虚拟人视频生成到视频制作与编辑,再到娱乐与社交分享,无所不能。
1、虚拟人视频生成:与MuseV搭配使用,创造出高度逼真的虚拟人演讲或表演视频。
2、视频制作与编辑:提供高效的解决方案,实现内容的快速修改,不牺牲视频质量。
3、娱乐与社交分享:为照片或绘画作品添加口型动画,创造有趣的视频内容,分享至社交媒体。
四、离线懒人包
为了方便大家体验这一神奇的技术,我们提供了离线整合包,下载到本地解压即用。只需简单几步,你就能轻松体验MuseTalk:
image
1、双击“一键启动.exe”。
2、打开命令提示窗口,项目会自动运行。加载成功后,复制网址在浏览器打开:“http://127.0.0.1:7860/”。
image
3、打开页面后,可以看到已经是中文的主界面了,不担心看不懂英文了。
image

五、使用方法

简单四步,轻松制作数字人视频
1. 输入视频文件。
2. 再输入音频文件。
3. 设置参数,如果不会设置,一般默认参数即可。
4. 点击提交,开始制作。项目运行一段时间后,在主界面的右侧就会生成高品质唇形数字人视频。
六、注意事项
1、显卡要求:建议使用英伟达显卡运行,建议10G显存以上。
2、安装路径:请确保安装路径不包含中文,避免引起适配问题。

功能特性

  • MuseTalk是一个实时高质量音频驱动的口型同步模型,在 的潜在空间中进行训练ft-mse-vae,其中

  • 根据输入音频修改未见过的脸部,脸部区域的大小为256 x 256
  • 支持中文、英文、日文等多种语言的音频。
  • 支持 NVIDIA Tesla V100 上 30fps+ 的实时推理(直播流,可以开直播的意思)。
  • 支持修改面部区域中心点建议,这显著影响生成结果。
  • 检查点可用在 HDTF 数据集上进行训练。
  • 对于视频配音,我们应用了自主开发的工具,可以识别说话的人。

 

MuseTalk 在潜在空间中进行训练,其中图像由冻结的 VAE 进行编码。音频由冻结whisper-tiny模型编码。生成网络的架构借鉴了UNet stable-diffusion-v1-4,其中音频嵌入通过交叉注意力融合到图像嵌入。

bbox_shift 调整张嘴大小

🔎我们发现面罩上界对张口度有重要影响。因此,为了控制掩模区域,我们建议使用该bbox_shift参数。正值(朝下半部分移动)会增加嘴巴张开度,而负值(朝上半部分移动)会减少嘴巴张开度。

您可以先使用默认配置运行以获得可调整的值范围,然后在此范围内重新运行脚本。使用默认例子,运行默认配置后,显示可调整值范围为[-9, 9]。然后,为了减少嘴巴张开度,我们将值设置为-7。

总结

MuseTalk是一个实时高质量音频驱动的口型同步模型,专为实现虚拟数字人口型与音频的精准同步而设计。

如果您想进行在线视频聊天,建议您使用MuseV生成视频,并提前进行必要的预处理,例如人脸检测、人脸解析等。在线聊天时,只涉及UNet和VAE解码器,这使得MuseTalk具有实时性。

开源地址:

隐藏内容
本内容需评论后查看

MuseV简介:腾讯版Sora、Ai数字人、基于世界的Ai视频模型(附整合包)

服务声明: 本网站所有发布的软件和学习资料以及牵涉到的源码均为网友推荐收集各大资源网站整理而来,仅供功能验证和学习研究使用,您必须在下载后24小时内删除。不得使用于非法商业用途,不得违反国家法律,否则后果自负!一切关于该资源商业行为与本站无关。如果您喜欢该程序,请支持购买正版源码,得到更好的正版服务。如有侵犯你的版权合法权益,请邮件与我们联系处理删除(邮箱:83855733@qq.com),本站将立即更正。求软登记