Open
Description
wan2.1可以做这么多玩法和控制,那么,你们一定能有技术实现让人物唇形与音频同步了。
以下是腾讯的数字人技术,它可以做多人唱歌,多人相声等丰富的场景和效果。
但缺点是占用98G显存,推理速度极慢。
https://hunyuanvideo-avatar.github.io/
如果字节团队基于 wan2.1 ,来做这个类似的(图生视频)数字人,是否更牛X ?或许更惊艳~
(毕竟 wan2.1 模型推理性能和质量都很好,再配合音频驱动)
有一个类似的,但感觉达不到腾讯那种水准,(供参考)。
https://fantasy-amap.github.io/fantasy-talking/
Metadata
Metadata
Assignees
Labels
No labels