Skip to content

基于wan2.1,你们有没有可能实现这个 ? #2

Open
@juntaosun

Description

@juntaosun

wan2.1可以做这么多玩法和控制,那么,你们一定能有技术实现让人物唇形与音频同步了。
以下是腾讯的数字人技术,它可以做多人唱歌,多人相声等丰富的场景和效果。
但缺点是占用98G显存,推理速度极慢。
https://hunyuanvideo-avatar.github.io/

如果字节团队基于 wan2.1 ,来做这个类似的(图生视频)数字人,是否更牛X ?或许更惊艳~
(毕竟 wan2.1 模型推理性能和质量都很好,再配合音频驱动)

有一个类似的,但感觉达不到腾讯那种水准,(供参考)。
https://fantasy-amap.github.io/fantasy-talking/

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions