HeyGem 数字人要想有好的效果也需要一个高质量的初始视频,初始视频可以自己录制,也可以通过图片转视频的形式生成。图片转视频的优势是可以任意定制自己想要的形象,而且相对可控。下面就分享下我制作HeyGem数字人初始视频的方法。
第一步,生成数字人图片
现在生成图片有茫茫多的平台,可以用本地部署的ComfyUI,也可以用在线的LibLib、RunningHub之类的。今天我想推荐的是豆包,这两天测试下来感觉豆包图像生成3.0简直是质的飞跃,可以直接中文提示词,而且对提示词的遵从很强,并且直出2k图,重要的是完全免费无限制。打开豆包图片生成模型,输入提示词如:“生成一张性感新闻女主播半身像,正面面向镜头”,比例可以选择9:16。
HeyGem最好是选择正面面对镜头的图片,如果有更详细的要求可以在提示词里面直接写上就可以。然后就是抽卡选一张自己喜欢的图片直接下载,豆包目前唯一的缺点下载原图是带水印的,如果你最终生成的数字人是3:4比例的可以直接无视,如果9:16追求完美也可以找一些图片去水印的工具去水印,文章最后我也提供了一个去水印的工作流。
第二步,生成高质量视频
图生视频,如果使用HeyGem官方客户端,需要8秒带声音的视频,可以使用即梦对口型大师模式来生成。如果使用HeyGem一键包,不需要带声音的视频,推荐直接使用可灵1.6的高品质模式来生成,可灵注册免费送3次高品质视频生成,可灵1.6提示词的遵从性和稳定性大概率是一次就能抽卡成功,最重要的是生成的视频质量目前来说绝对是最强的。使用方法也非常简单,注册登录,进入图生视频,选择1.6模型,首尾帧中在首帧图上传豆包中生成的主播图片,提示词可以使用:“固定镜头,一个美女正在进行新闻播报”,如果是坐姿图有手的显示 最好加上“手不动”,因为手运动幅度大的时候有崩的几率,模式里面选择高品质模式,点击生成即可,大概率是一次性就能成功。
视频去水印的工具可以自己找下,试了下RunningHub之类的免费工作流最终会生成他们的水印,为了去一个小的水印加了更大水印。。。感觉不如直接充值一个月的可灵。
当然也可以尝试其他的网站或工具来生成视频,例如wan2.1、混元等,但这大概率需要抽卡,而且分辨率太高大概率要爆显存。
延长视频
如果使用官方客户端,需要视频时长大于8秒,一种方法是使用可灵的视频延长,最近1.6模型也已经支持了。另种方法是使用剪映的倒放来实现无缝延长。
实现方法也很简单,在剪映中导入生成好的视频,再复制一段视频放到后面,在后面的视频上点右键,然后选择基础编辑–倒放,这基本可以做到无缝延长。其实这种方法对有轻微镜头移动的片段也适用,这样可以形成一个无缝的循环,这个方法对摇晃的树枝、海浪等等往返运动的素材同样适用,通过复制片段可以做出长视频效果。
官方客户端需要带声音的话,就可以直接用剪映的文本朗读生成一段声音,声音跟口型不匹配也是没有关系的。当然还是强烈建议使用刘悦大佬的一键包,效果是没什么差别的,而且限制更少。
HeyGem 一键包:
https://pan.quark.cn/s/d95835b4cb98
豆包图片生成模型:
https://www.doubao.com/chat/create-image
可灵1.6:
https://app.klingai.com/cn/image-to-video/
即梦对口型:
https://jimeng.jianying.com/ai-tool/video/lip-sync/generate
图片去水印工作流:
https://www.runninghub.cn/post/1908534738116878337
https://www.liblib.art/modelinfo/cf0c9ab8fd6c4e9a9688df91b45fbfa2