AIGC文本生成视频
本文介绍如何使用GPU云服务器搭建Stable Diffusion模型,并基于ModelScope框架,实现使用文本生成视频。
背景信息
自多态模型GPT-4发布后,AIGC(AI Generated Content,AI生成内容)时代正扑面而来,从单一的文字文本,演化到更丰富的图片、视频、音频、3D模型等。
本文基于阿里云GPU服务器和文本生成视频模型,采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现文本生成视频功能。
阿里云不对第三方模型“文本生成视频大模型”的合法性、安全性、准确性进行任何保证,阿里云不对由此引发的任何损害承担责任。关于模型的详细信息,请参见文本生成视频大模型。
您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规,并就使用第三方模型的合法性、合规性自行承担相关责任。
操作步骤
创建ECS实例
本文使用的ai-inference-solution市场镜像中,内置了以下三个模型及运行环境。
v1-5-pruned-emaonly.safetensors:Stable Diffusion v1.5模型,一种潜在的text-to-image(文本到图像)的扩散模型,能够在给定任何文本输入的情况下生成逼真的图像。
说明该模型中文提示词效果不好,建议使用英文提示词。
Taiyi-Stable-Diffusion-1B-Chinese-v0.1:太乙-中文模型,基于0.2亿筛选过的中文图文对训练,可以使用中文进行AI绘画。
Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1:太乙-动漫风格模型,首个开源的中文Stable Diffusion动漫模型,该模型是基于Taiyi-Stable-Diffusion-1B-Chinese-v0.1进行继续训练,经过100万筛选过的动漫中文图文对训练得到的。太乙-动漫风格模型不仅能够生成精美的动漫图像,还保留了太乙-中文模型对于中文概念强大的理解能力。
文本生成视频
执行如下命令,切换conda环境到modelscope中。
conda activate modelscope
执行如下命令,切换到
scripts
目录。cd /root/scripts
执行如下脚本,生成视频。
./text2video.py
运行过程中,请根据提示输入英文文本,例如
Clown fish swimming through the coral reef.
。说明首次执行脚本时,会通过公网自动下载所需模型库,100 Mbps带宽下载时间大约为20分钟,请耐心等待。
文件存放:生成的text2video.mp4视频文件存放在
/root/scripts/output
目录中。文件下载:在左上角顶部菜单栏,选择文件> 打开新文件树,找到目标文件后右键,单击下载文件即可。本文生成示例如下:
了解更多AIGC实践和GPU优惠
活动入口:立即开启AIGC之旅
