这个项目最早是我在研究文本生成图像模型时想到的。很多人会用 AI 画图,但能生成视频的工具很少,而且大多生成质量一般。我就想试试能不能自己做一个,从输入文字到直接输出视频。
开发过程中最麻烦的是视频的一致性问题。AI 画单帧没问题,但连起来就容易抖、闪、变形。我花了几个月做模型的时序优化,用了分层结构:先分析文本,再生成关键帧,最后做运动插值。基本是边试边调,哪块有 bug 就去改,没什么捷径。
上线后加了每天一次的免费试用,是为了测试稳定性和收集提示词数据。前期主要看用户生成的内容、模型出错的地方,然后再优化。没投广告,全靠自然流量,意外地还行。
现在网站功能算是能用了,但我知道还不完美。接下来会补声音、口型同步,还有一些剪辑模板。长期打算做个社区,让大家能互相看作品、交流用法。
整体上,这个AI视频项目对我来说就是个长期实验。目标很简单:让普通人能用一句话做出视频。