首页 > 行业资讯 >> 信息技术 >> 阿里达摩院上线文本天生视频大模型
文章起源:j9国际站征询整顿 作者:j9国际站征询整顿 阅读量:830 颁布功夫:2023-04-04
这波AIGC(利用人为智能技术来天生内容)的热潮,已经开卷视频了。近日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本天生视频大模型”。
据相识。目前文本天生视频大模型,由文本特点提取、文本特点到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型选取Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频天生的职能。
记者发现,这个模型目前已经盛开给用户试玩,只有输入一些单一的描述词,就能够看到天生的视频成效。好比输入“A panda eating bamboo on a rock”,就能够看到一只大熊猫坐在岩石上吃竹子的画面。
不外,目前这个模型还不支持中文输入,并且天生的视频长度多在2-4秒,期待功夫从20多秒到1分多钟不等,画面的真实度、清澈度以及长度等方面还有待提升。
不止是阿里达摩院,总部位于纽约的人为智能草创公司Runway也颁布了一种从文本到视频转化的AI模型Gen-2。上个月,这家曾参加创建Stable Diffusion的公司推出过模型Gen-1,能通过文本提醒或参考图像指定的风格,将现有视频转化为新视频。好比将“街路上的人”造成“粘土木偶”,只必要一行提醒词。
早在去年,谷歌和Meta都展示了各自由文本转视频上的尝试,利用AI天生泰迪熊洗碗和在湖上泛舟等视频。但这两家公司都没有颁发将有关技术推动到钻研阶段以表的打算。
不外,从目前此类模型天生视频的期待功夫,画面的真实度、清澈度以及长度等各方面来看,距离产出令人中意的视频还有很大距离。