阿里达摩院上线文本天生视频大模型--j9国际站

阿里达摩院上线文本天生视频大模型

文章起源：j9国际站征询整顿作者：j9国际站征询整顿阅读量：830 颁布功夫：2023-04-04

这波AIGC（利用人为智能技术来天生内容）的热潮，已经开卷视频了。近日，阿里达摩院低调地在魔搭社区（ModelScope）放出了“文本天生视频大模型”。

据相识。目前文本天生视频大模型，由文本特点提取、文本特点到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。支持英文输入。扩散模型选取Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频天生的职能。

记者发现，这个模型目前已经盛开给用户试玩，只有输入一些单一的描述词，就能够看到天生的视频成效。好比输入“A panda eating bamboo on a rock”，就能够看到一只大熊猫坐在岩石上吃竹子的画面。

不外，目前这个模型还不支持中文输入，并且天生的视频长度多在2-4秒，期待功夫从20多秒到1分多钟不等，画面的真实度、清澈度以及长度等方面还有待提升。

不止是阿里达摩院，总部位于纽约的人为智能草创公司Runway也颁布了一种从文本到视频转化的AI模型Gen-2。上个月，这家曾参加创建Stable Diffusion的公司推出过模型Gen-1，能通过文本提醒或参考图像指定的风格，将现有视频转化为新视频。好比将“街路上的人”造成“粘土木偶”，只必要一行提醒词。

早在去年，谷歌和Meta都展示了各自由文本转视频上的尝试，利用AI天生泰迪熊洗碗和在湖上泛舟等视频。但这两家公司都没有颁发将有关技术推动到钻研阶段以表的打算。

不外，从目前此类模型天生视频的期待功夫，画面的真实度、清澈度以及长度等各方面来看，距离产出令人中意的视频还有很大距离。

我国首款“量子芯片冰箱”问世华为根基实现14nm以上EDA工具国产化

Online consultation

在线征询

征询热线

010-67280121

有关资讯

中国智能家居建材行业：近况、竞争与将来远景

中国节能门窗行业：市场深度调研及发展远景预测

绿色墙体资料的中国蹊径：政策驱动下的千亿市场

中国涂料行业：从“涂装”到“智造”的市场深度透视