作者|Valentina
编辑|方奇
媒体|AI大模型工场

7月30日,首个国产纯自研视比年夜模型Vidu环球上线,可在Web 端www.vidu.studio访问。
在今年4月举行的2024中关村落论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣告,生数科技与清华大学联合推出中国首个原创全自研永劫长、高同等性、高动态性的视比年夜模型Vidu。生数科技称,Vidu全面对标Sora。
这次Vidu面向环球正式上线,开放文生视频、图生视频两大核心功能,供应4s和8s两种时长选择,分辨率最高达1080P。在推理速率上,Vidu天生一段4s的片段仅仅需30s。在付费机制方面,Vidu与其它天生产品类似,供应免费版与3种收费机制。3种收费机制分为标准、高等与尊享。目前在上线前两周,Vidu供应限时5折优惠。
那么究竟Vidu功能是不是和宣扬同等,能否担当“国产视频AI之光”的名号?AI大模型工场也感到好奇,于是迅速进行了一手测评。
一、两大新功能体验抢先测评:动漫风格化功能、角色同等性功能除了文生视频和图生视频的两大根本功能外,Vidu这次同步上线两大全新功能,一是动漫风格,二是角色同等性。1. 动漫风格化功能体验Vidu官方打出“万物皆可二次元”的旗号。目前市情上的AI视频工具大多局限于写实风格或源于现实的想象。Vidu除了能实现常见的写实等多元风格外,还新增动漫风格选项。官方图生视频实测案例如下:
图生动漫风格能基本百分百保持原形像角色。全体视频无明显畸变,角色同等性保持良好。
来看看文生动漫风格效果怎么样:
prompt: 动漫风格。清晨,一个穿着围裙的女孩从林间小屋中走出来,伸了个
从画面效果来看,画风很美,有宫崎骏电影般的质感。背景画面细腻丰富,光芒柔和有质感。从天生动漫角色看,女孩面部表情丰富生动,并且在从后面走过来的过程中,画面背景和人物保持了高度同等性。但帧与帧卡顿感明显,乃至末了一秒还有穿模征象。
2.角色同等性功能
在“图生视频”板块中,Vidu上线了角色同等性功能。在上传图片的过程中,Vidu支持首帧图和角色图两种选择,前者是实现基于首帧画面的连续天生(常见的图生视频功能),后者则是角色同等性天生,用户可上传人像图或者自定义的角色图,然后通过笔墨描述指定该角色在任意场景中做出任意动作。
上一张真人图,先来测评看看“首帧图”效果如何。
prompt:两人深情拥抱
全体画面、背景无明显形变,人物同等性保持的更是完美,从表情、形象外不雅观到服装细节,原图到视频都没有发生改变。视频人物动作流畅,表情细节包括皱纹等也处理的十分到位。同时,运动后衣服褶皱的变革也符合物理运动规律。
再来看看“角色图”效果如何:
prompt:男人头戴墨镜在沙滩边清闲闲步度假
在“角色图”功能中,人物同等性同样保持的很好,角色面部细节到位。新的背景抠的十分自然,全体画面高等、俊秀、有质感。人物动作稍显卡顿,但整体流畅度还是较高。
二、经典视频功能深度评测1.伟大场景+延时拍照prompt:一座当代化城市市中央,有很多摩天算夜楼。俯拍的视角。延时拍照,从早上八点到晚上八点,表现了这座城市从白天的晴朗,到夜晚降临但是霓虹灯闪烁的场景。
对付延时拍照的观点,Vidu 能够准确的把握。对付提示词的哀求也全部给予了回答,包括俯拍摩天算夜楼,从早到晚等。画面稳定流畅,乃至能让人体验到城市车水马龙之感。但可惜对付4s延时拍照视频太短,难免给人仓促之感。
2.电影感镜头:细腻人物刻画
prompt:舞台上里,一个三十岁的男性钢琴家在演出钢琴独奏。舞台上一束灯光照耀这位钢琴家和钢琴。钢琴家穿着年夜制服。钢琴家很投入,陶醉的随着音乐而摇头晃脑。画面效果:真实、细腻、电影感
这个片段完成度很高。首先,人物比较稳定,手指这些细节也未发生变形,对付“摇头晃脑”的微表情处理的也比较到位;其次,画面的同等性保持的很好,不管是人物动作还是北京画面,都保持了流畅稳定。对付提示词能够充分的理解,所有提示词元素基本全展现画面中;对付光影等物理规律也处理的很恰当。
3.多人物场景刻画
prompt:橄榄球赛场上,来自两个军队的多名运动员正在追着一枚扔出去的橄榄球奔跑。
到了多人画面质感就断崖式下跌。Vidu基本理解了多人橄榄球赛的哀求,但是不论是人物还是动作都短缺细节感。并且橄榄球飞来飞去的路线,牛顿看了都要爬起来说一句:天理何在!
4.物体移动
prompt:傍晚,一座宽敞的跨江大桥上,一辆赤色的跑车在上面奔跑。跨江大桥两岸有夜灯,但是车灯更加刺目耀眼。赤色金属反射出周围的景致与灯光。
画面质感很好,傍晚、赤色跑车、夜灯要素完好;头车车身有四周景致与光的反射,路面也有车灯倒影,光学物理满分;画面稳定、流畅、帧与帧连接较为自然;但是哀求中的“一辆”跑车变成了“两辆”,奔跑变成了缓慢行驶,理解能力一样平常。
虽然跑车是缓慢行驶,但是可以看出动作流畅,无明显顿感。并且随着运动车身还有轻微高下颠簸的细节,物理真实感和细节感拉满。
从Vidu官方评测给出的跑车奔跑画面,可以看出在动作幅度较大的场景中,Vidu能够保持高流畅、高动态的画面效果。
5.精彩二创:名画“活过来"prompt:切远景,少女捧着爆米花,拿了一粒放入口中。
视频保留了原画风,且少女与原画险些千篇一律,人物动作过程无明显畸变,同等性Max。画面天生稳定,且一些物理细节也刻画的很细腻,例如少女往前伸头的时候耳坠随之摇摆。唯一的遗憾是没有完备还原prompt中“拿了一粒放进嘴里”的哀求。
6.超现实主义
prompt:飞机驾驶舱内,两只熊猫在开飞机。
这个视频完备还原了两只可爱的熊猫在驾驶舱内操纵飞机行驶。全体画面较为稳定、流畅,窗外天空细节做的特殊好。两只熊猫毛发细节逼真,动作自然,美中不敷的是右边熊猫的下半身貌似有粘连情形。除此之外,客舱仪表盘、按键等并没有刻画的很细腻。但考虑到驾驶舱仪表、按键等细节本身的繁芜程度,相信Vidu也已经尽力了。
总的来说,Vidu还是“有点东西”。
对付AI视频基本哀求方面,包括同等性、画面内容度、流畅度等方面,Vidu表现的险些满分。无论是特色“角色同等性”功能,还是普通文生视频及图生视频功能,Vidu都能确保人物角色保持较高的同等性。同时,天生画面基本稳定流畅且细节到位。
另一方面,Vidu审美一流,天生的视频每每画面细腻,画风幽美,质感强。比较过去的视频模型,Vidu 的动作幅度也得到了大幅度提高,并且基本上能保持动作高度流畅。同时,Vidu天生视频的速率快是真快,所有4s视频基本都能在30s内完成。一句话,Vidu没有虚假宣扬!
提升空间当然还是大大有之,比如画面偶尔还有穿模、粘连征象;对付文本理解,Vidu能够基本理解并知足大部分的哀求,但是仍偶尔会涌现对提示词回应不充分的情形;在多人场景下,Vidu丢失了人物与动作处理细腻的特点,画面细节严重缺失落,还需加强多人场景制作能力。
以上是AI大模型工场本次测评体验。虽然有不敷之处,总体不雅观感还是不错的。好奇的宝宝们,现在就可以通过www.vidu.studio秒注册体验!