7月24日,爱诗科技正式发布***天生产品PixVerse V2,采取Diffusion+Transformer(DiT)根本架构,在时空建模方面引入了自研时空把稳力机制,可提升繁芜场景表现能力。
当日实测过程中创造,单片段可以实现8秒、多片段可以实现40秒***天生;单个8秒***天生等待韶光均超5分钟;不符合预期效果可选择重新天生……详细天生效果,请看提示词和***。
8秒***,最历久待韶光超10分钟

进入PixVerse的官方界面,须要登录已有账号或者用邮箱注册一个账号。登录成功后会直接进入主页,操作界面相对简洁明了,文本框、图片标识都很直不雅观,输入提示词后点右下角即可天生。
首先体验了一下文生***,输入提示词:一个60岁老奶奶在路边捡垃圾
***天生后,再次输入新的提示词:几只巨大的长毛猛犸象穿过一片白雪覆盖的草地
第一个***天生的韶光等待了13分25秒,第二个***天生韶光等待了7分53秒,接着再输入了几次后,等待韶光均超过了5分钟。
在提示词输入口的下方,可以看到有Scene1,后面的+号则代表在同等性的条件下,可天生多个片段。不论选择5秒还是8秒的单个***时长,都可以增加至5个场景,则至多连续天生一个40秒***。
在体验过程中,尽可能地利用了大略的提示词,五段分别为:
1、酷热的夏天,一个穿着白色老汉衫的大爷,
2、满头大汗地推着三轮车,在广场上卖西瓜,
3、有2个女孩看了一眼西瓜走了,
4、大爷推着车离开了广场,衣服后背都汗湿了
5、又推着三轮车里的西瓜,去了路边
***天生后,可以通过对每段***进行微调,分别是主体、场景、动作。但为了更加客不雅观地看到天生***,天生的所有***都未进行干预。
图生***的操作办法也相对大略,点击右上角的图片标识,选择图片再输入提示词天生即可。值得把稳的是,上传的照片尺寸需为16:9。
在体验过程中,选择了实拍单人、双人图片后输入的提示词。
提示词1:这名男子给对面的人飞吻
提示词2:这两名女子亲在了一起
注:图片均来自所天生***截图
明星创业公司之一
据先容,PixVerse V2采取了DiT模型架构。据晚点宣布,爱是科技称自己2023年6月以来就考试测验DiT架构,这是一种2022年底被提出的新型扩散模型,也被认为是Sora背后的架构。
爱是科技称,PixVerse V2以DiT架构为根本,实现了多项技能创新。详细分为三个方面,在时空建模方面,PixVerse V2引入了自研的时空把稳力机制,不仅超越了传统的时空分离和fullseq架构,而且显著提升了对空间和韶光的感知能力,使得在处理繁芜场景时表现更为出色。
在文本理解方面,PixVerse V2利用了有更强大理解能力的多模态模型来提取prompt的表征,有效实现了文本信息与***信息的精准对齐,进一步增强了模型的理解和表达能力。
此外,PixVerse V2 在传统 flow 模型的根本上进行了优化,通过加权丢失,促进了模型更快更优地收敛,从而提升整体演习效率。
爱诗科技成立于2023年4月,创始人兼CEO为王长虎。公开资料显示,王长虎博士,曾深耕打算机视觉与人工智能领域20年,带领字节跳动视觉技能团队在巨量规模的用户数据下,办理了多个视觉领域的天下级难题,并从0到1支撑了抖音与TikTok等国民级***产品的培植和发展。
其余据先容,爱诗科技团队成员来自清华、北大、中科院等,曾任职于字节、快手、腾讯、微软研究院等核心技能团队,拥有天下一流的打算机视觉算法攻坚能力和解决系统工程问题的履历。
2024年1月,爱诗科技上线了***天生产品PixVerse,用户在 PixVerse 网页版界面里输入笔墨或图片就能天生***。彼时,PixVerse天生的***时长为4秒。
进入2024年,AI***风起云涌,爱诗科技作为视比年夜模型公司,也得到了成本青睐,成为明星创业公司之一,在今年已经完成两轮融资。
3月11日,爱诗科技宣告在近日完成亿级公民币A1轮融资,本轮融资由海内一线投资机构达晨财智领投,光源成本担当独家财务顾问。
不到2个月的韶光,4月23日,《晚点 LatePost》独家获悉,蚂蚁集团已于近期独家投资了中国***天生大模型公司爱诗科技的 A2 轮,该轮金额超过1亿元公民币。
综合自爱诗科技、晚点、界面***等