秀蔓集

关灯 护眼    字体:

第612章 韩俄德多国友人表示不理解调休

最新网址:m.bquge.cn

时值仲春,月满两纪,清华之英彦,共铸华夏版Sora视频大模型,震烁于世。

甲辰四月之廿七日,于中关村论坛未来人工智能先锋之坛,华夏首部长时长、高一致性、高动态性之视频大模型Vidu,昭然问世。此模型,乃清华大学与生数科技联袂所创,一键之间,可生成长达十六秒、分辨率达1080P之高清视频内容。网友,得此消息,乃专访清华人工智能研究院之副院长、生数科技首席科学家朱军。朱公言曰:“Vidu,吾等为之,已为之,今更共为之!谢诸君昼夜不息之勤勉,于实验室中开花结果。”言罢,乃知此模型自OpenAI之Sora发布后,全球率先取得重大突破之视频大模型也。

Sora既出,业内诸团队竞相追逐,欲仿效之。然Vidu之团队,仅历两月,便脱颖而出。网友细察之,生数科技于多模态大模型之领域,已有深厚之积累,亦当今多模态大模型赛道估值最高之初创公司之一。该公司迄今已完成三轮融资,融资额达数亿元人民币,投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等一众机构。Vidu与Sora相较,生成视频之连贯性与高清度,均堪媲美。诸如“画室内之舟驶向镜头”之简单指令,即可生成逼真、镜头连贯之视频。生数科技介绍,Vidu模型采用团队原创之Diffusion与Transformer融合架构U-ViT,可一键生成长达十六秒、分辨率高达1080P之高清视频内容。且U-ViT架构早于Sora所采用之DiT架构,乃全球首个Diffusion与Transformer融合之架构。

网友又观之,今年三月,生数科技完成新一轮融资后,公司即公开表示,虽Sora表明美国在多模态大模型领域之领先性,“然我华夏亦非从零起”。朱军在2023年1月即提出基于Transformer之多模态扩散大模型UniDiffuser,采用U-ViT,与Sora之架构路线一致,惟UniDiffuser主要用于图像生成任务,亦可拓展至视频任务。正基于机器学习及多模态大模型之长期积累,该团队方能在短短两月间,突破长视频表示与处理之关键技术,成功研发推出Vidu视频大模型。朱军在Vidu模型发布现场表示,Vidu有如下特点与优势:

一者模拟真实物理世界,能生成复杂、细节丰富之场景,光影效果与人物表情均符合真实物理规律。

二者富有想象力,能虚构场景及超现实主义之画面。

三者具备多镜头语言,不再局限于固定镜头,能在保持主体一致性之情况下,实现远景、近景、中景、特写等不同镜头之动态切换,更可实现长镜头、追焦等效果。

四者视频时长出色,能支持十六秒长度之视频生成,保持镜头与主体之连贯一致。

五者理解中国元素,能更好地生成如熊猫、龙等富有中国文化特色之形象。

Vidu之背后,乃一家来自清华之明星创业公司生数科技。公开资料显示,生数科技成立于2023年3月,核心成员来自清华大学人工智能研究院,致力于自主研发世界领先之可控多模态通用大模型。公司之CEO唐家渝,本硕就读于清华大学计算机系,首席科学家则由清华人工智能研究院副院长朱军担任,CTO鲍凡则是清华大学计算机系博士生、朱军教授之课题组成员,长期关注扩散模型领域之研究。网友又观之,今年三月,唐家渝曾在沟通会上向媒体表示,今年内公司之大模型定能达到Sora目前版本之效果,“然难言是三月还是半年”。然Vidu却提前交出令人惊艳之答卷,此得益于该团队乃国内最早布局多模态大模型之团队之一,多年来在此领域形成深厚之积累。据唐家渝介绍,生数科技目前采取模型层和应用层两条路走路之模式。一方面,构建覆盖文本、图像、视频、3D模型等多模态能力之底层通用大模型,面向B端提供模型服务能力;另一方面,面向图像生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应用方向主要是游戏制作、影视后期等内容创作场景。

细察之,生数科技自成立以来,即备受资本关注。天眼查数据显示,生数科技目前共完成三轮融资。此团队之才华与毅力,实乃华夏之骄傲,亦为世界人工智能领域之璀璨星辰。

最新网址:m.bquge.cn
来源更新: