秀蔓集第612章韩俄德多国友人表示不理解调休

作者：富先生文集分类：短篇更新时间：2024-06-07 11:10:48

最新网址：www.diquge.com

时值仲春，月满两纪，清华之英彦，共铸华夏版Sora视频大模型，震烁于世。

甲辰四月之廿七日，于中关村论坛未来人工智能先锋之坛，华夏首部长时长、高一致性、高动态性之视频大模型Vidu，昭然问世。此模型，乃清华大学与生数科技联袂所创，一键之间，可生成长达十六秒、分辨率达1080P之高清视频内容。网友，得此消息，乃专访清华人工智能研究院之副院长、生数科技首席科学家朱军。朱公言曰：“Vidu，吾等为之，已为之，今更共为之！谢诸君昼夜不息之勤勉，于实验室中开花结果。”言罢，乃知此模型自OpenAI之Sora发布后，全球率先取得重大突破之视频大模型也。

Sora既出，业内诸团队竞相追逐，欲仿效之。然Vidu之团队，仅历两月，便脱颖而出。网友细察之，生数科技于多模态大模型之领域，已有深厚之积累，亦当今多模态大模型赛道估值最高之初创公司之一。该公司迄今已完成三轮融资，融资额达数亿元人民币，投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等一众机构。Vidu与Sora相较，生成视频之连贯性与高清度，均堪媲美。诸如“画室内之舟驶向镜头”之简单指令，即可生成逼真、镜头连贯之视频。生数科技介绍，Vidu模型采用团队原创之Diffusion与Transformer融合架构U-ViT，可一键生成长达十六秒、分辨率高达1080P之高清视频内容。且U-ViT架构早于Sora所采用之DiT架构，乃全球首个Diffusion与Transformer融合之架构。

网友又观之，今年三月，生数科技完成新一轮融资后，公司即公开表示，虽Sora表明美国在多模态大模型领域之领先性，“然我华夏亦非从零起”。朱军在2023年1月即提出基于Transformer之多模态扩散大模型UniDiffuser，采用U-ViT，与Sora之架构路线一致，惟UniDiffuser主要用于图像生成任务，亦可拓展至视频任务。正基于机器学习及多模态大模型之长期积累，该团队方能在短短两月间，突破长视频表示与处理之关键技术，成功研发推出Vidu视频大模型。朱军在Vidu模型发布现场表示，Vidu有如下特点与优势：

一者模拟真实物理世界，能生成复杂、细节丰富之场景，光影效果与人物表情均符合真实物理规律。

二者富有想象力，能虚构场景及超现实主义之画面。

三者具备多镜头语言，不再局限于固定镜头，能在保持主体一致性之情况下，实现远景、近景、中景、特写等不同镜头之动态切换，更可实现长镜头、追焦等效果。

四者视频时长出色，能支持十六秒长度之视频生成，保持镜头与主体之连贯一致。

五者理解中国元素，能更好地生成如熊猫、龙等富有中国文化特色之形象。

Vidu之背后，乃一家来自清华之明星创业公司生数科技。公开资料显示，生数科技成立于2023年3月，核心成员来自清华大学人工智能研究院，致力于自主研发世界领先之可控多模态通用大模型。公司之CEO唐家渝，本硕就读于清华大学计算机系，首席科学家则由清华人工智能研究院副院长朱军担任，CTO鲍凡则是清华大学计算机系博士生、朱军教授之课题组成员，长期关注扩散模型领域之研究。网友又观之，今年三月，唐家渝曾在沟通会上向媒体表示，今年内公司之大模型定能达到Sora目前版本之效果，“然难言是三月还是半年”。然Vidu却提前交出令人惊艳之答卷，此得益于该团队乃国内最早布局多模态大模型之团队之一，多年来在此领域形成深厚之积累。据唐家渝介绍，生数科技目前采取模型层和应用层两条路走路之模式。一方面，构建覆盖文本、图像、视频、3D模型等多模态能力之底层通用大模型，面向B端提供模型服务能力；另一方面，面向图像生成、视频生成等场景打造垂类应用，按照订阅等形式收费，应用方向主要是游戏制作、影视后期等内容创作场景。

细察之，生数科技自成立以来，即备受资本关注。天眼查数据显示，生数科技目前共完成三轮融资。此团队之才华与毅力，实乃华夏之骄傲，亦为世界人工智能领域之璀璨星辰。

秀蔓集 第612章 韩俄德多国友人表示不理解调休

秀蔓集第612章韩俄德多国友人表示不理解调休