智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

来源:网易科技 • 2024-07-27 下午3:21 • 科创新知 • 阅读 2901

智东西7月26日报道，今天一早，大模型独角兽智谱AI正式发布视频生成工具清影，可支持文生、图生6秒时长的视频，即日起在PC端、手机App端以及小程序端面向所有C端用户免费开放。

先来看看效果，以下是几个官方放出的文生和图生视频案例，覆盖人像、动物、3D卡通等场景：

从Demo来看，清影的生成效果虽然相比Sora等还有一定进步空间，但就整体而言流畅度、运动幅度等都很不错，无论是人物表情、动作，还是光影变化、镜头移动，都没有明显的卡顿和突兀感，对运动幅度的把控也恰到好处，不会看起来像PPT也不会过于夸张。

此外，虽然生成是完全免费的，但生成视频需要排队，智谱AI提供了两种加速排队的订阅方式，包括5元加速1天、199元加速1年。

清影API今天也同步上线，企业和开发者都可以通过调用API的方式，体验并使用清影的文生、图生视频能力，据称这也是国内上线的首个视频生成API。

据智谱AI CEO张鹏解读，清影基于自研的底座视频生成模型CogVideoX打造，能将文本、时间、空间三个维度融合起来。该模型参考Sora算法设计，采用了DiT架构，相比前代CogVideo模型推理速度提升了6倍。

智谱AI成立于2019年6月，起源于清华大学计算机系知识工程实验室，专注于开发新一代认知智能大模型。一直以来，智谱AI以对标OpenAI全模型产品线为线索，陆续研发了包括文本、代码、图像、Agent等方面的自研模型和产品矩阵。此次发布基于CogVideoX的清影，使其大模型矩阵又扩充类一个模态。

值得一提的是，这也是国内做语言大模型起家的大模型独角兽，首次推出视频生成产品——之前这个赛道更多的是字节、快手等短视频大厂，以及爱诗科技、生数科技等专注于视频生成模型的创企。

清影具体有哪些特点？其底层模型在哪些方面做了创新？具体效果如何？智东西第一时间上手实测了一番，有以下几点发现：

1、简短的提示词效果更好，复杂指令下会丢失细节。

2、人手仍是重灾区，容易出现画面闪烁的现象。

3、生成很快，但加上排队等待时间仍达到1-2分钟。

4、相比图生视频，文生视频的稳定性更高。

当然，有限次的体验无法做到全面，也欢迎感兴趣的读者朋友，在评论区分享体验感受和新发现~

一、半分钟生成6秒视频，复杂指令、内容连贯

清影主要有4个特点：生成速度快、复杂指令遵从能力强、内容连贯性高以及画面调度幅度大。

首先在生成速度上，清影AI据称可以在30秒内生成一段6秒、帧率16fps、分辨率1440*960的视频。

▲实时演示视频生成（动图有加速）

其次，在复杂指令遵从能力上，智谱AI自研了视频理解模型，用于为视频数据生成高度吻合的文本描述，进而构建了海量高质量视频文本对，提升了指令遵循度。

▲复杂指令演示

清影的第三个特点是内容连贯性，能够比较好地还原物理世界当中的一些运动的过程。

例如基于这张大家熟悉的杜甫画作，清影让杜甫不仅动了起来，而且非常自然顺滑地端起了一杯咖啡。

▲内容连贯性

最后在画面调度方面，清影采用文本、时间、空间融合的Diffusion Transformer架构，可生成遵循特定运动规则的动态视频。

智谱AI豪迈地放出了几十个Demo，其中不乏有一些效果惊艳，比如这个：木头上长出两朵奇特的透明塑料花。

“透明塑料花”不是真实存在的，清影的想象力和审美在这个案例中得以展现。

再比如这个：比得兔开小汽车，游走在马路上，脸上的表情充满开心喜悦，全景画面。

清影绘制的兔子表情很丰富，没有出现五官扭曲的情况，前后景别还加了景深处理。

人像案例清影也拿捏住了，比如这个提示词：油画风格，美丽的少女侧颜，光透过树形成斑驳的影子，柔光落在她脸上。

整个画面光影对比鲜明，不过漏失了“油画”、“斑驳的影子”等细节。

二、实测上手有惊艳也有翻车，付费加速有些鸡肋

官方演示虽好，但清影到底好不好用，还是得自己试一下才能知道。打开清影网页端，可以看到有文生、图生视频两种功能。

▲清影网页端

在文生视频中，我可以选择视频风格，包括卡通3D、黑白老照片、油画等；也可以选择情感氛围，包括温馨和谐、生动活泼、紧张刺激、凄凉寂寞等；运镜方式包括水平、垂直、推近、拉远四种。

在图生视频中，我可以为图片添加文字描述，如果不知道写什么也可以空着，或是让系统随机生成一个提示词。

▲两种模式

首先我尝试了一组动物场景的提示词，第一个为：一只蓝猫在猫爬架上，正在吃主人递过来的芝士汉堡，情感氛围选择了温馨和谐。

可以看到，清影准确理解了提示词，整体效果还是很不错的。对于提示词中细节，包括猫的品种、汉堡的种类以及“递过来”的动作等，都表达得比较精准，人手也没有翻车。

第二个提示词为：一只橘猫把鼠标推下桌子，情感氛围为生动活泼。

这次清影表现得一般，鼠标上莫名其妙拴了一只小老鼠就算了，“推下桌子”的动作也是完全没有体现。

前两个提示词都属于写实场景，第三个提示词则有些“魔幻现实”：一只白猫在车里驾驶，穿过繁忙的市区街道，背景是高楼和行人，情感氛围为紧张刺激。

清影对于这个提示词的理解和呈现都还比较准确，背景中动态场景的运动幅度、一致性也比较高，但是稳定性还有所欠缺，画面会出现抖动的情况。

第二组提示词我尝试了人物场景。首先来试试经典的吃面：一个男人坐在桌边吃面条，情感氛围为凄凉寂寞。

在这个经典难题上，清影的表现还算可以，乍一看没什么错误。但细看之下，男人吃面的餐具用的是勺子，面条的形态也有些僵硬。

第二个提示词是：一个女孩坐在米色沙发上，专心地用钩针勾着一顶浅蓝色帽子，情感氛围为温馨和谐。

这条提示词中我加入了色彩的细节，清影都准确地表现了出来。女孩的钩织动作也比较真实，就是人手非常“鬼畜”。

第三个提示词为：漂亮的水色瞳孔特写，写实风格，超清，情感氛围为凄凉寂寞。

清影生成的视频基本上满足了我的预期，不过在特写镜头下，人物的皮肤和毛发都显得有些“油腻”。

最后我尝试了让清影自己生成提示词，它直接整了这么长一段：雨天的咖啡馆，以窗户为媒介拍摄一个英式咖啡馆内部，要清晰的拍摄咖啡馆内部，捕捉咖啡馆内的温馨氛围，然后变焦，对焦在雨滴拍打的窗户上。细节上，注意捕捉顾客们的交谈和笑容，以及雨水在窗户上形成的光影效果，营造出舒适而宁静的氛围。

结果很遗憾，清影自己给自己挖了个坑，生成的不能说是视频，称之为动图都有些为难。画面仅仅是平移放大了一圈，也没能体现提示词中的大部分内容。

体验完文生视频后，我又尝试了图生视频。

首先在上传图片时，清影会提醒我对图片进行裁切，且只能裁成进行固定比例的横图，这就造成了一定的局限性。上传图片之后，我输入提示词：花瓣在风中摇动。

生成效果还是比较准确的，不过这个提示词本身的难度也不算大。

接着我上传了一张静物图，这次没有输入提示词，看看清影会如何自由发挥。

这张图上有很多独立的物体，清影并没有让它们整体运动而是为每个“小团子”添加了不同动态，整体画面比较生动活泼。

第三张图我上传了一张戴着墨镜的人像，提示词为：男孩把墨镜摘下来。

这个提示词的难度很大，而且涉及到“无中生有”的部分。清影成功表现了“摘墨镜”这一动作，不过摘了是摘了，但没完全摘，墨镜还在人脸上挂着，视频后半段还出现了人体不自然的扭曲。

如果不要求它凭空生成人脸又会如何？我有上传了一张举着摄像机的人像照片，提示词改为：男孩转身面向镜头。

结果这次清影反而整了个人脸出来，就是没有眼白有些吓人……不过忽略脸的话，这次生成的效果转身幅度更大，人物的头发也随风飘动，就是他手中的器材变了个模样，人手也有些不自然。

一番体验下来，清影生成视频的效果有的惊艳到我，比如第一个小猫吃汉堡的例子，文字理解十分准确；也有的翻车严重，比如咖啡厅、橘猫的例子中，失误都比较大。

整体来看，清影在生成速度上确实比较快，虽然较宣传的30秒还有些偏差，但差不多1分钟左右就能生成视频；在运动幅度、语义理解等方面，会比较看运气，不过这也是所有视频生成工具的通病。与市面上其他公开可用的工具相比，清影在生成时长、清晰度方面还有一定的进步空间，不支持画面比例的选择也是一大遗憾。

值得一提的是，清影目前的视频生成是完全免费的，不需要会员订阅也没有数量限制。不过在排队生成的过程中，清影提醒我可以加速。点击加速的按钮，可以看到它提供了两种订阅方式：5块钱加速1天，或是199元加速1年。

▲加速排队

该说不说，这个价格还是很实惠的，但为啥我加完速排队时间一点也没减少呢……唯一的变化就是，从“排队中”变成了“加速排队中”。可能费用太便宜了，大家都加速就相当于没加速吧（doge）。

三、自研端到端视频模型，首个API同步上线

清影基于智谱AI自研的底层模型CogVideoX打造，具有内容连贯、可控性高等特点。

在内容连贯性方面，智谱AI自研了一个高效的三维变分自编码器结构，称之为3D VAE。它能够将原视频空间压缩至2%的大小，大大减少视频扩散生成模型的训练成本和难度，再配合3D RoPE（旋转位置编码）模块，有利于在时间维度上捕捉帧间关系，建立食品中的长程依赖。

在可控性方面，智谱AI自研了一个端到端的视频理解模型，用于为海量的视频数据生成详细的、贴合内容的描述文本，从而增强模型的文本理解和指令遵循的能力，使生成视频更符合用户的输入，理解超长的复杂指令。

在模型结构上，CogVideoX采用了将文本、时间、空间三个维度全部融合起来的Transformer架构，摒弃了传统的交叉注意力（Cross-Attention）模块，将文本和视频两个不同模态的空间进行对齐，能够更好地进行模态交互。

▲CogVideoX特点

张鹏称，在CogVideoX的研发过程中，智谱AI有一次验证了Scaling Law在视频生成方面的有效性和可靠性，未来团队会在继续扩大数据规模和模型规模的同时，寻找更具突破式创新的模型架构。

智谱AI又一次实现了对OpenAI全模型产品线的对标。

▲智谱AI对标OpenAI全模型产品线

在算力方面，清影是在北京亦庄AI公共算力平台上训练而来的。数据层面，智谱AI与Bilibili、华策影视等进行了合作。

张鹏谈道，虽然视频生成模型才刚刚起步，但已经受到了很多产业和客户侧的需求，涉及电商产品宣传、影视特效等领域。

今天起，清影AI也同步在智谱AI大模型开放平台上线了API，企业和开发者都可以通过调用API的方式体验并使用CogVideoX的文生、图生视频能力，据称这也是国内上线的首个视频生成API。

随着清影能力的加入，智谱AI旗下的AI助手清言App在功能的全面上再下一城，覆盖对话、生图、代码、Agent和视频。

智谱AI还准备了一个One more thing——视频生视频能力。不过准确来说，这相当于是一个手动视频生视频的能力：基于智谱AI近日开源的视频理解模型CogVLM2-Video，用户可以上传视频并提取出详细的文字描述，再将文字输入清影，实现“视频生视频”的效果。

▲视频生视频

结语：又一强力玩家入局AI视频生成

Sora发布后，AI视频生成迎来“第二春”，无论是技术、产品的迭代，还是资本市场的关注，都达到了新的高度。光是本周，就有快手宣布全球上线、爱诗科技发布第二代模型，以及今天智谱AI入局等重磅进展。（视频生成大战2.0！大厂狂卷底层模型，创企5个月吸金44亿）

不同于此前的文本、图像模型赛道，国内长期处于追逐OpenAI等海外企业进展的状态。在视频生成领域，国内的大厂、创企在短短几个月内实现弯道超车，不仅打磨出了高质量的底层模型，而且个个公开可用甚至免费，给至今仍是期货的Sora上了一课。

内容链接：https://www.hpaper.cn/19835.html

海南人才集团用心做好人才服务代办工作当好自贸港人才工作“服务员”

上一篇 2024-07-27 下午3:19

高层换血、All in AI，星纪魅族如何突围？

下一篇 2024-07-27 下午3:23

科创新知

阿里京东物流“拆墙”进行时：有商家火速换快递，末端快递员担心收入下降

本文来源：时代财经作者：林心林今年“双十一”，两大电商平台和物流商各自为阵的局面将正式终结。图片来源：图虫创意 10月16日，京东物流与淘天集团正式达成合作，京东物流将全面接入淘宝天猫平台，平台商家将能够选择京东物流作为服务商，目前双方对接系统已基本完成，消费者也可以在淘宝和天猫APP内查询京东物流轨迹。这意味着，淘宝与京东这一对电商竞对，将各自过去…

2024-10-17
79
科创新知

AI圈顶流捧场！黄仁勋苏姿丰都来了，联想亮AI Now智能体大招，连甩10多个重磅AI产品

刚刚，联想一场大会，把全球AI圈顶流聚齐了！黄仁勋苏姿丰接连登场、英特尔AMD史无前例首次合作、英特尔CEO现场掏出下一代CPU、扎克伯格剧透XR新品，还有联想智能体大招AI Now正式登场。昨晚，AI量大管饱，精彩镜头应接不暇。智东西西雅图10月15日现场报道，刚刚联想创新科技大会2024正式开幕，联想一口气发布了PC个人AI智能体、搭载英伟达新核弹…

2024-10-16
81
科创新知

AI攻占诺奖背后：新的技术革命成为社会进步发展的重要引擎

“超越人类智慧的AI可以用语言操纵我们，或许会试图说服我们不要关掉开关。” 今年3月，由ChatGPT掀起的AI（人工智能）技术革命背后的奠基性科学家、被誉为“AI教父”的杰弗里·辛顿（Geoffrey E. Hinton），曾对媒体提及他对AI“反噬人类”的担忧。如今，在他心中“危险和机遇并存”的AI，为他带来了诺贝尔物理学奖的荣誉。当地时间10月8日，…

2024-10-15
2.0K
科创新知

苹果自动驾驶汽车项目画上句号：加州测试许可被取消

IT之家 10 月 12 日消息，就在彭博社的马克・古尔曼报道苹果放弃了发布电动汽车的计划六个月后，据 macReports 报道，加州机动车辆管理局（DMV）取消了苹果的自动驾驶车辆测试许可证。据悉，DMV 于 9 月 25 日收到苹果的确认，同意取消该许可证，该许可证于 9 月 27 日被取消。这意味着苹果公司持续了十年之久的电动汽车项目被彻底终结，没…

2024-10-12
1.2K
科创新知

大UP质问平台为什么视频越来越糊，答案比问题要复杂得多

文｜王毓婵编辑｜乔芊 10月8日，在全网拥有超千万粉丝的视频创作者@影视飓风发布了一条视频，标题为《清晰度不如4年前！视频变糊是你的错觉吗？》。这条视频揭示了视频平台为降低流量费用支出，通过降低码率和调整编码格式压缩视频画质的现象。 “2024年，4K视频你应该已经司空见惯。各家平台争先恐后在画质上做文章，我们也在不断更新设备，提升节目的质量。但我们在平台…

2024-10-11
1.6K
科创新知

特斯拉“命运日”即将到来：Robotaxi能否帮马斯克“翻身”？

财联社10月10日讯（编辑刘蕊）不到24小时之后，特斯拉将成为全球瞩目的焦点：特斯拉将在加利福尼亚州伯班克华纳兄弟工作室举行“Robotaxi Day”活动。届时，众多投资者和分析师们将看到期待已久的自动驾驶出租车Cybercab及其他产品的发布。随着“Robotaxi Day”活动的逐步临近，特斯拉股价也在过去几周持续上涨，几乎抹平了年内跌幅——这也表…

2024-10-10
2.8K
科创新知

又发布两款新车的富士康还没在全新领域找到获胜之道

致力于在电动汽车领域开辟新增长曲线的富士康发布两款全新电动汽车，将其乘用车产品阵容扩充至MPV领域。 10月8日，在一年一度的鸿海科技日上，富士康推出MPV车型Model D和中型电动巴士Model U。该MPV新车强调宽敞的内部空间，轴距达到3.2米。在800V电子电气架构的支持下，预计WLTP续航里程约为660公里。富士康依然与意大利车身制造商宾尼法利…

2024-10-09
1.7K
科创新知

33亿增资，合肥为什么再次“抄底”蔚来？

作为中国第一家在美国上市的电动车企，蔚来一度面临崩溃的边缘。 2019年年底，蔚来的股价触及1.32美元的低点，市值距离高点蒸发80%以上。高瓴清空了蔚来股票，红杉也选择了减仓。当时的李斌四处奔走请客吃饭，想为蔚来寻求融资输血。一个故事是，一家国资的老总在席间直斥李斌”乱花钱”。所谓的乱花钱，是指当时的新能源车企几乎都依赖补贴…

2024-10-08
101
科创新知

跨国车企销量都跌了，为何仅欧美“狂”裁员？

自今年以来，欧美汽车企业掀起了一股裁员浪潮。福特、特斯拉、通用汽车、大众集团、Stellantis集团等跨国车企相继宣布裁员计划。车企本次裁员人数大多在千人以上，其中大众集团（正在与工会谈判中）和特斯拉更是超过万人规模。这股寒流已经蔓延至零部件供应链。芯片制造商英飞凌、充电设备制造商Blink Charging、瑞典电池制造商Northvolt等零部件企…

2024-09-30
98
科创新知

7.99万就能提车的Model Y，还顶得住新势力的围攻吗

9月27日，特斯拉上海超级工厂迎来第100万辆车下线。从一片泥洼地到变成全球电动汽车巨头最大的海外基地，特斯拉上海工厂在不到4年时间里实现了产能和制造工艺的双双飞跃。而随着特斯拉副总裁陶琳在社交媒体上写下“感谢每一位新老车主的爱和支持”的同时，这家电动车公司正在被它从前的一众门徒视为必须要跨越的门槛，9月集中上市的新车乐道L60、极氪7X等尤为雄心勃勃。…

2024-09-29
113
科创新知

逼退张大奕的退货率，让丰巢一年狂揽9个亿

9月19日，曾经的“淘宝女装第一人”张大奕用小号发微博称，她将无限期延迟十年老店“吾欢喜的衣橱”的上新，宣告了这个曾经最火的淘宝女装店将关店。她称闭店是因为女装毛利微薄支撑不了各项运营成本，以及，电商越来越高的退货率。就在张大奕宣布关店的三周前，丰巢刚刚向港交所提交招股书，寻求以250亿元的估值上市。招股书显示，连亏八年的丰巢终于在2024年前5个月有了7…

2024-09-27
1.1K
科创新知

OpenAI高层再震荡：CTO官宣离职，Sora恐长期停滞？| 最前线

文｜袁滢靓编辑｜邓咏仪北京时间9月26日凌晨3点，OpenAI 首席技术官（CTO）Mira Murati在X上官宣辞职。那张成就了ChatGPT时代的四人合照，如今两个离职，一人休假，只剩下Altman一人扮演独角戏了。 △图源：X网友 @brewmarkets OpenAI的腥风血雨体质，也在另一方面体现了什么是“明星”公司。前脚GPT-4o高级语音…

2024-09-26
114
科创新知

TikTok Shop鏖战美区，内容电商的蛰伏与加速

TikTok Shop的内容电商，能给全球商家带来新一个增长奇迹吗？文 | 华商韬略梁梁跨境电商正在重新定义全球电商格局。过去五年，中国跨境电商规模增长超10倍，让数以千万计的中国商家因此扬帆出海，也成就了一张以核心电商平台为节点链接的全球商业网络。这是一张史无前例的商业大网，它已经而且还在加速改变全球贸易和消费的格局，并且这张网还在不断进化与分化…

2024-09-25
1.5K
科创新知

华为三折叠黄牛价雪崩：从加近十万到仅加四千，黄牛气懵了

正式发售不到48小时，华为三折叠屏手机Mate XT非凡大师黄牛价就崩了。 9月22日，很多数码博主在社交平台上发视频称，Mate XT三折叠手机价格雪崩，从加价六七万甚至十几万，暴跌至加价四千、两千。甚至到了“每小时一个价”、“你要买我肯定有货；但你要卖我打死不收”的地步。官方途径购买线上每天要“蹲点”抢‍‍‍‍‍‍‍‍线下无现货需排队几万人等待 ‍‍…

2024-09-24
2.3K
科创新知

马斯克终于“投降”，“我们的主权不容出售！”

【文/观察者网专栏作者蒂亚戈·诺加拉，翻译/ 陈佳芮】在无视巴西最高法院的命令三周之后，马斯克终于“投降”，作出重大让步。当地时间9月20日，在一份法庭文件中，社交平台X（原推特）公司的律师表示，X平台已遵守巴西最高法院的相关命令，希望法院能解除对其X平台在巴西境内的禁令。有意思的是，在这次“X事件”中，一度曾是削弱国家主权和民主机构国际干预堡垒的巴…

2024-09-23
7.5K
科创新知

李斌的“县县通”，蔚来的新未来

出品｜网易科技《态度》栏目作者｜定西这个中秋假期，李斌有点忙。为了推进充电县县通和换电县县通计划的落地，他来到该计划最难的地方之一新疆进行实地考察。时间紧迫。蔚来计划在2025年6月30日前，完成除台湾地区、香港特别行政区外，全国所有县级行政区充电桩全覆盖。今年10月前完成新疆14个地级行政区充电全覆盖，包框乌鲁木齐、克拉玛依、哈密、吐鲁番、昌吉、伊…

2024-09-20
1.4K
科创新知

小鹏回应MONA M03自动泊车撞上奥迪：不排除光线等因素致弱势场景

IT之家 9 月 18 日消息，近期一起“小鹏 MONA M03 自动泊车撞上奥迪汽车”的事故，引起了IT之家网友的关注。据每日经济新闻今天下午报道，小鹏汽车相关负责人就此事回应称，“公司售后同学已经联系上客户，在积极处理解决中。” 关于自动泊车状态下发生剐蹭的原因，该负责人表示，目前不排除因光线及其他因素导致的弱势场景，具体原因还要结合具体的数据进行分析。…

2024-09-18
3.6K
科创新知

华为三折叠，炸出570万「黄牛」

「核心提示」人人争当黄牛背后，是三折叠手机备受追捧。沉积的手机市场，太需要这样的“王炸”来唤醒了。作者 | 陈法善编辑 | 刘杨备货量100万台，发布四天就有近570万人预约，华为三折叠手机Mate XT注定是今年最难抢的手机。要知道，根据IDC的统计，2023年中国折叠屏手机总出货量约700.7万台。也就是说，华为这一个单品，就…

2024-09-14
1.2K
科创新知

比亚迪员工总数突破 90 万，技术研发人员近 11 万全球车企第一

IT之家 9 月 13 日消息，比亚迪集团品牌及公关处总经理李云飞今日在微博上透露，今天，比亚迪员工总数突破 90 万，是 5300 多家 A 股上市公司里员工人数最多的，比第二名还要多 40 多万人。李云飞还表示：“比亚迪 90 万员工中，技术研发人员近 11 万，是全球研发人员最多的车企。过去两年还招聘了近 5 万名优秀应届大学生，持续助力大学生就业。…

2024-09-13
612
科创新知

从Vertu到8848，奢侈品手机为何全军覆没

华为三折叠终于发布了，19999元起售。主要噱头是比折叠还多一折，但也引起了互联网的广泛争论。在争论之中，黄牛早已率先抢购。据网上消息，黄牛把三折叠已经炒到了一台65万。一台38万，有人为了提升销量，黄牛给出的利好是全国可飞。大家都知道这个溢价不可持续。可大家的疑惑点在于，华为三折叠的受众是谁？为何有种魔幻的吸引力？如果堆科技参数。我可以告诉…

2024-09-12
870

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

相关推荐