304永利集团官网入口-为什么「从 1 数到 10」这件事，所有视频模型都不会？

作者：304永利集团官网入口文化更新时间：2026-04-12 19:07:18 点击数：

首页财产阐发评论ai正文为何「从 1 数到 10」这件事，所有视频模子都不会？ Seedance 2.0 发布后遭好莱坞抵制，网友用“从 1 数到 10”测试主流模子均掉败，袒露其理解知识短板，世界模子或者成解决标的目的。 2026-03-08 14:04 ·微信公家号：极客公园汤一涛 AI投资人解读· 主流AI视频模子于面临从1数到10的简朴使命时团体翻车，袒露了手部邃密动作、物理纪律、时序逻辑一致性等能力盲区。· 今朝模子多基在统计猜测，缺少对于物理世界的理解。· 总结：世界模子标的目的正受存眷，试图让AI理解世界运作方式，但仍处摸索阶段，距真正代替人类创作者还有有很年夜差距。内容由AI天生，仅供参考

Seedance 2.0 有多猛，已往一个月各人已经经见地过了。好莱坞已经经团体下场发了声明，西半球最强法务部迪士尼也给字节跳动发了状师函。

但若你让它做一件事：天生一个汉子从 1 数到 10 的视频，它就露馅了。

能分清这是瑞安·雷诺兹还有是本·斯蒂勒吗？好莱坞的抵制是有原理的｜视频来历：@fofrai

天生出来的「人」五官端正、皮肤质感传神，厨房配景细节富厚患上像是实拍。他说出「one」的时辰还有一切正常，然后就最先鬼打墙，嘴里不停反复「t、t、t」这个音节（不是从 1 到 10 中任何一个数字的发音）；或者者伸出三根手指，口中却自傲地说出「ten」。重新到尾，他竖起的手指没跨越三根。

由于配景及人物都太真实了，以是手指崩坏的刹时反而制造出了一种强烈的「伪人感」。

这道题不只是 Seedance 2.0 的恶梦。

视频来自一名于 X 网友 fofr（简介显示是于 DeepMind 的开发者）。去年他就发明，「从 1 数到 10 并用手指比出数字」这个对于三岁小孩都毫无难度的使命，是当前所有 AI 视频模子的配合死穴。

Seedance 2.0 发布后，他*时间把这道老题扔了已往，果然也翻车了。

网友于这条推文下面掀起了一场自觉的「AI 数数挑战赛」。他们把统一道题喂给了 Sora、Veo、Kling 等险些所有主流模子，成果三军覆没，没有一个能准确地从 1 数到 10。

Veo 也无法从 1 数到 10｜视频来历：@AGI_FromWalmart

当一个行业最强的产物们被一道幼儿园级另外标题问题团体难倒，这实在指向了一个问题：为何这些模子已经经能骗过你的眼睛，却没法理解知识？

它们到底「理解」了甚么，又缺掉了甚么？

统计猜测 vs 理解世界：

AI 视频的能力界限

「数不到 10」不是一个伶仃的 bug，它展现了一整片当前 AI 的能力盲区。

缘故原由也不繁杂：所有的视频模子素质上做的是统一件事，从海量视频数据中进修统计纪律，然后于天生每一一帧画面时猜测「接下来甚么样的像素摆列最可能呈现」。这及年夜语言模子的「猜测下一个词」（Next-Token Prediction）是统一套逻辑。

以是它们能把人脸毛孔、厨房光影、衣服褶皱衬着患上以假乱真，由于练习数据里有海量样本，统计纪律充足富厚。但一旦使命凌驾了样本的领域，进入「知识」的范畴，问题就来了。

这些问题年夜致可以分成三类。

起首就是手部邃密动作，这是最广为人知的「AI 照妖镜」。从图象天生时代的「六指人」，到视频天生时代的「软糖手指」，手一直是 AI 的恶梦。

Midjourney 及 DALL-E 爆火的 2022 年，「手部多指」是其时文生图最较着的 Bug｜图片来历：Medium

公允地说，AI 于「画手」这件事上已经经取患了巨猛进步。一样平常场景里，六指人及软糖手已经经愈来愈少见了。

但 fofr 的测试之以是能让所有模子团体翻车，是由于它只是一个视觉衬着问题，同时还有暗含了一个逻辑推理问题。它要求于 10 秒内持续变换 10 个差别手势，每一个手势的手指数目严酷递增，同时嘴里说的数字还有要对于患上上。

人的手有 27 块骨骼、34 块肌肉、跨越 100 条韧带，单个手掌就有 18 个自由度。即便采用高分辩率扩散模子，若缺少明确的三维先验常识，也难以表达这类切确度。

人体运动维度示用意｜图片来历：ScienceDirect

何况，于练习数据中，手凡是呈现于画面边沿、被物体遮挡或者处在运动恍惚中。模子能学到的高质量手部样本远少在脸部。

第二类 AI 的能力盲区是物理纪律。流体怎么流、物体怎么碰撞、织物怎么飘……这些人类靠直觉就能判定的工具，AI 视频常常给出违背物理定律的谜底。OpenAI 于发布 Sora 时的官方技能陈诉中就明确认可：Sora 没法正确模仿很多基本物理交互，好比玻璃破碎，也没法准确反应某些物体状况变化。

第三类是时序逻辑的一致性。视频不是一组相互自力的图片，而是一条有因果瓜葛的时间链：第 3 秒的画面必需成立于第 2 秒的基础上。但当前的扩散模子把时间看成一个潜于的数学维度来处置惩罚。它于天生第 N 帧时，没有内部机制去「记住」前面伸了几根手指、下一步该加 1。时间一长，先后就对于不上了。

作个类比的话，当前的 AI 视频模子像一个从没见过真手的画家，看了一百万张手的照片以后凭印象画手。年夜部门时辰画患上挺像，但他不知道手指只有五根，不知道伸出三根手指代表数字 3，更不知道从 3 到 4 象征着要再伸出一根。

另外一条路：世界模子

既然问题的泉源是「不睬解物理世界」，那有无人于试图从底子上解决这个问题？

事实上，这正于成为 AI 范畴最受存眷的新标的目的之一。一个正于凝结共鸣的思绪是：与其让模子从海量视频中进修「世界看起来是甚么样的」，不如让它先理解「世界是怎么运作的」。

这条路径有一个配合的名字，叫做世界模子（world model）。世界模子的焦点思绪是让 AI 成立对于三维物理世界的布局性理解，包括空间的几何干系、物体的物理属性、运动的动力学纪律等。

这就及当前视频天生模子的路径孕育发生了素质区分。当前模子于二维平面上猜测像素摆列的统计几率，世界模子则试图让 AI 于「懂」物理纪律的基础上做天生。

这个标的目的最知名的创业者是李飞飞。这位 ImageNet 的创作发明者于 2024 年开办了 World Labs，焦点方针是让 AI 拥有「空间智能」。她于去年的一篇长文中写道：

「语言是人类认知的产品，但世界遵照更繁杂的法则——重力节制运动，原子布局决议光芒怎样孕育发生颜色，无数物理定律约束着每一一次交互。要让 AI 真正理解这一切，需要一种全新的、远超年夜语言模子的架构」。

本年 2 月，World Labs 完成为了 10 亿美元融资，其*产物 Marble 已经经上线，可以从图象或者文本天生长期的 3D 情况。

Marble 可以从一张图片或者一段文字天生一个你能于内里自由走动、连续编纂的 3D 世界｜图片来历：World Labs

李飞飞不是*的入局者。杨乐昆从 Meta 去职后开办了 AMI Labs，一样聚焦世界模子标的目的；Google DeepMind 的 Genie 系列模子也于摸索 3D 情况的天生与模仿；Nvidia 则推出了 Cosmos，定位为「世界基础模子」，试图将视频天生、物理感知模仿及呆板人事情流同一到一个框架里。

当这个范畴最*的几位研究者及最有钱的几家公司同时往一个标的目的走，这自己就申明了一些问题。纯数据驱动路径的天花板，正于成为愈来愈多人的共鸣，只是解法还有于摸索中。

Seedance 2.0 刚出来的时辰确凿引起了一年夜波发急。《死侍》编剧 Rhett Reese 看完演示后甚至写下了「我不想认可，但咱们可能完了」。

这类反映可以理解，Seedance 2.0 确凿很强，但「数不到 10」提供了一个有效的校准视角：这些模子学会了影戏的视觉语法，但还有没学会世界的物理语法。它们的前进，更可能是「看起来更真」，而不是「更懂实际」。

从素质上说，一个不知道手指只有五根的体系，间隔真正代替人类创作者，中间还有隔着一次范式级另外超过。

人类可以稍稍松口吻了，至少于 AI 学会数到 10 以前。

【本文由投资界互助伙伴微信公家号：极客公园授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-304永利集团官网入口

加入收藏

Tag： 304永利集团官网入口

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

304永利集团官网入口-为什么「从 1 数到 10」这件事，所有视频模型都不会？

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天