304永利集团官网入口-为什么「从 1 数到 10」这件事,所有视频模型都不会?
首页财产阐发评论ai正文 为何「从 1 数到 10」这件事,所有视频模子都不会? Seedance 2.0 发布后遭好莱坞抵制,网友用“从 1 数到 10”测试主流模子均掉败,袒露其理解知识短板,世界模子或者成解决标的目的 。 2026-03-08 14:04 ·微信公家号:极客公园汤一涛 AI投资人解读· 主流AI视频模子于面临从1数到10的简朴使命时团体翻车,袒露了手部邃密动作、物理纪律、时序逻辑一致性等能力盲区。· 今朝模子多基在统计猜测,缺少对于物理世界的理解。· 总结:世界模子标的目的正受存眷,试图让AI理解世界运作方式,但仍处摸索阶段,距真正代替人类创作者还有有很年夜差距。内容由AI天生,仅供参考
Seedance 2.0 有多猛,已往一个月各人已经经见地过了。好莱坞已经经团体下场发了声明,西半球最强法务部迪士尼也给字节跳动发了状师函。
但若你让它做一件事:天生一个汉子从 1 数到 10 的视频,它就露馅了。
能分清这是瑞安·雷诺兹还有是本·斯蒂勒吗?好莱坞的抵制是有原理的|视频来历:@fofrai
天生出来的「人」五官端正、皮肤质感传神,厨房配景细节富厚患上像是实拍。他说出「one」的时辰还有一切正常,然后就最先鬼打墙,嘴里不停反复「t、t、t」这个音节(不是从 1 到 10 中任何一个数字的发音);或者者伸出三根手指,口中却自傲地说出「ten」。重新到尾,他竖起的手指没跨越三根。
由于配景及人物都太真实了,以是手指崩坏的刹时反而制造出了一种强烈的「伪人感」。
这道题不只是 Seedance 2.0 的恶梦。
视频来自一名于 X 网友 fofr(简介显示是于 DeepMind 的开发者)。去年他就发明,「从 1 数到 10 并用手指比出数字」这个对于三岁小孩都毫无难度的使命,是当前所有 AI 视频模子的配合死穴。
Seedance 2.0 发布后,他*时间把这道老题扔了已往,果然也翻车了。
网友于这条推文下面掀起了一场自觉的「AI 数数挑战赛」。他们把统一道题喂给了 Sora、Veo、Kling 等险些所有主流模子,成果三军覆没,没有一个能准确地从 1 数到 10。
Veo 也无法从 1 数到 10|视频来历:@AGI_FromWalmart
当一个行业最强的产物们被一道幼儿园级另外标题问题团体难倒,这实在指向了一个问题:为何这些模子已经经能骗过你的眼睛,却没法理解知识?
它们到底「理解」了甚么,又缺掉了甚么?
01
统计猜测 vs 理解世界:
AI 视频的能力界限
「数不到 10」不是一个伶仃的 bug,它展现了一整片当前 AI 的能力盲区。
缘故原由也不繁杂:所有的视频模子素质上做的是统一件事,从海量视频数据中进修统计纪律,然后于天生每一一帧画面时猜测「接下来甚么样的像素摆列最可能呈现」。这及年夜语言模子的「猜测下一个词」(Next-Token Prediction)是统一套逻辑。
以是它们能把人脸毛孔、厨房光影、衣服褶皱衬着患上以假乱真,由于练习数据里有海量样本,统计纪律充足富厚。但一旦使命凌驾了样本的领域,进入「知识」的范畴,问题就来了。
这些问题年夜致可以分成三类。
起首就是手部邃密动作,这是最广为人知的「AI 照妖镜」。从图象天生时代的「六指人」,到视频天生时代的「软糖手指」,手一直是 AI 的恶梦。
Midjourney 及 DALL-E 爆火的 2022 年,「手部多指」是其时文生图最较着的 Bug|图片来历:Medium
公允地说,AI 于「画手」这件事上已经经取患了巨猛进步。一样平常场景里,六指人及软糖手已经经愈来愈少见了。
但 fofr 的测试之以是能让所有模子团体翻车,是由于它只是一个视觉衬着问题,同时还有暗含了一个逻辑推理问题。它要求于 10 秒内持续变换 10 个差别手势,每一个手势的手指数目严酷递增,同时嘴里说的数字还有要对于患上上。
人的手有 27 块骨骼、34 块肌肉、跨越 100 条韧带,单个手掌就有 18 个自由度。即便采用高分辩率扩散模子,若缺少明确的三维先验常识,也难以表达这类切确度。
人体运动维度示用意|图片来历:ScienceDirect
何况,于练习数据中,手凡是呈现于画面边沿、被物体遮挡或者处在运动恍惚中。模子能学到的高质量手部样本远少在脸部。
第二类 AI 的能力盲区是物理纪律。流体怎么流、物体怎么碰撞、织物怎么飘……这些人类靠直觉就能判定的工具,AI 视频常常给出违背物理定律的谜底。OpenAI 于发布 Sora 时的官方技能陈诉中就明确认可:Sora 没法正确模仿很多基本物理交互,好比玻璃破碎,也没法准确反应某些物体状况变化。
第三类是时序逻辑的一致性。视频不是一组相互自力的图片,而是一条有因果瓜葛的时间链:第 3 秒的画面必需成立于第 2 秒的基础上。但当前的扩散模子把时间看成一个潜于的数学维度来处置惩罚。它于天生第 N 帧时,没有内部机制去「记住」前面伸了几根手指、下一步该加 1。时间一长,先后就对于不上了。
作个类比的话,当前的 AI 视频模子像一个从没见过真手的画家,看了一百万张手的照片以后凭印象画手。年夜部门时辰画患上挺像,但他不知道手指只有五根,不知道伸出三根手指代表数字 3,更不知道从 3 到 4 象征着要再伸出一根。
02
另外一条路:世界模子
既然问题的泉源是「不睬解物理世界」,那有无人于试图从底子上解决这个问题?
事实上,这正于成为 AI 范畴最受存眷的新标的目的之一。一个正于凝结共鸣的思绪是:与其让模子从海量视频中进修「世界看起来是甚么样的」,不如让它先理解「世界是怎么运作的」。
这条路径有一个配合的名字,叫做世界模子(world model)。世界模子的焦点思绪是让 AI 成立对于三维物理世界的布局性理解,包括空间的几何干系、物体的物理属性、运动的动力学纪律等。
这就及当前视频天生模子的路径孕育发生了素质区分。当前模子于二维平面上猜测像素摆列的统计几率,世界模子则试图让 AI 于「懂」物理纪律的基础上做天生。
这个标的目的最知名的创业者是李飞飞。这位 ImageNet 的创作发明者于 2024 年开办了 World Labs,焦点方针是让 AI 拥有「空间智能」。她于去年的一篇长文中写道:
「语言是人类认知的产品,但世界遵照更繁杂的法则——重力节制运动,原子布局决议光芒怎样孕育发生颜色,无数物理定律约束着每一一次交互。要让 AI 真正理解这一切,需要一种全新的、远超年夜语言模子的架构」。
本年 2 月,World Labs 完成为了 10 亿美元融资,其*产物 Marble 已经经上线,可以从图象或者文本天生长期的 3D 情况。
Marble 可以从一张图片或者一段文字天生一个你能于内里自由走动、连续编纂的 3D 世界|图片来历:World Labs
李飞飞不是*的入局者。杨乐昆从 Meta 去职后开办了 AMI Labs,一样聚焦世界模子标的目的;Google DeepMind 的 Genie 系列模子也于摸索 3D 情况的天生与模仿;Nvidia 则推出了 Cosmos,定位为「世界基础模子」,试图将视频天生、物理感知模仿及呆板人事情流同一到一个框架里。
当这个范畴最*的几位研究者及最有钱的几家公司同时往一个标的目的走,这自己就申明了一些问题。纯数据驱动路径的天花板,正于成为愈来愈多人的共鸣,只是解法还有于摸索中。
Seedance 2.0 刚出来的时辰确凿引起了一年夜波发急。《死侍》编剧 Rhett Reese 看完演示后甚至写下了「我不想认可,但咱们可能完了」。
这类反映可以理解,Seedance 2.0 确凿很强,但「数不到 10」提供了一个有效的校准视角:这些模子学会了影戏的视觉语法,但还有没学会世界的物理语法。它们的前进,更可能是「看起来更真」,而不是「更懂实际」。
从素质上说,一个不知道手指只有五根的体系,间隔真正代替人类创作者,中间还有隔着一次范式级另外超过。
人类可以稍稍松口吻了,至少于 AI 学会数到 10 以前。
【本文由投资界互助伙伴微信公家号:极客公园授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-304永利集团官网入口




