304永利集团官网入口-$OneMillion
首页财产ai正文 美金OneMillion-Bench 发布:年夜模子打工能赚几多钱? 美金OneMillion-Bench的焦点设法很直白:用“人类专家的时间与成本”给使命订价,再用“是否满意专家要求”权衡模子交付质量。 2026-03-10 16:02 ·投资界综合 AI投资人解读· 美金OneMillion-Bench 用专家时间与成本给使命订价,权衡模子交付质量。它包罗 400 道高难标题问题,笼罩多范畴,经济价值超百万美元。今朝最强模子经由过程率超 40%,能产出 50 万美元价值,但离可交付仍有间隔。· 行业缺少对于 AI 现实经济价值的评测尺度;模子于繁杂推理等方面存于不足。总结:美金OneMillion-Bench 为评估 AI 能力提供了新基准,虽模子已经揭示必然价值创造能力,但于迈向可彻底拜托的“数字员工”门路上仍面对挑战,需存眷评测尺度完美和模子能力晋升。内容由AI天生,仅供参考
假如有价值 美金100 万$的顶 级专家使命,AI 能完成此中几多?
谜底是 48 万$,而只需要 100 美元的 Token 用度。
这个数字怎么来的?Humanlaya Data Lab 结合 北京通用人工智能研究院(BIGAI)、xbench、M-A-P,招募来自 Morgan Stanley、世达(Skadden)、协及病院、中国电网、清华年夜学等顶 级机构或者学府的 100+ 位资深专家,耗时 2000+ 小时,构建了等价在人类专家事情价值百万美元级评测基准 —— 美金OneMillion-Bench。
跟着 OpenClaw 的爆火,人们愈来愈存眷 AI Agent 可以或许现实替身类完成的使命。美金OneMillion-Bench 的焦点设法很直白:用“人类专家的时间与成本”给使命订价,再用“是否满意专家要求”权衡模子交付质量 —— 假如把 AI 当做“数字白领专家”,总价值 100 万$的使命,模子到底能赚几多钱?

图1:美金OneMillion-Bench模子体现及其获取的经济价值
01「Agent 能挣钱」成为一样平常,但行业更缺一把尺:可交付、可复核、可控
从 2025 Agent 元年最先,AI 逐渐从“答题机”推进到“数字员工”,但业界现有评测集往往缺少对于现实经济价值的权衡,区别度不足、难以主动化且仅有英文语境,是以,美金OneMillion-Bench 构建了一套兼备高经济价值 × 高区别度 × 可主动评测的基准。
它包罗 400 道高难标题问题(200 个英文题 + 200 个中文题),笼罩金融、法令、医疗、天然科学与工业五年夜范畴的92个三级范畴,与常见的测验题差别,每一道题都是真实施业场景下的开放专家使命,采用 Rubrics + LLM as Judge 评测。要求模子给出可落地的实操方案与判定链路,于这些开放问题上,不仅回覆“是甚么”,更要申明“怎么做、按甚么挨次做、为何这么做”。

图2:美金OneMillion-Bench 5 个范畴,37 个二级及 92 个三级细分种别
之以是是 美金OneMillion,是由于这些使命真的很「贵」。
差别在传统只评估模子正确率的榜单,咱们用“钱”来标价每一一道题的实际劳动价值 —— 使命经济价值 = 资深专家完成该使命的耗时 × 专家时薪。时薪锚定官方或者行业权势巨子数据,如中国部门都会人社局、美国劳动统计局,使命的耗时来自多个范畴专家的配合评估。据此,把所有使命的经济价值加及计较后,跨越了 100 万美元。假如于实际世界里把这些事情交给资深专家团队完成,你需要付出的成本就是百万美元量级。如许一来,模子评测再也不逗留于分数上,而是更直不雅地回覆:AI 此刻到底能不变交付几多“可兑现价值”,以和间隔真正上岗还有差甚么。

表1:美金OneMillion-Bench 经济价值计较
02四年夜要害设计:多样化真实场景 + 高价值使命 + 非对于称负分机制 + 高质量与一致性
(1)经济价值出发,构建高真实性、高含金量专家使命
咱们于评测中引入用钱币器量的“经济价值”,焦点是权衡模子于真实世界中能创造几多可交付的经济价值。开放式问题很难用单一尺度谜底权衡,咱们约请一线资深专家将真实事情流拆解为细颗粒度考点:每一道题设计 15–35 个考点,累计 7000+ 考点。标题问题笼罩 5–15 年经验从业者于真实场景中常见的典型使命,专家来自各种头部机构,不只考常识点,更磨练特定场景下的专家级决议计划能力。
(2)引入“负分项”,避免 Reward Hacking
于开放式使命里,模子最轻易走向“越说越多、看起来越专业”,蒙到考点就患上分。为了不虚高,咱们插手行文逻辑及布局、扣分项考点。模子假如只是堆砌内容,没有合理的逻辑睁开,没法“撞到”高分。于考点分值设置上,咱们采纳 +10 ~ -20 的非对于称考点分值:正向能力给分更克制,明确或者致命过错处罚更重。这套布局的效果更靠近真实利用体感 —— 做对于纷歧定加分许多,但做错往往会带来更年夜价钱。
(3)笼罩 92 个三级分类,含 CN + Global 两年夜子集零丁区别中国年夜陆标题问题,场景充足真实、富厚
咱们将使命细化到笼罩 92 个三级分类的真实岗亭事情流;CN 是中文标题问题,Global 是英文标题问题,网络当地化、真正的标题问题,只管即便还有原真正的法例、流程与营业语境,从而更精准描画差别模子于特定地区营业场景中的能力差异。
(4)一套“像出产线”的专家 Pipeline:让高难 Rubrics 题可范围化、可质控
为了确保数据场景真实、考点合理,团队于专家招募、选拔与培训上投入年夜量成本,专家平均总体经由过程率低在 5%,标题问题终极质检经由过程率 38.1%。数据出产采用 3-4 名专家协作的 Pipeline,包罗匹敌性评审与仲裁机制。于难度节制上,咱们采纳双向截断计谋,剔除了过易样本,对于在过难样本二次复审,确保数据质量。

图3:美金OneMillion-Bench标题问题示例
03 成就单解读:SOTA 的分数已经经及格,但间隔交付仍有间隔
今朝最强模子经由过程率跨越 40%,于 100 万美元的使命上,约莫可以产出 50 万美元,而完成使命的 API 成本也就 100 美元摆布!AI 不单已经经能“干活”,并且于极高难度、极高单价的专业使命里,已经经能交付相称可不雅的美元级另外价值。

表2:模子的平均经由过程率、平均分及可以孕育发生的总经济价值
Insight 1:成就已经经及格,但离“可信付”还有很远
假如只看平均分,头部模子已经经进入了及格区间(60%+),第二梯队也遍及于 50% 以上,申明 AI 于专业使命上确凿能笼罩不少要害点。但于真实事情里,平均分实在不敷用,未到达必然质量需要返工。是以,咱们引入了更切近落地的指标 —— 经由过程率(Pass Rate):单题患上分到达 70% 和以上,本题才算“经由过程”。
基在这个界说,本榜单的 Economic Value(经济价值)也不是按平均分线性折算,而是严酷按“可交付”口径计较,只有经由过程的使命才计入“能赚到的钱”。平均分像“测验成就”,而经由过程率才是“上岗证”。
而从经由过程率的视角来看,纵然是*的 Claude Opus 4.6 Web Search,也骤降到 43.5%,即只有不到 45% 的使命可以经由过程验收,第二梯队多于 25~30% 区间倘佯。换句话说,平均分看起来“能用”,但能于一半以上使命里不变到达可交付尺度的模子,今朝还有不存于。
今朝,AI 已经经能不变交付一部门标题问题、而且能赚到很可不雅的价值,但榜单也清晰告诉咱们另外一半本相:间隔可交付专业使命仍有相称一段旅程。
Insight 2:Web Search 是一把双刃剑
Web Search 东西挪用凡是能显著补齐事实,特别于经济金融范畴的时效性问题,一样合用在医疗、工业、法令中不停迭代及演进的规范及约束。
但它也会引入噪声与“看似权势巨子的过错来历”,从而呈现颠簸甚至回退。下一阶段竞争不只是“有无搜刮”,而是“会不会搜刮”以和搜刮东西的效果怎样:会不会选源、会不会交织验证、会不会把证据链写进推理、会不会于噪声下连结一致性。
Insight 3:繁杂推理仍是通用瓶颈,标的目的准确但缺少可履行的细节
模子擅长写一段看起来联贯的注释,但一旦使命需要深层理解、多步演绎、或者于巨年夜可能空间里摸索,就仍会呈现深度不足与正确性颠簸。典型例子包括软件工程、呆板进修相干使命中的摸索式问题。这种使命必需先成立布局,再做推导,再做反证,再回溯批改。模子往往会于半途跳步,或者者用看似合理的叙述替换真实的推理。
此外,模子轻易给出标的目的准确可是缺少可履行细节的答复。好比于医疗场景下,需要的是可履行的临床要素,但模子轻易泛泛而谈,漏掉要害点。天然科学使命里存于近似的对于试验前提的预期不足、对于约束不敷细、机制链层次解浅。这类掉败于真实落地里杀伤力很年夜,由于它看起来“很对于”,但没有可实践的信息量。
04 One Step Further —— 将把模子推进到“可交付”的那一步
假如站于 2024 年的视角,会感觉 AI 还有是一个“年夜玩具”。但站于 2026 年、OpenClaw 把 Agent 推到公共眼前以后,咱们看到的是另外一件事:AI 已经经能交付 50 万美元级另外专业价值;接下来竞争的要害,是继承晋升这份价值,而且将这份价值变患上更不变、更可复核、更可控,使智能的边际晋升能直接转化为出产力及收入。
美金OneMillion-Bench 的意义不于在“再做一个排行榜”,而是把“数字员工”的能力界限量化出来:你今天及将来可以安心把哪些事情交给它?
关在 Humanlaya
Humanlaya 是一家建立在 2025 年的 AI 数据试验室,经由过程界说真实、高经济价值的可验证使命,鞭策年夜模子能力界限的拓展与经济价值的落地。
网址:www.humanlaya.com
开源链接
Paper :https://arxiv.org/abs/2603.07980
GitHub:https://github.com/humanlaya/OneMillion-Bench
Hugging Face:https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench
Website:
1. Humanlaya:www.humanlaya.com
2. BIGAI:https://www.bigai.ai
3. xbench:https://xbench.org
4. M-A-P:https://huggingface.co/m-a-p
【本文经授权发布,不代表投资界态度。本平台仅提供信息存储办事。】若有任何疑难题,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。-304永利集团官网入口




