304永利集团官网入口-$OneMillion

作者：304永利集团官网入口文化更新时间：2026-04-06 23:26:36 点击数：

首页财产ai正文美金OneMillion-Bench 发布：年夜模子打工能赚几多钱？美金OneMillion-Bench的焦点设法很直白：用“人类专家的时间与成本”给使命订价，再用“是否满意专家要求”权衡模子交付质量。 2026-03-10 16:02 ·投资界综合 AI投资人解读· 美金OneMillion-Bench 用专家时间与成本给使命订价，权衡模子交付质量。它包罗 400 道高难标题问题，笼罩多范畴，经济价值超百万美元。今朝最强模子经由过程率超 40%，能产出 50 万美元价值，但离可交付仍有间隔。· 行业缺少对于 AI 现实经济价值的评测尺度；模子于繁杂推理等方面存于不足。总结：美金OneMillion-Bench 为评估 AI 能力提供了新基准，虽模子已经揭示必然价值创造能力，但于迈向可彻底拜托的“数字员工”门路上仍面对挑战，需存眷评测尺度完美和模子能力晋升。内容由AI天生，仅供参考

假如有价值美金100 万$的顶级专家使命，AI 能完成此中几多？

谜底是 48 万$，而只需要 100 美元的 Token 用度。

这个数字怎么来的？Humanlaya Data Lab 结合北京通用人工智能研究院（BIGAI）、xbench、M-A-P，招募来自 Morgan Stanley、世达（Skadden）、协及病院、中国电网、清华年夜学等顶级机构或者学府的 100+ 位资深专家，耗时 2000+ 小时，构建了等价在人类专家事情价值百万美元级评测基准 —— 美金OneMillion-Bench。

跟着 OpenClaw 的爆火，人们愈来愈存眷 AI Agent 可以或许现实替身类完成的使命。美金OneMillion-Bench 的焦点设法很直白：用“人类专家的时间与成本”给使命订价，再用“是否满意专家要求”权衡模子交付质量 —— 假如把 AI 当做“数字白领专家”，总价值 100 万$的使命，模子到底能赚几多钱？

from clipboard

图1：美金OneMillion-Bench模子体现及其获取的经济价值

01「Agent 能挣钱」成为一样平常，但行业更缺一把尺：可交付、可复核、可控

从 2025 Agent 元年最先，AI 逐渐从“答题机”推进到“数字员工”，但业界现有评测集往往缺少对于现实经济价值的权衡，区别度不足、难以主动化且仅有英文语境，是以，美金OneMillion-Bench 构建了一套兼备高经济价值 × 高区别度 × 可主动评测的基准。

它包罗 400 道高难标题问题（200 个英文题 + 200 个中文题），笼罩金融、法令、医疗、天然科学与工业五年夜范畴的92个三级范畴，与常见的测验题差别，每一道题都是真实施业场景下的开放专家使命，采用 Rubrics + LLM as Judge 评测。要求模子给出可落地的实操方案与判定链路，于这些开放问题上，不仅回覆“是甚么”，更要申明“怎么做、按甚么挨次做、为何这么做”。

from clipboard

图2：美金OneMillion-Bench 5 个范畴，37 个二级及 92 个三级细分种别

之以是是美金OneMillion，是由于这些使命真的很「贵」。

差别在传统只评估模子正确率的榜单，咱们用“钱”来标价每一一道题的实际劳动价值 —— 使命经济价值 = 资深专家完成该使命的耗时 × 专家时薪。时薪锚定官方或者行业权势巨子数据，如中国部门都会人社局、美国劳动统计局，使命的耗时来自多个范畴专家的配合评估。据此，把所有使命的经济价值加及计较后，跨越了 100 万美元。假如于实际世界里把这些事情交给资深专家团队完成，你需要付出的成本就是百万美元量级。如许一来，模子评测再也不逗留于分数上，而是更直不雅地回覆：AI 此刻到底能不变交付几多“可兑现价值”，以和间隔真正上岗还有差甚么。

from clipboard

表1：美金OneMillion-Bench 经济价值计较

02四年夜要害设计：多样化真实场景 + 高价值使命 + 非对于称负分机制 + 高质量与一致性

（1）经济价值出发，构建高真实性、高含金量专家使命

咱们于评测中引入用钱币器量的“经济价值”，焦点是权衡模子于真实世界中能创造几多可交付的经济价值。开放式问题很难用单一尺度谜底权衡，咱们约请一线资深专家将真实事情流拆解为细颗粒度考点：每一道题设计 15–35 个考点，累计 7000+ 考点。标题问题笼罩 5–15 年经验从业者于真实场景中常见的典型使命，专家来自各种头部机构，不只考常识点，更磨练特定场景下的专家级决议计划能力。

（2）引入“负分项”，避免 Reward Hacking

于开放式使命里，模子最轻易走向“越说越多、看起来越专业”，蒙到考点就患上分。为了不虚高，咱们插手行文逻辑及布局、扣分项考点。模子假如只是堆砌内容，没有合理的逻辑睁开，没法“撞到”高分。于考点分值设置上，咱们采纳 +10 ~ -20 的非对于称考点分值：正向能力给分更克制，明确或者致命过错处罚更重。这套布局的效果更靠近真实利用体感 —— 做对于纷歧定加分许多，但做错往往会带来更年夜价钱。

（3）笼罩 92 个三级分类，含 CN + Global 两年夜子集零丁区别中国年夜陆标题问题，场景充足真实、富厚

咱们将使命细化到笼罩 92 个三级分类的真实岗亭事情流；CN 是中文标题问题，Global 是英文标题问题，网络当地化、真正的标题问题，只管即便还有原真正的法例、流程与营业语境，从而更精准描画差别模子于特定地区营业场景中的能力差异。

（4）一套“像出产线”的专家 Pipeline：让高难 Rubrics 题可范围化、可质控

为了确保数据场景真实、考点合理，团队于专家招募、选拔与培训上投入年夜量成本，专家平均总体经由过程率低在 5%，标题问题终极质检经由过程率 38.1%。数据出产采用 3-4 名专家协作的 Pipeline，包罗匹敌性评审与仲裁机制。于难度节制上，咱们采纳双向截断计谋，剔除了过易样本，对于在过难样本二次复审，确保数据质量。

from clipboard

图3：美金OneMillion-Bench标题问题示例

03 成就单解读：SOTA 的分数已经经及格，但间隔交付仍有间隔

今朝最强模子经由过程率跨越 40%，于 100 万美元的使命上，约莫可以产出 50 万美元，而完成使命的 API 成本也就 100 美元摆布！AI 不单已经经能“干活”，并且于极高难度、极高单价的专业使命里，已经经能交付相称可不雅的美元级另外价值。

from clipboard

表2：模子的平均经由过程率、平均分及可以孕育发生的总经济价值

Insight 1：成就已经经及格，但离“可信付”还有很远

假如只看平均分，头部模子已经经进入了及格区间（60%+），第二梯队也遍及于 50% 以上，申明 AI 于专业使命上确凿能笼罩不少要害点。但于真实事情里，平均分实在不敷用，未到达必然质量需要返工。是以，咱们引入了更切近落地的指标 —— 经由过程率（Pass Rate）：单题患上分到达 70% 和以上，本题才算“经由过程”。

基在这个界说，本榜单的 Economic Value（经济价值）也不是按平均分线性折算，而是严酷按“可交付”口径计较，只有经由过程的使命才计入“能赚到的钱”。平均分像“测验成就”，而经由过程率才是“上岗证”。

而从经由过程率的视角来看，纵然是*的 Claude Opus 4.6 Web Search，也骤降到 43.5%，即只有不到 45% 的使命可以经由过程验收，第二梯队多于 25~30% 区间倘佯。换句话说，平均分看起来“能用”，但能于一半以上使命里不变到达可交付尺度的模子，今朝还有不存于。

今朝，AI 已经经能不变交付一部门标题问题、而且能赚到很可不雅的价值，但榜单也清晰告诉咱们另外一半本相：间隔可交付专业使命仍有相称一段旅程。

Insight 2：Web Search 是一把双刃剑

Web Search 东西挪用凡是能显著补齐事实，特别于经济金融范畴的时效性问题，一样合用在医疗、工业、法令中不停迭代及演进的规范及约束。

但它也会引入噪声与“看似权势巨子的过错来历”，从而呈现颠簸甚至回退。下一阶段竞争不只是“有无搜刮”，而是“会不会搜刮”以和搜刮东西的效果怎样：会不会选源、会不会交织验证、会不会把证据链写进推理、会不会于噪声下连结一致性。

Insight 3：繁杂推理仍是通用瓶颈，标的目的准确但缺少可履行的细节

模子擅长写一段看起来联贯的注释，但一旦使命需要深层理解、多步演绎、或者于巨年夜可能空间里摸索，就仍会呈现深度不足与正确性颠簸。典型例子包括软件工程、呆板进修相干使命中的摸索式问题。这种使命必需先成立布局，再做推导，再做反证，再回溯批改。模子往往会于半途跳步，或者者用看似合理的叙述替换真实的推理。

此外，模子轻易给出标的目的准确可是缺少可履行细节的答复。好比于医疗场景下，需要的是可履行的临床要素，但模子轻易泛泛而谈，漏掉要害点。天然科学使命里存于近似的对于试验前提的预期不足、对于约束不敷细、机制链层次解浅。这类掉败于真实落地里杀伤力很年夜，由于它看起来“很对于”，但没有可实践的信息量。

04 One Step Further —— 将把模子推进到“可交付”的那一步

假如站于 2024 年的视角，会感觉 AI 还有是一个“年夜玩具”。但站于 2026 年、OpenClaw 把 Agent 推到公共眼前以后，咱们看到的是另外一件事：AI 已经经能交付 50 万美元级另外专业价值；接下来竞争的要害，是继承晋升这份价值，而且将这份价值变患上更不变、更可复核、更可控，使智能的边际晋升能直接转化为出产力及收入。

美金OneMillion-Bench 的意义不于在“再做一个排行榜”，而是把“数字员工”的能力界限量化出来：你今天及将来可以安心把哪些事情交给它？

关在 Humanlaya

Humanlaya 是一家建立在 2025 年的 AI 数据试验室，经由过程界说真实、高经济价值的可验证使命，鞭策年夜模子能力界限的拓展与经济价值的落地。

网址：www.humanlaya.com

开源链接

Paper ：https://arxiv.org/abs/2603.07980

GitHub：https://github.com/humanlaya/OneMillion-Bench

Hugging Face：https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench

Website：

1. Humanlaya：www.humanlaya.com

2. BIGAI：https://www.bigai.ai

3. xbench：https://xbench.org

4. M-A-P：https://huggingface.co/m-a-p

【本文经授权发布，不代表投资界态度。本平台仅提供信息存储办事。】若有任何疑难题，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。-304永利集团官网入口

加入收藏

Tag： 304永利集团官网入口

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

304永利集团官网入口-$OneMillion

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天