OpenAI 的新论文,为什么被业内嘲讽是营销?
日期:2025-09-15 16:38:58 / 人气:5
近期,OpenAI 发布的论文《Why Language Models Hallucinate》(《语言模型为何会产生幻觉》)引发技术社区轩然大波。论文中,OpenAI 将大模型 “幻觉”(输出错误信息却坚信为真)的核心原因,从 “模型架构缺陷” 重新定义为 “技术社区训练与评测机制的激励错位”,主张通过调整评估规则引导模型 “知之为知之”,而非 “盲目猜测”。然而,这一观点并未获得行业普遍认可,反而被不少学者与开发者质疑 “更像营销,而非严肃研究”—— 纽约大学数据中心助理教授 Ravid Shwartz Ziv 更是直言不讳地指出,这篇论文的学术价值有限,更像是一场面向公众与行业的宣传活动。
一、论文核心观点:将 “幻觉” 归咎于 “激励机制”
在传统认知中,大模型幻觉被视为工程层面的缺陷,例如模型过度自信、解码随机性、训练数据偏差等。但 OpenAI 在新论文中提出了颠覆性解释:幻觉的根源并非模型本身,而是技术社区长期以 “准确率” 为核心的激励设计,迫使模型在不确定时选择 “猜测” 而非 “拒答”。
具体逻辑可拆解为三点:
- “应试式” 评测催生 “盲目猜题”:当前主流评估基准(如 SimpleQA、MMLU)类似 “应试考试”,仅以 “答案准确率” 打分 —— 即便模型对问题不确定,“蒙一个答案” 的概率得分也高于 “拒绝回答”。例如 OpenAI 以自家模型举例:旧模型 o4-mini 在 SimpleQA 基准中准确率(22%)略低于新模型 GPT-5-thinking-mini(24%),但错误率(75%)远高于后者(26%),核心原因是 o4-mini 更倾向 “硬答” 而非 “弃答”。
- 预训练缺乏 “拒答” 样本:大模型在预训练阶段仅接触 “给定提示词→输出完整回答” 的正面示例,从未学习 “如何礼貌拒绝不确定问题”,导致面对未知领域时,本能选择 “编造答案” 而非 “承认不知道”。
- 主张重构评估规则:OpenAI 提出,未来评估应建立 “惩罚高自信错误、奖励恰当拒答” 的机制,打破 “准确率至上” 的排行榜逻辑,让模型从 “追求分数” 转向 “追求真实”。例如,对模型明确表达 “不确定” 的回答给予一定分数,对明明不懂却编造细节的输出加重惩罚。
简言之,OpenAI 试图将 “幻觉” 从 “技术难题” 转化为 “规则问题”,并将自家新模型(如 GPT-5-thinking-mini)的 “低错误率” 包装为 “遵循新激励逻辑的成果”,暗示这是大模型发展的正确方向。
二、业内嘲讽 “像营销”:三大核心质疑点
尽管论文提出的 “调整激励机制” 思路具有一定启发性,但技术社区对其学术价值的评价普遍偏低,“营销论” 的质疑主要集中在以下三方面:
(一)创新性不足:核心观点无突破,早有前人研究
不少学者指出,论文提出的 “激励机制导致幻觉” 并非新发现,相关研究在数年前已出现,且深度与广度远超该论文。
- 早在 2022 年,斯坦福大学团队就在《Calibrating Language Models to Avoid Overconfidence》中提出,模型过度自信源于训练时 “只奖励正确回答,不惩罚错误自信”,并实验验证了 “引入拒答奖励” 可降低幻觉率;
- 2023 年,谷歌 DeepMind 的论文《Truthful AI: Developing and Governing AI That Does Not Lie》更是系统分析了 “评测规则对模型诚实性的影响”,提出了类似的 “置信度校准” 方案。
对比之下,OpenAI 的新论文既未提出新的理论框架,也未提供更严谨的实验数据(仅用自家两个模型的简单对比),更像是对已有研究的 “通俗化解读”。有开发者调侃:“这篇论文的深度,相当于把三年前的学术会议摘要改写成了科普文,称不上‘研究突破’。”
(二)概念模糊:“幻觉” 定义仍未明确,逻辑存在漏洞
论文被诟病的另一大问题,是对核心概念 “幻觉” 的定义始终模糊。技术社区早已达成共识:“幻觉” 至今没有统一的学术定义—— 有人认为是 “与事实不符的输出”,有人认为是 “模型无法区分‘已知’与‘未知’的状态”,还有人认为是 “输出内容缺乏训练数据支撑”。
而 OpenAI 在论文中回避了这一根本问题,直接将 “幻觉” 等同于 “模型在不确定时的猜测行为”,忽略了幻觉的多源性。例如:
- 模型 “滚雪球效应”(前序输出的错误信息被后续生成强化)、“逆转诅咒”(无法正确关联训练数据中的因果关系)等幻觉成因,与 “评测激励” 无关,本质是模型架构或训练方法的缺陷;
- 论文引用的《Calibrated Language Models Must Hallucinate》指出,“即使训练数据无错误,模型对低频事实的幻觉率也接近训练数据中单次出现事实的比例”,这一结论恰恰说明 “幻觉存在统计学必然性”,而非仅由激励机制导致。
这种 “回避核心矛盾、简化问题归因” 的做法,被业内认为是 “为了突出自家模型的优势,刻意窄化了幻觉的定义”,不符合严肃学术研究的严谨性。
(三)动机可疑:绑定自家产品,为 GPT-5 与 AI Agent 铺路
结合 OpenAI 近期的业务动作,论文的 “营销属性” 更显突出。2025 年以来,OpenAI 的核心战略明显向 “企业级应用” 与 “AI Agent” 倾斜:
- 硬件层面,收购 io Products 推进终端设备布局,为 AI Agent 落地硬件场景做准备;
- 组织架构层面,成立 “应用” 板块并任命 Fidji Simo 为 Applications CEO,明确要亲自下场做 To B 应用;
- 产品层面,多次宣传 GPT-5 的 “低幻觉” 特性,将其作为面向企业客户的核心卖点(企业应用对 “输出准确性” 的要求远高于消费级产品)。
而这篇论文的核心主张 ——“低幻觉需要重构评测规则,而我们的模型已符合新规则”,恰好为 GPT-5 的 “低幻觉” 背书,同时为 OpenAI 后续推出的 AI Agent 产品铺路(AI Agent 需具备 “诚实拒答” 能力,避免错误决策累积)。有行业分析师指出:“OpenAI 与其说是发布研究论文,不如说是发布‘产品说明书’—— 通过学术论文的形式,向企业客户传递‘我们的模型更适合商用’的信号。”
三、争议背后:行业对 “学术与商业边界” 的担忧
OpenAI 新论文引发的争议,本质上反映了技术社区对 “AI 巨头学术独立性” 的担忧。作为大模型领域的 “领头羊”,OpenAI 的每一篇论文都可能影响行业方向,但近年来其 “学术研究” 与 “商业推广” 的边界越来越模糊:
- 2024 年发布的《GPT-5 Technical Report》中,大量篇幅用于宣传模型的 “商用能力”,而非技术细节;
- 此次论文更是直接以 “自家模型对比” 作为核心论据,实验数据缺乏第三方验证。
这种 “学术为商业服务” 的倾向,让不少学者担忧:“如果行业龙头将学术论文变成‘产品营销工具’,会误导年轻研究者的方向,也会降低公众对 AI 学术研究的信任度。” 毕竟,严肃的学术研究应追求 “揭示真相”,而营销则追求 “突出优势”,二者的目标本质不同。
结语:学术需要严谨,营销应坦诚
客观而言,OpenAI 新论文提出的 “调整评测激励机制以降低幻觉” 并非毫无价值 —— 它确实将 “模型诚实性” 这一重要问题推向了更广泛的讨论,也为行业提供了一个值得探索的方向。但问题在于,OpenAI 不应将其包装成 “学术突破”,而应坦诚其 “行业倡议” 或 “产品理念” 的属性。
对于技术社区而言,真正的进步需要严谨的学术研究与开放的行业讨论,而非 “借学术之名行营销之实”。正如一位 AI 研究者所说:“我们欢迎 OpenAI 提出新的行业规则,但希望它以‘企业提案’的身份,而非‘学术论文’的形式 —— 学术需要的是证据与逻辑,而不是品牌背书。”
作者:J9九游会
新闻资讯 News
- OpenAI 的新论文,为什么被业内...09-15
- 为什么西贝老板和所有的老板都不...09-15
- 暑期档过后,中国电影往哪走?09-15
- 即时零售大战:改写零售生态,商...09-15
案例展示 Case
- J9九游会共建博娱生态02-23
- J9九游会重金并购和记娱乐02-23
- 梦想重启,J9旅游大使圆梦京城02-23
- 巴蒂斯塔图代言J9九游会02-23
- J9九游会FIBA合作伙伴02-23
- J9九游会返利日02-23