九游(NINEGAME)娱乐·官方网站-中国AI娱乐科技领导者

九游娱乐:摸着DeepSeek过河OpenAI砍掉一半推理成本-九游娱乐科技有限公司

九游资讯
九游娱乐科技在AI与游戏、电竞技术领域的最新研究成果、产品更新及市场趋势。我们提供真实的行业数据与专业分析,帮助玩家与开发者了解行业发展方向及技术创新。

九游娱乐:摸着DeepSeek过河OpenAI砍掉一半推理成本

日期:2026-07-05 浏览: 

  

九游娱乐:摸着DeepSeek过河OpenAI砍掉一半推理成本(图1)

  今年6月底,The Information扔出了一枚重磅炸弹:OpenAI的工程师们找到了一套系统优化方案,能把模型推理成本砍掉一半以上。

  这个数字放在两年前,整个硅谷都会觉得是天方夜谭。但今天,它变成了现实,而且出自OpenAI自己之手。

  更耐人寻味的是,这家曾经靠“大力出奇迹”横扫全球的AI霸主,正在走的这条路,DeepSeek早在一年多前就已经走过一遍了。

  在聊OpenAI为什么学DeepSeek之前,得先搞清楚一个问题:OpenAI到底有多缺钱?

  2025年全年,OpenAI营收约130.7亿美元,相比2024年的37亿美元增长了253%。这个增速放在任何行业都是惊人的。但问题出在另一侧:总成本和支出高达340亿美元。

  如果算上架构重组带来的一次性非现金计提,净亏损接近390亿美元。即便扣除那些不会重复的会计项目,调整后的亏损也有80亿美元左右。

  进入2026年,情况并没有好转。第一季度营收57亿美元,同期现金消耗达37亿美元,已经烧掉了超过一半的收入。公司预计2026年全年亏损将飙升至250亿美元。

  更尴尬的是毛利率。2026年一季度,OpenAI的毛利率只有39%。虽然比去年同期的33%有所提升,但距离年末52%的目标仍有不小差距。

  39%的毛利率放在SaaS行业里是什么水平?及格线都算不上。一家正经的软件公司,毛利率低于70%都不好意思跟投资人开口。

  月活8亿的ChatGPT,每一次对话都在燃烧GPU。Sora这类视频生成工具更是算力黑洞,OpenAI已经不得不在2026年将其关停,把宝贵的算力资源转向更具商业确定性的方向。

  与此同时,OpenAI正在推进一轮1200亿美元的融资,投前估值7300亿美元。公司还在秘密提交IPO申请,Sam Altman正全力争取在Anthropic之前完成上市。

  推理成本砍一半,毛利率就能往上蹿一截。IPO的故事就能讲得更圆。这就是OpenAI突然对“省钱”这件事如此上心的根本原因。

  KV cache是什么?简单地说,就是大模型在生成文字时留下的“笔记”。

  大模型生成回答是一个字一个字往外蹦的,每蹦一个字都要回头看前面已经说过什么。如果没有KV cache,每生成一个新字都要把整段线个字再读一遍,生成到第10000个字还要再读一遍。成本直接爆炸。

  但这个“笔记”占的是显存,而且是高频读取的热数据。KV cache越大,需要的显存越多,GPU就越贵。

  DeepSeek凭什么敢定这个价?凭的就是从架构层面把推理成本打了下来。

  更狠的是,2026年4到5月,DeepSeek把V4-Pro的API价格降至原定价的四分之一并永久执行。输入(缓存命中)价格低至每百万tokens 0.025元。

  与此同时,OpenAI还在用传统架构硬扛着高昂的推理成本。两者的成本曲线,已经不在一个维度上了。

  具体来说,九游娱乐-官方入口是Prompt Caching(提示词缓存)机制的升级。这个机制的本质就是KV cache的复用,模型第一次读完一段前缀后生成中间结果,后续请求如果用了相同前缀,就直接复用,不用重新计算整段prompt。

  早在2024年10月,OpenAI就在开发者文档里加入了Prompt Caching。官方表示最高可以把延迟降低80%,输入token成本降低90%。

  而且是用纯软件手段实现的,没换新芯片,没搞架构革命,就是把现有服务器的利用率给拧上去了。

  DeepSeek从一开始就没打算跟OpenAI拼谁堆的GPU多。它的打法是:在有限的算力下,把效率榨干到极致。MLA压缩KV cache也好,MoE架构降低激活参数也好,核心逻辑就一个——用更少的算力做更多的事。

  更有意思的是,九游娱乐-官方入口开发这个新架构的团队,是一个从OpenAI剥离出去的独立团队。这意意味着OpenAI内部可能早就有人在探索这条路,只是直到今天才真正落地。

  海外科技博主Andrew Curran表示,OpenAI在架构上出现了一个重大突破,尤其是在内存效率方面。

  过去几年,OpenAI的叙事是“大力出奇迹”,堆最多的GPU、训最大的模型、烧最多的钱,然后用性能碾压一切对手。这个逻辑在GPT-4时代是成立的,因为那时候没有谁能跟OpenAI比烧钱。

  一方面,模型性能的提升正在进入边际递减区间。GPT-4到GPT-5的提升幅度,远小于GPT-3到GPT-4。继续堆算力换性能的性价比越来越低。

  另一方面,竞争对手不再是“能不能追上”的问题,而是“谁更便宜”的问题。DeepSeek用不到十分之一的成本提供了接近的性能。Anthropic在企业市场步步紧逼,谷歌虎视眈眈。

  2026年5月,OpenAI进行了IPO前夕最大规模的组织架构重组。ChatGPT、Codex、API三大产品线被全部打碎,合并为一个统一的产品组织。总裁Greg Brockman全面主导产品方向。

  应用业务负责人Fidji Simo在全员会议上明确宣布:公司将降低Sora等消费产品的优先级,转而专注利润率更高的企业工具和编码产品。

  企业业务收入已占OpenAI总收入的40%以上,预计到2026年底接近50%。

  当一个公司一年亏200多亿美元的时候,“省钱”就不再是一个选项,而是一个生存问题。

  更何况OpenAI还要IPO。资本市场看的是盈利预期,不是技术有多炫。推理成本砍一半,毛利率从39%往52%冲,这个故事比“我们正在造AGI”值钱多了。

  DeepSeek V4系列发布后,已经有美国AI初创公司把部分工作负载从Anthropic迁移到了DeepSeek,省下了数百万美元的成本。

  OpenAI如果再不把成本打下来,失去的就不仅是市场份额,还有整个估值逻辑的根基。

  DeepSeek从一开始就把“低成本”写进了基因里。训练R1只花了约560万美元,而GPT-4o的单次训练成本约1.2亿美元。推理成本更是只有OpenAI o1的3%。

  OpenAI以前不需要省,因为投资人愿意为“最聪明”买单。但现在不行了。209亿的亏损,1200亿的融资,IPO在即,省下来的每一分钱都是利润。

  这不是巧合。这是技术路线上的趋同进化,当所有人都面对同样的算力瓶颈时,最优解往往是相似的。

  DeepSeek的商业模式从来不是“卖最贵的模型”,而是“用最低的成本提供足够好的性能”。它通过API降价、峰谷定价、缓存命中优惠等手段,把Token做成了大宗商品。

  OpenAI现在也在做同样的事。GPT-5.6 Sol的定价仅为竞品Claude Fable 5的一半。推理成本降低带来的定价空间,让OpenAI可以在保持毛利的同时发动价格战。

  从“卖铲子”到“分金矿”,从“成本项”到“分成项”,这个转变,DeepSeek走在了前面。

  过去几年,整个AI行业都被“规模法则”洗了脑,模型越大越好,算力越多越好,烧钱越狠越好。

  这个逻辑在融资驱动的高速扩张期是成立的,因为投资人为增长买单,不为效率买单。

  但当融资节奏放缓、IPO压力逼近、竞争从“谁更强”变成“谁更便宜”的时候,效率就成了唯一的答案。

  DeepSeek从一开始就看透了这一点。它没有跟OpenAI拼谁有钱,而是拼谁更会省钱。事实证明,这条路不仅走得通,而且正在成为行业的主流方向。

  从“大力出奇迹”到“省钱才是硬道理”,从“最聪明的模型”到“最划算的Token”,OpenAI的转向,标志着AI行业从“军备竞赛”进入了“精打细算”的新阶段。

  摸着DeepSeek过河的OpenAI,到底能不能追上这个先跑了一年多的对手?答案可能要等2026年下半年的财报才能揭晓。