九游娱乐：摸着DeepSeek过河OpenAI砍掉一半推理成本

日期：2026-07-05 浏览：　

九游娱乐：摸着DeepSeek过河OpenAI砍掉一半推理成本(图1)

　　今年6月底，The Information扔出了一枚重磅炸弹：OpenAI的工程师们找到了一套系统优化方案，能把模型推理成本砍掉一半以上。

　　这个数字放在两年前，整个硅谷都会觉得是天方夜谭。但今天，它变成了现实，而且出自OpenAI自己之手。

　　更耐人寻味的是，这家曾经靠“大力出奇迹”横扫全球的AI霸主，正在走的这条路，DeepSeek早在一年多前就已经走过一遍了。

　　在聊OpenAI为什么学DeepSeek之前，得先搞清楚一个问题：OpenAI到底有多缺钱？

　　2025年全年，OpenAI营收约130.7亿美元，相比2024年的37亿美元增长了253%。这个增速放在任何行业都是惊人的。但问题出在另一侧：总成本和支出高达340亿美元。

　　如果算上架构重组带来的一次性非现金计提，净亏损接近390亿美元。即便扣除那些不会重复的会计项目，调整后的亏损也有80亿美元左右。

　　进入2026年，情况并没有好转。第一季度营收57亿美元，同期现金消耗达37亿美元，已经烧掉了超过一半的收入。公司预计2026年全年亏损将飙升至250亿美元。

　　更尴尬的是毛利率。2026年一季度，OpenAI的毛利率只有39%。虽然比去年同期的33%有所提升，但距离年末52%的目标仍有不小差距。

　　39%的毛利率放在SaaS行业里是什么水平？及格线都算不上。一家正经的软件公司，毛利率低于70%都不好意思跟投资人开口。

　　月活8亿的ChatGPT，每一次对话都在燃烧GPU。Sora这类视频生成工具更是算力黑洞，OpenAI已经不得不在2026年将其关停，把宝贵的算力资源转向更具商业确定性的方向。

　　与此同时，OpenAI正在推进一轮1200亿美元的融资，投前估值7300亿美元。公司还在秘密提交IPO申请，Sam Altman正全力争取在Anthropic之前完成上市。

　　推理成本砍一半，毛利率就能往上蹿一截。IPO的故事就能讲得更圆。这就是OpenAI突然对“省钱”这件事如此上心的根本原因。

　　KV cache是什么？简单地说，就是大模型在生成文字时留下的“笔记”。

　　大模型生成回答是一个字一个字往外蹦的，每蹦一个字都要回头看前面已经说过什么。如果没有KV cache，每生成一个新字都要把整段线个字再读一遍，生成到第10000个字还要再读一遍。成本直接爆炸。

　　但这个“笔记”占的是显存，而且是高频读取的热数据。KV cache越大，需要的显存越多，GPU就越贵。

　　DeepSeek凭什么敢定这个价？凭的就是从架构层面把推理成本打了下来。

　　更狠的是，2026年4到5月，DeepSeek把V4-Pro的API价格降至原定价的四分之一并永久执行。输入（缓存命中）价格低至每百万tokens 0.025元。

　　与此同时，OpenAI还在用传统架构硬扛着高昂的推理成本。两者的成本曲线，已经不在一个维度上了。

　　具体来说，九游娱乐-官方入口是Prompt Caching（提示词缓存）机制的升级。这个机制的本质就是KV cache的复用，模型第一次读完一段前缀后生成中间结果，后续请求如果用了相同前缀，就直接复用，不用重新计算整段prompt。

　　早在2024年10月，OpenAI就在开发者文档里加入了Prompt Caching。官方表示最高可以把延迟降低80%，输入token成本降低90%。

　　而且是用纯软件手段实现的，没换新芯片，没搞架构革命，就是把现有服务器的利用率给拧上去了。

　　DeepSeek从一开始就没打算跟OpenAI拼谁堆的GPU多。它的打法是：在有限的算力下，把效率榨干到极致。MLA压缩KV cache也好，MoE架构降低激活参数也好，核心逻辑就一个——用更少的算力做更多的事。

　　更有意思的是，九游娱乐-官方入口开发这个新架构的团队，是一个从OpenAI剥离出去的独立团队。这意意味着OpenAI内部可能早就有人在探索这条路，只是直到今天才真正落地。

　　海外科技博主Andrew Curran表示，OpenAI在架构上出现了一个重大突破，尤其是在内存效率方面。

　　过去几年，OpenAI的叙事是“大力出奇迹”，堆最多的GPU、训最大的模型、烧最多的钱，然后用性能碾压一切对手。这个逻辑在GPT-4时代是成立的，因为那时候没有谁能跟OpenAI比烧钱。

　　一方面，模型性能的提升正在进入边际递减区间。GPT-4到GPT-5的提升幅度，远小于GPT-3到GPT-4。继续堆算力换性能的性价比越来越低。

　　另一方面，竞争对手不再是“能不能追上”的问题，而是“谁更便宜”的问题。DeepSeek用不到十分之一的成本提供了接近的性能。Anthropic在企业市场步步紧逼，谷歌虎视眈眈。

　　2026年5月，OpenAI进行了IPO前夕最大规模的组织架构重组。ChatGPT、Codex、API三大产品线被全部打碎，合并为一个统一的产品组织。总裁Greg Brockman全面主导产品方向。

　　应用业务负责人Fidji Simo在全员会议上明确宣布：公司将降低Sora等消费产品的优先级，转而专注利润率更高的企业工具和编码产品。

　　企业业务收入已占OpenAI总收入的40%以上，预计到2026年底接近50%。

　　当一个公司一年亏200多亿美元的时候，“省钱”就不再是一个选项，而是一个生存问题。

　　更何况OpenAI还要IPO。资本市场看的是盈利预期，不是技术有多炫。推理成本砍一半，毛利率从39%往52%冲，这个故事比“我们正在造AGI”值钱多了。

　　DeepSeek V4系列发布后，已经有美国AI初创公司把部分工作负载从Anthropic迁移到了DeepSeek，省下了数百万美元的成本。

　　OpenAI如果再不把成本打下来，失去的就不仅是市场份额，还有整个估值逻辑的根基。

　　DeepSeek从一开始就把“低成本”写进了基因里。训练R1只花了约560万美元，而GPT-4o的单次训练成本约1.2亿美元。推理成本更是只有OpenAI o1的3%。

　　OpenAI以前不需要省，因为投资人愿意为“最聪明”买单。但现在不行了。209亿的亏损，1200亿的融资，IPO在即，省下来的每一分钱都是利润。

　　这不是巧合。这是技术路线上的趋同进化，当所有人都面对同样的算力瓶颈时，最优解往往是相似的。

　　DeepSeek的商业模式从来不是“卖最贵的模型”，而是“用最低的成本提供足够好的性能”。它通过API降价、峰谷定价、缓存命中优惠等手段，把Token做成了大宗商品。

　　OpenAI现在也在做同样的事。GPT-5.6 Sol的定价仅为竞品Claude Fable 5的一半。推理成本降低带来的定价空间，让OpenAI可以在保持毛利的同时发动价格战。

　　从“卖铲子”到“分金矿”，从“成本项”到“分成项”，这个转变，DeepSeek走在了前面。

　　过去几年，整个AI行业都被“规模法则”洗了脑，模型越大越好，算力越多越好，烧钱越狠越好。

　　这个逻辑在融资驱动的高速扩张期是成立的，因为投资人为增长买单，不为效率买单。

　　但当融资节奏放缓、IPO压力逼近、竞争从“谁更强”变成“谁更便宜”的时候，效率就成了唯一的答案。

　　DeepSeek从一开始就看透了这一点。它没有跟OpenAI拼谁有钱，而是拼谁更会省钱。事实证明，这条路不仅走得通，而且正在成为行业的主流方向。

　　从“大力出奇迹”到“省钱才是硬道理”，从“最聪明的模型”到“最划算的Token”，OpenAI的转向，标志着AI行业从“军备竞赛”进入了“精打细算”的新阶段。

　　摸着DeepSeek过河的OpenAI，到底能不能追上这个先跑了一年多的对手？答案可能要等2026年下半年的财报才能揭晓。

九游（NINEGAME）娱乐·官方网站-中国AI娱乐科技领导者

九游娱乐：摸着DeepSeek过河OpenAI砍掉一半推理成本