快速阅读:英伟达DGX Spark搭载的GB10芯片实为消费级黑韦尔架构,而非宣传中的数据中心级别,导致大量软件回退到六年前的Ampere代码路径运行。花溢价买CUDA生态,结果CUDA生态根本没准备好。
有人花了差不多3万人民币买了台DGX Spark,准备正经做AI研究,一周后决定退货。
这台机器的核心问题,一句线架构是消费级黑韦尔,既不是服务器黑韦尔,也不是普通游戏黑韦尔,是一个自己特供的版本。大量软件不支持它,或者被打了补丁,强制跑在六年前的Ampere代码路径上。
更讽刺的是,当有人在英伟达官方九游娱乐-官网app论坛追问这个问题时,官方代表给出的解释大意是:因为芯片里塞了光追核心和DLSS算法,所以没空间放完整的张量核心。
原帖作者由此推测,这颗GB10芯片原本是为游戏掌机设计的(需要统一内存架构的那种),英伟达临时决定把它包装成AI产品,用来应对苹果和AMD Strix Halo的竞争。有意思的是,英伟达自家另一款产品Jetson Thor,售价与DGX Spark相近,搭载的却是真正的数据中心黑韦尔架构。同样叫“第五代张量核心技术”,实际上差着一代的距离。
有网友指出,这个问题比单纯的软件兼容性更深:黑韦尔这个名字现在覆盖了架构差异巨大的好几条产品线,你的CUDA代码在英伟达自家不同产品之间都无法互相移植了。这不是什么小麻烦,这是整个生态碎片化的开始。
当然,DGX Spark也有人用得很顺手。有用户表示,用vLLM跑推理,单机可以达到2500 tokens/s的预填充速度,两台通过内置的ConnectX-7网卡直连组成集群后,速度可以进一步提升,还能加载更大的模型。机器背面那个QSFP112接口支持RoCEv2 RDMA,延迟只有1-2微秒,这个规格在这个价位的设备上确实没有竞争对手。
问题在于,你为它付出的溢价,本来买的是CUDA生态的成熟度和开箱即用。而现在这两样都没有兑现。
有观点认为,拿同等预算在Mac Studio或Strix Halo方向上下注,反而更务实:苹果的统一内存实现是真正打通的,不会出现加载一个ComfyUI模型就把显存用掉两倍的问题;Strix Halo的软件生态虽然同样不完美,但价格差出去的那部分钱可以直接换成更多的云端算力配额。
那些真正需要大显存、同时又确实依赖CUDA特定功能的用户,到底应该怎么选,目前恐怕还没有一个干净的答案。
英伟达这次干了一件特别“聪明”的蠢事:用游戏芯片冒充AI芯片,把最愿意掏钱的专业用户当韭菜割。这3万块买的不是性能,是信任——“我相信CUDA生态成熟,我相信英伟达专业”。结果呢?光追核心塞进了AI套件,张量核心却被“没空间”挤掉了。
护城河这东西,从外面攻很难,从里面挖特别快。当你的产品线自己都互不兼容,当“黑韦尔”这个名字变成了一锅乱炖,你亲手教会了用户一件事:原来CUDA税也可以不交。
苹果和AMD应该给这款产品发一面锦旗:感谢友商助攻,生态碎片化从今天开始。