米哈游腾讯躺赢,MiniMax将成“AI大模型第一股”!图灵奖大佬却说“大模型路走错了”?

【GameLook专稿,禁止转载!】

GameLook报道/

2025年12月21日,上海人工智能独角兽 MiniMax 正式通过香港交易所聆讯。在摩尔线程引爆国产硬件赛道数周后,港股市场即将迎来首家以大模型为核心业务的中国 AI 公司。

根据此前市场预期,MiniMax 的估值约为 40 亿美元(约合 310 亿港元)。其招股书披露的股东名单堪称豪华:腾讯、阿里等互联网巨头位列其中,米哈游作为早期战略投资者更是重仓押注。

然而,剥离这些资本光环,MiniMax 的上市节点选在了一个极其微妙的时刻,全球科技圈正处于对大模型技术路线产生深刻分歧,但大模型的商业化落地却意外加速的十字路口。

图灵奖大牛:烧了万亿美元的LLM大模型是一条死路?

2025 年对于 AI 行业而言,是祛魅的一年。在 MiniMax 递表前后,关于“烧了万亿美元的大模型是否在大方向上走错了”的争论在学术界达到了沸点。

Yann LeCun

Meta 首席 AI 科学家、图灵奖得主杨立昆(Yann LeCun)近期在接受采访时直言不讳地指出,认为单纯扩大语言模型规模就能实现超级智能的想法是“完全的胡扯(Complete BS)”。而为了践行自己的“世界模型”理念,其将在纽约创立一家新的AI创业公司,而去纽约的原因、就是为了逃离全在做大模型、技术同质化严重的硅谷。

这种激烈的批评并非情绪宣泄,而是基于对 LLM 底层架构的数学洞察。LeCun 指出,当前的 GPT 类模型本质上是基于“自回归”机制运行的,即根据前面的词预测下一个词。这是一种典型的“System 1”(快思考)反应,模型每生成一个字所用的计算量是固定的,缺乏“停下来思考、规划、推演不同可能性”的“System 2”(慢思考)过程。

LeCun 警告称,这种机制存在致命的指数级误差累积:如果在每一步预测中都有 1% 的微小概率出错,那么生成一段长文本后,错误率会呈指数级上升,导致逻辑崩塌(即幻觉)。这就好比司机开车只看眼前 1 米的路,不看地图也不看远处,虽然这 1 米可能走对了,但最终大概率会开进沟里。

更深层的缺陷在于“世界模型”的缺失。LeCun 著名的“猫比 GPT 聪明”论断,指的正是物理常识。一只猫知道跳向桌子需要多大力气,知道杯子推下去会碎(因果律),知道物体被挡住后依然存在(客体永久性)。

而 LLM 学习的是文本的统计规律,它处理的是符号,脑海中并没有模拟现实世界的物理引擎。如果不从根本上改变架构,如采用他提出的 JEPA 联合嵌入预测架构(JEPA 预测的是抽象特征空间中的状态。它允许 AI 在内心构建一个模拟器,在行动之前先在脑海中“预演”后果,确认无误后再输出),目前的路线永远无法到达人类水平的智能,甚至连“猫狗级别”的物理世界理解力都难以企及。

Richard Sutton

无独有偶,强化学习之父、同为图灵奖得主的 Richard Sutton 此前也表达了类似的悲观情绪,并将大模型称为通向真正智能道路上的“死胡同”。

Sutton 的视角侧重于智能的来源。他认为当前的大模型陷入了“模仿学习(Imitation Learning)”的陷阱。它们阅读了人类写下的所有文字,试图模仿人类说话的语气和概率,但这与真正的智能背道而驰。真正的智能必须来自“接地气的体验”,就像 AlphaGo 不是靠死记硬背棋谱战胜人类,而是靠自我博弈,在胜负反馈中“悟”出了棋理。

此外,Sutton 指出 LLM 缺乏真正的目标。智能的定义应该是“以此为目标,灵活地改变行为”,而 LLM 本质上只有一个目标:降低预测下一个词的困惑度(Perplexity)。

这导致它们只能充当“复读机”或“观点的混合体”,无法像一个真正的智能体那样,为了达成一个复杂任务(如“设计一个不仅能跑而且省电的代码”)去进行多步试错和策略调整。

现有的AI商业模式不需要完美

按照学界大佬的逻辑,大模型似乎陷入了瓶颈。但在产业界,情况却截然不同。

Air Street Capital 在其 2025 年度《AI 现状报告》 中提出了一个与科学界截然不同的视角:AI 已经跨过了探索期,进入了“建设者手册(The Builder’s Playbook)”阶段。报告数据显示,超过 95% 的受访企业已将 AI 纳入生产流程。

这形成了一个有趣的“大妥协”:企业不再执着于寻找一个像人一样思考的硅基生命,而是务实地接纳了一个并不完美、但能干活的超级工具。特别是在 80% 的 AI 原生企业全力押注“智能体工作流(Agentic Workflows)”的当下,市场对 AI 的评判标准已经从“智商有多高”变成了“干活有多稳”。

然而,要让这个“超级工具”真正普及,横在面前的还有一座大山:成本。

红杉资本曾在 2024 年底警告,随着 AI 转向具备深度推理能力的“慢思考(System 2)”模式,推理成本将面临指数级上升的风险。如果这一预测成真,商业模式将难以跑通。

但 2025 年初,两家中国公司——DeepSeek 和 MiniMax,用工程化的手段修正了这一经济学模型。

DeepSeek 在年初发布的 V3 和 R1 模型,通过架构创新(如高效的 MoE 混合专家模型)证明了高性能并不一定伴随着高成本。紧随其后,MiniMax 此次上市的一大底气,正是源于其最新一代旗舰模型 MiniMax M2 在“效率战争”中的数据表现。

MiniMax M2 采用了极致的稀疏激活架构,在高达 2300 亿的总参数中,单次推理仅激活约 100 亿参数。这一技术路线带来的直接结果是,M2 的推理速度达到了 Claude 3.5 Sonnet 的两倍,而其 API 输出价格却被大幅压低至后者的 8%,仅约为每百万 token 1.20 美元。

这一数据至关重要。它意味着 MiniMax 不仅是在回应科学界的质疑,更是在解决商业落地的核心痛点,将高昂的“算力税”转化为廉价的“水电费”。当推理成本被压缩到原来的十分之一时,许多原本在大模型上跑不通的商业逻辑(如高频互动的 C 端应用、大规模数据处理的 B 端业务)瞬间变得有利可图。

既然技术上实现了降本增效,商业模式初见曙光,MiniMax 为何还要急于在此时进入二级市场?

答案藏在招股书的财务数据里。尽管 MiniMax 账面持有约 80 亿元人民币(约 11 亿美元)的现金储备,但面对 DeepSeek、阿里 Qwen 等开源模型的步步紧逼,以及 GPT-5 级别模型可能的军备竞赛,这些钱并不算多。

截至 2025 年 9 月,MiniMax 拥有 385 名员工,其中 73.8% 为研发人员。虽然公司 AI 原生产品收入占比已达 71.1%,且亏损在同比收窄,但绝对值依然高达 23.58 亿元人民币。

在美股 AI 板块高位震荡、一级市场融资通道逐渐收窄的背景下,MiniMax 的 IPO 本质上是一场“防御性抢跑”。

现在的上市,不是为了变现离场,而是为了储备未来 3-5 年消耗战的弹药。面对技术迭代的不确定性,通过上市确立财务透明度和融资渠道,是用空间换时间的必要手段。谁先拿到足够的筹码,谁就有资格在泡沫挤出后留在牌桌上。

MiniMax 的上市,在GameLook看来,标志着中国 AI 大模型行业正式告别了“讲故事”的阶段,进入了“拼刺刀”的深水区。

科学界的质疑依然存在,AGI 的圣杯依然遥远,但商业世界从来不等待完美。

硅谷投资人 Vinod Khosla 曾预言:“AI 产生的绝大多数经济价值最终将来自应用层。”如果说前两年大家都在争抢英伟达的“铲子”,那么现在的 MiniMax,正试图证明自己不仅有铲子,而且这把铲子更轻、更快、更便宜。

至于这把铲子能否挖出真正的金矿,不再取决于它是否像人类一样聪明,而取决于它能否以足够低的成本,在各行各业中不知疲倦地挥舞下去。

如若转载,请注明出处:http://www.gamelook.com.cn/2025/12/584683/

关注微信