算力告急，四大力量涌入Token服务市场

Token成为”硬通货”之后，四股力量正快速布局。

“现在你有多少Token就能卖多少，整个市场供不应求。”百度智能云AI与大模型平台总经理忻舟告诉数智前线，原来大家Token都是打折卖的，现在加价都买不到，推理诉求变得非常强。AI Infra企业是石科技联合创始人毛运航则观察，整个市场正从买方市场转向卖方市场，“以前API是降价的，是亏钱的，Token现在必须保证一定消耗量，才能够给到比较好的价格和供应。”阿里云资深副总裁刘伟光给出了一个数字，过去5个月，阿里云Token调用量增长了15倍。

在Token变得紧俏之后，四个力量——云大厂、模型公司、运营商，以及AI Infra企业，已快速布局Token服务市场。

01 Token，从打折卖到加价都买不到

虽然Token销售紧俏，但各家云厂商并未借机敞开对外售卖，反而谨慎分配自家的GPU资源，平衡内部模型训练和对外Token销售。“大家意识到，训练出更好的模型能卖出更多Token。”一位大厂人士说，内部各部门都在抢卡，几方最后通过算账来争夺。而且，去年Token打折卖，直接卖硬件设备挣得多；现在局面反转，大家都在收缩纯硬件销售，“卖硬件不如卖Token”。

Token为何“一夜之间”如此抢手？原因是真实需求爆发。

刘伟光说，Coding成为巨大分水岭，它不仅生成新应用，还将在未来一年内解锁大量老系统——那些“程序太老、不能搬上云”的遗留应用，借助AI Coding可获得新生。更关键的是，非程序员也开始“编程”，每个人都可以自己做报表、做分析、做项目预算，生产力得到释放。

而智能体的普及，从技术层面放大了Token消耗。毛运航形容，“还什么都没做，Token就没了”。Agent有了“手脚”之后，完成一项任务每一步都在消耗Token，消耗量急剧增加。

过去两年，每家大厂都有Token销售的考核，字节看Token总量，阿里、百度、腾讯看模型调用次数，但执行起来很难。忻舟解释，“市场没有那么多真需求，很多都用的不太对，或者大材小用，比如拿大模型去做数据清洗或者小模型也能做的事，我们叫低质调用。”随着智能体技术和模型、Coding能力的跃升，一些真正有价值的应用涌现，而这些应用也是Token重度消耗者。

为此，今年每家大厂对Token都定了不小的目标，“这个目标来源于对市场真需求的判断”。

面对这场需求爆发，中国工程院院士郑纬民观察到一个行业转向：从MaaS（模型即服务）转向TaaS（Token as a Service）服务。虽然很多企业并不特别划分MaaS和TaaS，但关注点已开始紧紧围绕Token。

Token是大模型处理信息的最小计量单位，1000个Token大约对应700到800个中文字符。郑纬民解释，Token现在是三种度量衡：它是大模型处理信息的基本单位，是AI运行时不同算力消耗的计量映射，也正在成为行业定价计费的标准单位。

之前，MaaS解决“模型的可用性”，计费方式相对粗放，比如按调用次数结算。TaaS则让AI算力像水、电、流量一样封装成标准化服务，把计费颗粒度精细到Token这个最小单位。

郑纬民解释这个演进背后的深层矛盾：目前AI基础设施主要是为大模型训练而设计的，行业陷入“算力基建昂贵、推理工程薄弱、Token产出薄弱”困局。他的判断是，AI基础设施的竞赛，已从比拼算力集群规模，转向比拼每瓦Token生产效率。

对Token市场的争夺，也快速展开。阿里刘伟光估算，AI原生创业企业，Token支出占比接近100%；国内互联网企业已在15%到20%；传统企业目前仍在5%以下。而阿里云对销售的要求，客户的Token支出至少不低于其今年支出的20%，并专门设置了纯做MaaS的销售岗位，在AI原生创业公司和OPC（个人公司）以MaaS销售为主。刘伟光同时透露三条抓手：一是全员出动，数千销售铺向全国，解决覆盖率，让客户先用起来，哪怕只是最基础的Coding改造；二是模型策略开放，只要部署在阿里云上的模型，一律按一方模型对待；三是考核指标重构，重点看三件事：付费Token客户数的每日增长、客户核心系统接入Token的数量与效率，以及Agent在企业内自主完成闭环的效率。

忻舟以央国企为例，预估其Token支出占总IT支出的1%左右，未来增量空间巨大。百度要求今年首要把智能体的效果做出来，当客户有了价值预期之后，再展开渗透和降本。

在算力吃紧的背景下，国产AI基础设施迎来机会。毛运航观察，国产芯片开始冒头，陆续有国产芯片可以支撑大集群供应。而是石科技的国产适配工作，也从过去的小范围甚至“为爱发电”，在升级为真正的生产级需求。“假如现在适配了某款国产芯片，能把新模型部署上去，达到生产级要求，基本上就把这家芯片的所有货盘活了。”

刘伟光做了一个更宏观的预判，当Token覆盖了“everything”，整个市场的IT支出结构将发生根本变化，软件外包、传统IT采购，都将面临产业重塑。Token正在成为新的水和电。

02 四大流派的动作

Token成为”硬通货”之后，四股力量已快速布局：云大厂、模型公司、运营商，以及AI Infra企业。

云大厂是最早提出Token服务的一方力量，它们的核心优势在于全栈能力，有模型、有算力基础设施，也几乎都有芯片。百度今年开发者大会提出“芯、云、模、体”，阿里云则在年度峰会提出“芯-云-模型-推理”。阿里云刘伟光去年告诉数智前线，云大厂的“胜负手”是性价比，而全栈技术是实现极致性价比的核心路径。今年他尤其强调芯片与模型的深度绑定，“每一款模型训练背后都有强大算力支撑，两者齿轮咬合、螺旋上升。所以我们一定要走自己的道路，更加强调云、芯、模一体化。”

在产品侧，云厂商正从云原生、AI原生迈向“Agent原生”，整套云技术栈和服务体系，几乎都要为智能体应用重做一遍。目前，各家企业对云产品线展开系统性改造——Skill化、MCP化、CLI化。同时，云厂商不仅推广Token销售，也非常重视自己把Token包装成Agent应用，如Coding、各种Agent和工具等，无论ToC还是ToB，自己先完成一个从Token生产到应用的闭环。

第二股力量是模型公司。这类公司包括智谱、Minimax、Kimi等。不过，他们更押注模型本身，这与云大厂截然不同。

它们提供API和Token服务，也委托其他产业链方销售模型调用服务。虽然一些模型企业已在港股上市，市值数千亿，但根据数据中心建设方等产业链多方观察，这些企业的实际营收与现金流规模还不够大，因此普遍选择保持轻运营状态，目前自持算力基础设施不多。这类企业的重心在模型本身，“让研发出的模型卖出去”是其核心目标，Token化只是手段。例如，在天翼云最近面向开发者及中小微企业的Token套餐，便接入了智谱GLM5等模型。

第三股力量是运营商。5月，三大运营商集体推出Token套餐服务，动作最快的是中国电信。实际上早在4月的数字中国峰会上，中国电信总经理刘桂清就对外传达了“传统产业分工和价值分配模式，正被以Token为核心的新型经营模式重塑”，披露Token相关战略规划，天翼云也展开了从IaaS到SaaS的全栈Token服务体系构建。此后，中国电信于5月推出试商用Token套餐。

运营商的核心优势在于，既拥有大量数据中心、算力与网络资源，又具备最后一公里客户触达平台，以及覆盖全国的属地服务能力。AI被Token化之后，与话费、流量在逻辑上类似，可以像水、电一样计费运营。运营商联合生态共同开发AI应用，借助Token化服务，来推动AI普及。

更值得关注的是，运营商是国内第一批大规模采购国产芯片的主力，有强烈动力推动国产芯片生态适配。目前，行业面临算力利用率偏低、异构算力碎片化、国产化适配难度大、模型迭代又非常快的挑战。业内看到，目前国产芯片适配新模型，达到生产级要求，可能要花几个月时间，而这个周期中模型公司又不断推出新模型，整体适配速度完全不够。为此，运营商也通过其生态整合能力，动员各方力量进行多芯适配、多模融合，是国产生态关键推手。

第四股力量是AI Infra企业，这也是当前融资热度最高的一类。Agent应用爆发推高Token消耗，也正在重塑这类企业的商业逻辑，此前“赚差价、算不过账”，而目前行业从买方市场走向卖方市场，让这一赛道的商业化路径愈发清晰。

这类企业中，是石科技对标美国Corewave公司，希望能在中国做好独立第三方国产GPU云生态，主攻大规模集群运营与国产芯片适配，三年前已实现盈利，正在向重资产的独立第三方云平台演进。硅基流动去年因与华为云合作、最快部署DeepSeek模型一举进入行业视野，主要聚焦MaaS层，靠近用户侧；无问芯穹是最早在行业内提出“MxN”概念，定位M种模型、N种芯片间的中间层产品。

业界观察，美国AI Infra企业Corewave因受头部模型公司与英伟达的双重挤压，利润空间有限。但毛运航告诉数智前线，国内AI Infra企业面临国产适配这一重要机会。国内市场对国产芯片适配有迫切需求，每款芯片架构不同、适配难度各异，光靠硬件厂商去解决从时间到力量都远远不够，需要芯片厂商、AI Infra企业、应用方共同跑通整个链条。“一个是国产，一个是调优，这是我们在这一波发展中找到的机会。”毛运航说。

03 Coding与Agent：最确定的“印钞机”

在众多Token服务的方向中，收益最大的是Coding与Agent方向的大语言模型。有业内人士告诉数智前线，各大厂推出的Coding Plan（Coding订阅套餐）看似价格不高，但实际并不亏钱。原因是包月定价模式下，大多数用户实际消耗量远低于上限，“Coding Plan平均下来比单纯卖Token要赚钱”。

一位资深人士对数智前线进一步补充，现在看来，视频生成的商业价值远低于大语言模型。忻舟的判断更为直接：大语言模型一旦真正进入生产环境，能够产生巨大收益，且“收入没有上限”。

刘伟光对此做了进一步分析。他认为，广告、传媒、影视、短视频确实有巨大市场空间，但与Coding和Agent方向的大语言模型相比，完全不在同一量级。他的拆解逻辑是，Coding不只是编程，Coding催生了Agent，Agent能独立完成任务、帮助人类提升生产力，而这一切都与大语言模型深度绑定。“我们现在所有火力集中的最大点，就是Coding和Agent方向的大语言模型，这个模型的市场会比其他模型大非常非常多。”

刘伟光观察，自Coding工具出现以来，应用发展速度已明显加快。他预判，一旦“人人Coding”成为现实，每年产生的应用数量或Agent数量将是过去的数倍。这不仅是生产力的跃升，更是整个软件行业的结构性重塑。

AI Infra企业也关注到了这一赛道形势。是石科技毛运航说，如今几乎没有不用AI的程序员，海内外大厂都在用模型做Coding，整个行业已被悄然改变。Agent的兴起进一步放大了这一效应。“如何让代码稳定输出、打满缓存、将代码做成完整项目，如何在可控范围内让Agent高效产出——这也是当下业界讨论最集中的工程化方向。”

对于Token下一步增长趋势，业界持不同看法。大部分人士认为2026年行业算力供给非常紧张，而且将愈发紧张，延续到明后两年；也有人士认为，这波Token吃紧，与国内外芯片供应相关，但更长远阶段还需观察。

但大家的共识是，在有限算力资源约束下，如何能够最大化单位Token生产效率，已经是成为释放AI生产力的一个核心命题。“我自己观察一点，语言模型是一维的，驾驶其实是一个二维平面的，到低空、具身、世界模型就是三维的。从开始训练需求起来，到推理全场景去用，又是一个量级的提升，所以我们能够看到在计算这个事情上，大家还会花很长时间、很多功夫去做。”毛运航说。

本文来自转载微信公众号“数智前线” ，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。