“Token經(jīng)濟”,正在成為AI行業(yè)近期最熱的關(guān)鍵詞之一。
當OpenClaw(俗稱“龍蝦”)成為全民關(guān)注點,引發(fā)了各大廠商加入“龍蝦潮”,Token的消耗開始呈現(xiàn)出指數(shù)級的增長趨勢。
有開發(fā)者社區(qū)和社交平臺上開始頻繁出現(xiàn)對比表,在不同模型上的Token消耗是多少、輸出質(zhì)量差異如何、折算下來“每千Token成本”誰最低。
但如果真的試圖用Token去算一筆賬,很快就會發(fā)現(xiàn),事情已經(jīng)沒有那么簡單了。
前幾天,一個做財務(wù)的朋友問我:他們的agent每天幾十萬次調(diào)用,一個月到底要花多少錢?
這個問題聽起來很基礎(chǔ),看似非常簡單,可以通過“Token×單價×調(diào)用次數(shù)”來計算。
但是,當我翻開Anthropic的價格頁打算粗算的時候,結(jié)果犯難了。
Claude Managed Agents的session runtime(會話運行時長)按$0.08/session-hour(每會話·小時)獨立計費,cache write(緩存寫入)和cache hit(緩存命中)各有不同檔位的乘數(shù),跟Token根本不在一個維度上。
于是我把幾家主流平臺的價格頁逐一翻了一遍,發(fā)現(xiàn)這件事遠不是一道“干凈的算術(shù)題”:
比如OpenAI的價格頁更像一張資源總賬。Token之外,web search(聯(lián)網(wǎng)搜索)按千次調(diào)用收費,container按session (會話持續(xù)時間)時長收費,file search storage(文件檢索存儲)按GB/天收費,regional processing再疊一層10%。
Google Gemini收斂一些,但grounding(搜索增強)和context caching(上下文緩存)也各自被單列為獨立計價項。
Anthropic三檔緩存乘數(shù)疊一個session runtime(會話運行時長),又是另一套維度。三家已經(jīng)沒法用同一個公式算清楚。
再往上走一層,連商品邊界本身都脫離了“模型”。Salesforce用Flex Credits把動作配額寫進價格體系,Intercom干脆繞開Token,按outcome收費,每個 $0.99,白紙黑字定義什么算一次“有效解決”。
一番搜索后能確定的只有一點:大家根本不是在賣同一種東西。
2026年一月,OpenAI CFO Sarah Friar在官網(wǎng)發(fā)表的《A business that scales with the value of intelligence》中,同時點出了其三條商業(yè)化路徑:訂閱、廣告支撐的免費層、按用量計費的API,還補了一句——未來將擴展到授權(quán)、IP 協(xié)議和按結(jié)果定價。連平臺方自己都不再用單一的“按用量計費”來描述自己了。
在過去,對于各大模型的比拼,行業(yè)里經(jīng)常提到“誰的Token更便宜”的討論,默認了一個前提:行業(yè)已經(jīng)存在一個被廣泛接受的統(tǒng)一計量單位,大家比的只是價格。
但到了2026年4月,目前的現(xiàn)實是——Token早已不是AI賬單里唯一的計費單位。AI商品正在從單一計量項走向多單位并存,企業(yè)的預(yù)算語言隨之被改寫。
因此,本文想討論的不只是Token本身,而是梳理一條完整的變化路徑:從收費方式的變化,到成本結(jié)構(gòu)的分化,再到預(yù)算體系的調(diào)整,看Token經(jīng)濟如何被重新定義。
AI收費,告別“單一Token時代”
如果今天仍有人只討論“哪個模型每百萬Token更貴”,那看到的只是底層供給的一部分。
真實情況是,企業(yè)目前購買的是一段被組織過的智能勞動,裸模型只是其中的一小部分。
它可能同時包含模型推理、搜索、檢索、緩存、上下文駐留、運行時、容器、團隊席位、動作配額,乃至一個被明確定義的“完成件”。AI經(jīng)濟正在經(jīng)歷的,不是一場簡單的價格戰(zhàn),而是計費對象的擴散。
這里最容易出現(xiàn)的誤讀,是把“計費單位變多”等同于“底層模型已經(jīng)不重要”。
但事實恰恰相反:模型仍是底層最核心的供給對象,只是它不再是企業(yè)成本解釋框架里的唯一變量。
一旦系統(tǒng)進入真實工作流,采購者與運營者就必須同時處理 grounding、batch(批量調(diào)用)、regional(區(qū)域路由)、runtime(運行時長)與席位切換,它們在同一張對賬單上爭奪預(yù)算。于是,賬單不再是一列Token的累加,而是一組互相疊加的價格對象。
AI底層大概率會像電力一樣,最終被壓成公用事業(yè):便宜、可計量、不可或缺,但也不再是價值最終停留的地方。
經(jīng)濟史上反復(fù)出現(xiàn)的模式是:電帶來的生產(chǎn)率躍升,遠比“有電就更快”復(fù)雜。讓美國制造業(yè)真正起飛的,是工廠圍繞電重寫了生產(chǎn)組織,而不是電本身變得便宜。
AI成本,從統(tǒng)一定價走向按任務(wù)分化
過去我們習(xí)慣用“每百萬Token多少錢”來理解AI成本,但今天這個錨點已經(jīng)失效——賬單的主角是誰,取決于你在跑什么樣的任務(wù)。
先看一個輕量、高頻、以檢索為主的企業(yè)問答任務(wù)。
以Google Gemini 2.5 Flash-Lite標準檔估算,5,000 input + 1,000 output Tokens,Token成本約 0.0009 美元;若同一次調(diào)用附帶一次 grounded prompt,超出每日免費額度后,單次grounding價格為 0.035 美元,是Token成本的近四十倍。
在這類工作負載里,主導(dǎo)賬單的是search / grounding這類外層能力,模型推理本身反而退居二線。
然而,如果換成更強的前沿模型,圖景就完全不同。
以O(shè)penAI GPT-5.4 標準檔為例,5,000 input + 1,000 output Tokens約0.0275美元;一次web search的tool call fee為 0.01 美元(search content Tokens 另按模型費率計);一次 1GB container session 為 0.03 美元。此時模型成本仍與工具調(diào)用處于同一數(shù)量級,在許多推理密集任務(wù)中甚至占大頭。
再看Anthropic官方給出的 Claude Managed Agents worked example:一個一小時的Opus 4.6 coding session,50,000 input + 15,000 output的Token成本是0.625美元,session runtime僅0.08美元。runtime已經(jīng)進入了商品列表,但遠未“壓倒”模型成本。
三個例子合起來指向同一件事:成本的大頭在哪,取決于你讓AI干什么樣的活。
通俗的理解,你讓AI查資料,錢主要花在搜索上;讓它動腦子,錢主要花在模型上;讓它一直在后臺干活,“開機時長”本身就是一筆賬,所以根本不存在一張能通用的“AI單位成本”表。所以AI經(jīng)濟的演變,不能被簡化成“工具吃掉模型”或“模型吞噬一切”這種非黑即白的故事。
更準確的說法是:買方必須開始按不同任務(wù)形態(tài)去理解total cost(總成本),不再假定存在一個統(tǒng)一的成本錨。
這件事的后果,比“算術(shù)變復(fù)雜”要大得多。一旦計費單位裂變,原本用“每百萬Token 多少錢”就能對賬的人,現(xiàn)在必須同時理解search成本、cache命中率、runtime時長與 regional 溢價。
預(yù)算口徑從一維變成多維,采購的比較軸也隨之改寫——從“誰的Token更便宜”,變成“在我的工作負載下,誰的綜合成本更低”。計費單位的裂變,正在倒逼企業(yè)重寫自己理解AI 支出的方式。
中國市場提供了一個“反向參照”。比如2024年國內(nèi)大模型價格戰(zhàn)打得異常慘烈,部分廠商降價超過97%,推理毛利一度跌至負數(shù),但整場戰(zhàn)爭的敘事始終只圍繞一件事:誰的百萬 token 更便宜。
runtime、grounding、outcome這些在美國價格頁上已經(jīng)獨立成行的維度,目前在中國仍處于早期。當所有玩家都擠在同一個計量單位上競爭,負毛利就不是意外,而是結(jié)構(gòu)性的終點。
價格頁先變,企業(yè)的預(yù)算體系也需跟上
計費單位的變化,最先出現(xiàn)在價格頁上,最后才會反映到平臺的營收盤子里。而夾在中間、最先被迫跟著調(diào)整的,是企業(yè)自己的預(yù)算表。
到目前為止,沒有可靠的公開數(shù)據(jù)能證明OpenAI、Google或Anthropic的tool/storage/runtime營收已經(jīng)超過model/Token營收。
所以,一家公司在價格頁上加了多少新收費項,不代表他們的錢真的就是從那些新項目里掙回來的,這兩件事不能畫等號,還需要進一步等數(shù)據(jù)說話。
當前真正能確認的是:賣方的定價語言已經(jīng)先變了,買方的預(yù)算口徑?jīng)]辦法繼續(xù)停在Token這一列上。
這其中的道理也不言而喻:當官方價格頁已經(jīng)把tool call(工具調(diào)用)、session runtime(會話運行時長)、outcome (結(jié)果)各自獨立定價,企業(yè)的對賬單就不可能再維持成一列Token,否則賣方給的賬單和買方的內(nèi)部核算對不上。
Token不再是唯一的主角,它更像是底層的一種計量單位。真正影響賬單的,是推理、搜索、緩存、運行時、席位、動作、結(jié)果這些疊在一起的成本。
文章開頭Sarah Friar那句順口提到的“未來還會擴展到授權(quán)、IP 協(xié)議、按結(jié)果定價”,其實就是這件事在OpenAI自己眼里的翻譯——他們比任何人都更清楚,自己正在賣的不只是Token。
一旦買方的預(yù)算框架跟著調(diào)整,一些原本被忽視的東西會重新浮出水面。比如:
Model router不再只是“幫你挑哪個模型最合適”,而是在悄悄決定整張賬單的結(jié)構(gòu)——選錯一層,預(yù)算的重心就會整體偏移;
Salesforce的Flex Credits賣的不是某一次具體調(diào)用,而是一份可以在不同動作、場景、團隊之間自由調(diào)撥的“使用權(quán)”;
Outcome pricing的真正吸引力,在于它把預(yù)算直接綁在“完成件”上。企業(yè)第一次可以用結(jié)果,而不是過程,來和供應(yīng)商對賬。
新的計費單位或許還沒改寫賣方的收入結(jié)構(gòu),但它們已經(jīng)在改寫企業(yè)內(nèi)部看待AI的方式。而一旦組織用新的語言理解自己的 AI 支出,預(yù)算最終流向哪一層、沉淀在哪一層,就不再是一張模型排行榜能決定的事了。
當計費單位裂變,價值開始分層
把視野再拉遠一點,如果計費單位已經(jīng)不只是token,那“錢到底會沉淀在哪一層”這件事,就得分層去看。
我自己的一個梳理方式去做理解,是把整個AI經(jīng)濟看成一套五層結(jié)算棧。當成一張正在成型的產(chǎn)業(yè)結(jié)構(gòu)圖來看,本系列接下來幾篇會沿著這個框架逐層展開:

? 第一層 · 公用事業(yè)層:算力、Token、緩存、搜索、容器、文件檢索,可計量、可路由的“認知吞吐量”
? 第二層 · 協(xié)議與能力層:MCP、A2A、Agent Skills 這類讓模型、工具、數(shù)據(jù)源和agent 互操作的共同接口
? 第三層 · 知識封裝層:Skill、Prompt、Eval、Policy、Memory,把行業(yè)know-how序列化下來
? 第四層 · 執(zhí)行交付層:被托管、觀測、監(jiān)控的“數(shù)字勞動力”,marketplace正把agent 從“下載”變成“調(diào)用”
? 第五層 · 結(jié)果與責(zé)任層:Intercom的$0.99 per outcome是最明確的公開信號之一,“被完成的工作”開始成為合同化的結(jié)算對象
如果把這五層放在一起看,會出現(xiàn)一個很清晰的分布規(guī)律:越靠下,越容易被單位化和路由化;越靠上,越深地嵌入上下文、驗收和責(zé)任。
對應(yīng)的商業(yè)模式也隨之分化——底層依賴規(guī)模和效率,買方按成本比價;上層依賴不可替代性,買方按結(jié)果付費。這兩種模式都可以成立,但它們的“價格錨”完全不同。前者錨定投入成本,后者錨定創(chuàng)造的價值。
Token經(jīng)濟,不再只關(guān)于Token
總之,今天再談Token經(jīng)濟學(xué),不再是簡單的“Token 單價走勢”,更值得研究的是:Token作為底層計量顆粒,正在怎樣與search、cache、runtime、seat、outcome這些更高層的單位一起,重寫企業(yè)對 AI 的預(yù)算語言。換句話說:Token還在,但它已經(jīng)不能單獨解釋這門生意。
當然,這并不意味著Token不重要。
底層資源層依然可能是最大的利潤池,甚至?xí)霈F(xiàn)高度集中的贏家。但到了2026年,如果想理解AI商業(yè)化的變化,只盯著Token,已經(jīng)看不全了。問題從“Token多便宜”,變成了:整張賬單是怎么被構(gòu)成的。
那接下來應(yīng)該看什么?比預(yù)測時間表更有意義的,是觀察一些正在出現(xiàn)的信號:
第一,企業(yè)合同里,是否開始出現(xiàn)SLA、數(shù)據(jù)駐留、緩存策略、責(zé)任邊界這些條款,而不再只談Token單價。這意味著,買賣雙方開始圍繞“系統(tǒng)”和“責(zé)任”對齊,而不是單一資源。
第二,marketplace(Agent 商店/市場)上,是否開始出現(xiàn)帶eval card的agent服務(wù)。也就是,“結(jié)果是否可被評估”,開始成為商品定義的一部分。
第三,是否出現(xiàn)第三方的審計、認證和爭議處理服務(wù)。這是“按結(jié)果結(jié)算”走向合同化之前,必須補上的最后一塊基礎(chǔ)設(shè)施。
到2027年底,如果這三條里有兩條以上落地,那么可以基本確認一件事:結(jié)算對象正在從Token向更高層上移。
Anthropic在4月7日以“invitation-only”的方式發(fā)布了Mythos(預(yù)覽版),而與此同時,工作層模型的價格仍在持續(xù)下降。
一邊是前沿能力不斷集中,一邊是工作層持續(xù)商品化。
成本在下沉,價值在上移。
這兩條看似相反的變化,其實指向同一個方向:AI的價格正在走向分層,而價值也在隨之重新分配。
當Token不再是唯一的計量單位,當賬單被拆分成多種成本結(jié)構(gòu),企業(yè)最終為哪一層買單,就會決定價值沉淀在哪一層。
至于這種“成本下沉、價值上移”的結(jié)構(gòu),是如何在同一個體系中同時成立的,我們將在后續(xù)的解讀中再逐一展開。