亚洲+综合久久+成人av_日韩精品中文字幕无码一区密挑_茄子视频下载安装无限看苏州晶体公司_永久免费观看揉美女网站_亚洲视频免费的一区_欧美成人怡红院在线观看_欧美 中文字幕_国产盗撮无码短视频

中國科協(xié)| 智鏈研究院| 機構(gòu)簡介| 申請加入| 資料下載

創(chuàng)新力服務(wù)平臺

INNOVATION CAPABILITY SERVICE PLATFORM

首頁 > 資訊 > 智鏈研究 > 正文

Token計算:未來十年的成本戰(zhàn)爭

“Token經(jīng)濟”,正在成為AI行業(yè)近期最熱的關(guān)鍵詞之一。

當OpenClaw(俗稱“龍蝦”)成為全民關(guān)注點,引發(fā)了各大廠商加入“龍蝦潮”,Token的消耗開始呈現(xiàn)出指數(shù)級的增長趨勢。

有開發(fā)者社區(qū)和社交平臺上開始頻繁出現(xiàn)對比表,在不同模型上的Token消耗是多少、輸出質(zhì)量差異如何、折算下來“每千Token成本”誰最低。

但如果真的試圖用Token去算一筆賬,很快就會發(fā)現(xiàn),事情已經(jīng)沒有那么簡單了。

前幾天,一個做財務(wù)的朋友問我:他們的agent每天幾十萬次調(diào)用,一個月到底要花多少錢?

這個問題聽起來很基礎(chǔ),看似非常簡單,可以通過“Token×單價×調(diào)用次數(shù)”來計算。

但是,當我翻開Anthropic的價格頁打算粗算的時候,結(jié)果犯難了。

Claude Managed Agents的session runtime(會話運行時長)按$0.08/session-hour(每會話·小時)獨立計費,cache write(緩存寫入)和cache hit(緩存命中)各有不同檔位的乘數(shù),跟Token根本不在一個維度上。

于是我把幾家主流平臺的價格頁逐一翻了一遍,發(fā)現(xiàn)這件事遠不是一道“干凈的算術(shù)題”:

比如OpenAI的價格頁更像一張資源總賬。Token之外,web search(聯(lián)網(wǎng)搜索)按千次調(diào)用收費,container按session (會話持續(xù)時間)時長收費,file search storage(文件檢索存儲)按GB/天收費,regional processing再疊一層10%。

Google Gemini收斂一些,但grounding(搜索增強)和context caching(上下文緩存)也各自被單列為獨立計價項。

Anthropic三檔緩存乘數(shù)疊一個session runtime(會話運行時長),又是另一套維度。三家已經(jīng)沒法用同一個公式算清楚。

再往上走一層,連商品邊界本身都脫離了“模型”。Salesforce用Flex Credits把動作配額寫進價格體系,Intercom干脆繞開Token,按outcome收費,每個 $0.99,白紙黑字定義什么算一次“有效解決”。

一番搜索后能確定的只有一點:大家根本不是在賣同一種東西。

2026年一月,OpenAI CFO Sarah Friar在官網(wǎng)發(fā)表的《A business that scales with the value of intelligence》中,同時點出了其三條商業(yè)化路徑:訂閱、廣告支撐的免費層、按用量計費的API,還補了一句——未來將擴展到授權(quán)、IP 協(xié)議和按結(jié)果定價。連平臺方自己都不再用單一的“按用量計費”來描述自己了。

在過去,對于各大模型的比拼,行業(yè)里經(jīng)常提到“誰的Token更便宜”的討論,默認了一個前提:行業(yè)已經(jīng)存在一個被廣泛接受的統(tǒng)一計量單位,大家比的只是價格。

但到了2026年4月,目前的現(xiàn)實是——Token早已不是AI賬單里唯一的計費單位。AI商品正在從單一計量項走向多單位并存,企業(yè)的預(yù)算語言隨之被改寫。

因此,本文想討論的不只是Token本身,而是梳理一條完整的變化路徑:從收費方式的變化,到成本結(jié)構(gòu)的分化,再到預(yù)算體系的調(diào)整,看Token經(jīng)濟如何被重新定義。

AI收費,告別“單一Token時代”

如果今天仍有人只討論“哪個模型每百萬Token更貴”,那看到的只是底層供給的一部分。

真實情況是,企業(yè)目前購買的是一段被組織過的智能勞動,裸模型只是其中的一小部分。

它可能同時包含模型推理、搜索、檢索、緩存、上下文駐留、運行時、容器、團隊席位、動作配額,乃至一個被明確定義的“完成件”。AI經(jīng)濟正在經(jīng)歷的,不是一場簡單的價格戰(zhàn),而是計費對象的擴散。

這里最容易出現(xiàn)的誤讀,是把“計費單位變多”等同于“底層模型已經(jīng)不重要”。

但事實恰恰相反:模型仍是底層最核心的供給對象,只是它不再是企業(yè)成本解釋框架里的唯一變量。

一旦系統(tǒng)進入真實工作流,采購者與運營者就必須同時處理 grounding、batch(批量調(diào)用)、regional(區(qū)域路由)、runtime(運行時長)與席位切換,它們在同一張對賬單上爭奪預(yù)算。于是,賬單不再是一列Token的累加,而是一組互相疊加的價格對象。

AI底層大概率會像電力一樣,最終被壓成公用事業(yè):便宜、可計量、不可或缺,但也不再是價值最終停留的地方。

經(jīng)濟史上反復(fù)出現(xiàn)的模式是:電帶來的生產(chǎn)率躍升,遠比“有電就更快”復(fù)雜。讓美國制造業(yè)真正起飛的,是工廠圍繞電重寫了生產(chǎn)組織,而不是電本身變得便宜。

AI成本,從統(tǒng)一定價走向按任務(wù)分化

過去我們習(xí)慣用“每百萬Token多少錢”來理解AI成本,但今天這個錨點已經(jīng)失效——賬單的主角是誰,取決于你在跑什么樣的任務(wù)。

先看一個輕量、高頻、以檢索為主的企業(yè)問答任務(wù)。

以Google Gemini 2.5 Flash-Lite標準檔估算,5,000 input + 1,000 output Tokens,Token成本約 0.0009 美元;若同一次調(diào)用附帶一次 grounded prompt,超出每日免費額度后,單次grounding價格為 0.035 美元,是Token成本的近四十倍。

在這類工作負載里,主導(dǎo)賬單的是search / grounding這類外層能力,模型推理本身反而退居二線。

然而,如果換成更強的前沿模型,圖景就完全不同。

以O(shè)penAI GPT-5.4 標準檔為例,5,000 input + 1,000 output Tokens約0.0275美元;一次web search的tool call fee為 0.01 美元(search content Tokens 另按模型費率計);一次 1GB container session 為 0.03 美元。此時模型成本仍與工具調(diào)用處于同一數(shù)量級,在許多推理密集任務(wù)中甚至占大頭。

再看Anthropic官方給出的 Claude Managed Agents worked example:一個一小時的Opus 4.6 coding session,50,000 input + 15,000 output的Token成本是0.625美元,session runtime僅0.08美元。runtime已經(jīng)進入了商品列表,但遠未“壓倒”模型成本。

三個例子合起來指向同一件事:成本的大頭在哪,取決于你讓AI干什么樣的活。

通俗的理解,你讓AI查資料,錢主要花在搜索上;讓它動腦子,錢主要花在模型上;讓它一直在后臺干活,“開機時長”本身就是一筆賬,所以根本不存在一張能通用的“AI單位成本”表。所以AI經(jīng)濟的演變,不能被簡化成“工具吃掉模型”或“模型吞噬一切”這種非黑即白的故事。

更準確的說法是:買方必須開始按不同任務(wù)形態(tài)去理解total cost(總成本),不再假定存在一個統(tǒng)一的成本錨。

這件事的后果,比“算術(shù)變復(fù)雜”要大得多。一旦計費單位裂變,原本用“每百萬Token 多少錢”就能對賬的人,現(xiàn)在必須同時理解search成本、cache命中率、runtime時長與 regional 溢價。

預(yù)算口徑從一維變成多維,采購的比較軸也隨之改寫——從“誰的Token更便宜”,變成“在我的工作負載下,誰的綜合成本更低”。計費單位的裂變,正在倒逼企業(yè)重寫自己理解AI 支出的方式。

中國市場提供了一個“反向參照”。比如2024年國內(nèi)大模型價格戰(zhàn)打得異常慘烈,部分廠商降價超過97%,推理毛利一度跌至負數(shù),但整場戰(zhàn)爭的敘事始終只圍繞一件事:誰的百萬 token 更便宜。

runtime、grounding、outcome這些在美國價格頁上已經(jīng)獨立成行的維度,目前在中國仍處于早期。當所有玩家都擠在同一個計量單位上競爭,負毛利就不是意外,而是結(jié)構(gòu)性的終點。

價格頁先變,企業(yè)的預(yù)算體系也需跟上

計費單位的變化,最先出現(xiàn)在價格頁上,最后才會反映到平臺的營收盤子里。而夾在中間、最先被迫跟著調(diào)整的,是企業(yè)自己的預(yù)算表。

到目前為止,沒有可靠的公開數(shù)據(jù)能證明OpenAI、Google或Anthropic的tool/storage/runtime營收已經(jīng)超過model/Token營收。

所以,一家公司在價格頁上加了多少新收費項,不代表他們的錢真的就是從那些新項目里掙回來的,這兩件事不能畫等號,還需要進一步等數(shù)據(jù)說話。

當前真正能確認的是:賣方的定價語言已經(jīng)先變了,買方的預(yù)算口徑?jīng)]辦法繼續(xù)停在Token這一列上。

這其中的道理也不言而喻:當官方價格頁已經(jīng)把tool call(工具調(diào)用)、session runtime(會話運行時長)、outcome (結(jié)果)各自獨立定價,企業(yè)的對賬單就不可能再維持成一列Token,否則賣方給的賬單和買方的內(nèi)部核算對不上。

Token不再是唯一的主角,它更像是底層的一種計量單位。真正影響賬單的,是推理、搜索、緩存、運行時、席位、動作、結(jié)果這些疊在一起的成本。

文章開頭Sarah Friar那句順口提到的“未來還會擴展到授權(quán)、IP 協(xié)議、按結(jié)果定價”,其實就是這件事在OpenAI自己眼里的翻譯——他們比任何人都更清楚,自己正在賣的不只是Token。

一旦買方的預(yù)算框架跟著調(diào)整,一些原本被忽視的東西會重新浮出水面。比如:

Model router不再只是“幫你挑哪個模型最合適”,而是在悄悄決定整張賬單的結(jié)構(gòu)——選錯一層,預(yù)算的重心就會整體偏移;

Salesforce的Flex Credits賣的不是某一次具體調(diào)用,而是一份可以在不同動作、場景、團隊之間自由調(diào)撥的“使用權(quán)”;

Outcome pricing的真正吸引力,在于它把預(yù)算直接綁在“完成件”上。企業(yè)第一次可以用結(jié)果,而不是過程,來和供應(yīng)商對賬。

新的計費單位或許還沒改寫賣方的收入結(jié)構(gòu),但它們已經(jīng)在改寫企業(yè)內(nèi)部看待AI的方式。而一旦組織用新的語言理解自己的 AI 支出,預(yù)算最終流向哪一層、沉淀在哪一層,就不再是一張模型排行榜能決定的事了。

當計費單位裂變,價值開始分層

把視野再拉遠一點,如果計費單位已經(jīng)不只是token,那“錢到底會沉淀在哪一層”這件事,就得分層去看。

我自己的一個梳理方式去做理解,是把整個AI經(jīng)濟看成一套五層結(jié)算棧。當成一張正在成型的產(chǎn)業(yè)結(jié)構(gòu)圖來看,本系列接下來幾篇會沿著這個框架逐層展開:

? 第一層 · 公用事業(yè)層:算力、Token、緩存、搜索、容器、文件檢索,可計量、可路由的“認知吞吐量”

? 第二層 · 協(xié)議與能力層:MCP、A2A、Agent Skills 這類讓模型、工具、數(shù)據(jù)源和agent 互操作的共同接口

? 第三層 · 知識封裝層:Skill、Prompt、Eval、Policy、Memory,把行業(yè)know-how序列化下來

? 第四層 · 執(zhí)行交付層:被托管、觀測、監(jiān)控的“數(shù)字勞動力”,marketplace正把agent 從“下載”變成“調(diào)用”

? 第五層 · 結(jié)果與責(zé)任層:Intercom的$0.99 per outcome是最明確的公開信號之一,“被完成的工作”開始成為合同化的結(jié)算對象

如果把這五層放在一起看,會出現(xiàn)一個很清晰的分布規(guī)律:越靠下,越容易被單位化和路由化;越靠上,越深地嵌入上下文、驗收和責(zé)任。

對應(yīng)的商業(yè)模式也隨之分化——底層依賴規(guī)模和效率,買方按成本比價;上層依賴不可替代性,買方按結(jié)果付費。這兩種模式都可以成立,但它們的“價格錨”完全不同。前者錨定投入成本,后者錨定創(chuàng)造的價值。

Token經(jīng)濟,不再只關(guān)于Token

總之,今天再談Token經(jīng)濟學(xué),不再是簡單的“Token 單價走勢”,更值得研究的是:Token作為底層計量顆粒,正在怎樣與search、cache、runtime、seat、outcome這些更高層的單位一起,重寫企業(yè)對 AI 的預(yù)算語言。換句話說:Token還在,但它已經(jīng)不能單獨解釋這門生意。

當然,這并不意味著Token不重要。

底層資源層依然可能是最大的利潤池,甚至?xí)霈F(xiàn)高度集中的贏家。但到了2026年,如果想理解AI商業(yè)化的變化,只盯著Token,已經(jīng)看不全了。問題從“Token多便宜”,變成了:整張賬單是怎么被構(gòu)成的。

那接下來應(yīng)該看什么?比預(yù)測時間表更有意義的,是觀察一些正在出現(xiàn)的信號:

第一,企業(yè)合同里,是否開始出現(xiàn)SLA、數(shù)據(jù)駐留、緩存策略、責(zé)任邊界這些條款,而不再只談Token單價。這意味著,買賣雙方開始圍繞“系統(tǒng)”和“責(zé)任”對齊,而不是單一資源。

第二,marketplace(Agent 商店/市場)上,是否開始出現(xiàn)帶eval card的agent服務(wù)。也就是,“結(jié)果是否可被評估”,開始成為商品定義的一部分。

第三,是否出現(xiàn)第三方的審計、認證和爭議處理服務(wù)。這是“按結(jié)果結(jié)算”走向合同化之前,必須補上的最后一塊基礎(chǔ)設(shè)施。

到2027年底,如果這三條里有兩條以上落地,那么可以基本確認一件事:結(jié)算對象正在從Token向更高層上移。

Anthropic在4月7日以“invitation-only”的方式發(fā)布了Mythos(預(yù)覽版),而與此同時,工作層模型的價格仍在持續(xù)下降。

一邊是前沿能力不斷集中,一邊是工作層持續(xù)商品化。

成本在下沉,價值在上移。

這兩條看似相反的變化,其實指向同一個方向:AI的價格正在走向分層,而價值也在隨之重新分配。

當Token不再是唯一的計量單位,當賬單被拆分成多種成本結(jié)構(gòu),企業(yè)最終為哪一層買單,就會決定價值沉淀在哪一層。

至于這種“成本下沉、價值上移”的結(jié)構(gòu),是如何在同一個體系中同時成立的,我們將在后續(xù)的解讀中再逐一展開。


最新資訊

智鏈研究院助力九牧集團成立企業(yè)科協(xié)

2026年5月15日,九牧集團有限公司科學(xué)技術(shù)協(xié)會(以下簡稱“九牧科協(xié)”)成立暨第一次會員代表大會在廈門隆重召開。作為九牧科協(xié)籌備工作的深度參與方,智鏈信息技術(shù)研究院(以下簡稱“智鏈研究院”)

661
醫(yī)療器械產(chǎn)業(yè)集群的創(chuàng)新路徑

(本文原標題:用戶驅(qū)動技術(shù)創(chuàng)新——以醫(yī)療器械產(chǎn)業(yè)集群為例)一、中國產(chǎn)業(yè)集群的發(fā)展偏差與本質(zhì)回歸中國制造業(yè)已連續(xù)15年全球第一,在國際市場中的地位越來越高。梳理中國具備全球競爭優(yōu)勢的產(chǎn)

563
智鏈分析:豆包為何終結(jié)“免費午餐”

豆包的“免費午餐”吃到頭了。2026年5月4日,這款月活3.45億的國民級AI助手悄然在蘋果應(yīng)用商店掛出了三檔付費訂閱價格——標準版68元/月、加強版200元/月、專業(yè)版500元/月,連續(xù)包年最高標到了5

987
第四代自主超導(dǎo)量子計算機“本源悟空-180”上線

記者今天(9日)從安徽省量子計算芯片重點實驗室獲悉,搭載單核180個計算比特自主超導(dǎo)量子芯片的“本源悟空-180”量子計算機已上線運行,今日起開始接收全球量子計算任務(wù)。第四代自主超導(dǎo)量子計

340
AI時代佛山如何突圍?

在粵港澳大灣區(qū)的版圖上,佛山曾經(jīng)是一個令人艷羨的“模范生”。這座以“有家就有佛山造”聞名的制造業(yè)重鎮(zhèn),憑借家電、陶瓷、家具等泛家居產(chǎn)業(yè),長期穩(wěn)坐“廣東經(jīng)濟第三城”的位子。然而,2025

388
從蘭大骨干離職看西部人才流失本質(zhì)

一位本碩博均就讀于蘭州大學(xué)、并在母校任教多年的“國家杰出青年科學(xué)基金”獲得者,最終選擇離開,入職一所東部非“雙一流”高校。其直接動因,是學(xué)院計劃搬遷至距市區(qū)40公里、配套停滯二十余年

612

更新文章

48小時
|
閱讀排行