《Token是怎么计算的》（文字、图片、音频、视频分类讲解，非常详细的白话文讲解。【AI时代必知】）

阅读引导：下方提供目录，各位阅读者可以进行跳跃式快速阅读，如果您感兴趣Token的计算和计费，那么4~7都值得阅读。

写作目标：手写七千余字，篇幅较长，建议阅读不完，可以先存起来。为什么要纯手写，尽量不参考其他书籍，因为我想通过自己的思考将信息简单化后，传达给那些想了解AI的人，而不仅仅是那些专业人士，可是参考了其他书籍，必然会将专业的术语在不经意间表露出来。

1.写作目的（想看就看看，不看也可以）

2.关键信息（很重要，需要看一眼）⭐️⭐️⭐️

3.开篇（注意看颜色，主要说了后续正文叙事结构）

4.Token的计费公式 ⭐️⭐️⭐️⭐️⭐️

5.什么情况下会产生Token消耗⭐️⭐️⭐️⭐️⭐️

6.Token数量是怎么计算的？（比如：文字怎么算？图片、音频、视频又是怎么算的呢？）⭐️⭐️⭐️⭐️⭐️

7.如何降低Token消耗⭐️⭐️⭐️⭐️

一、写作目的（这个部分想看就看，可以不看，嘻嘻嘻）

随着技术的发展，Token的成本肯定会越来越低，部分人工智能应用会持续免费，但是绝大部分还是要逐步收费的。尤其是垂直领域的AI应用，比如：编程、法律、医疗、教育、学术、设计等等。如果存在免费，大概率会存在数量的限制、速率的限制、功能的阉割，甚至是隐私的妥协等等。那么，我们很多人将来都极有可能面临为AI付费换取效率的情况，所以，了解AI计量单位Token在什么场景下会计费，计费原理是什么以及如何计费就非常重要了。

二、关键信息：Token是什么

这个部分我会在文中进行简单的讲解，如果想详细了解Token是什么，请看我上一篇文章《Token是什么》

三、开篇：

首先，我们要明确的是Token是大模型API的”货币单位”，几乎所有的主流AI服务都采用了按Token消耗的计费模式，当然，随着技术的发展，部分厂商推出了按时间收费或者按任务次数收费等等其他计费方式。但是，本质上他们都是通过对Token的消耗预计来核算费用的。当你让AI执行任务的时候，我们要让每一个Token的消耗变得有意义，这就要求我们在完成任务的前提下，降低Token的消耗量。换句话说，就是要提高Token的利用率。要想合理利用Token并提高Token的利用率，我们就需要掌握四件事情，分别是：

第一：Token的计费公式

第二：什么情况下会产生Token消耗

第三：Token数量是怎么计算的，单价又是多少？（比如：文字怎么算？图片、音频、视频又是怎么算的呢？）

第四：如何降低Token消耗

四、我们先来看第一件事情：Token的计费公式

费用= 输入 Token 数量 × 输入单价 + 输出 Token 数量 × 输出单价 + 其他特殊 Token 费用

切记一定不要认为公式是费用= （输入 Token 数量 + 输出 Token 数量） × Token单价。因为在大模型计费的时候，采用的是“ 非对称计费 ” 方式，简单点说就是输入Token、输出Token和其他特殊Toke的单价是不一样的。

备注：在公式中出现的其他特殊Token指的是对非纯文本内容进行处理时产生的额外Token消耗。话句话说，这些内容无法直接以文字Token数衡量，需要经过预处理或特殊编码，因此会单独计算费用。比如：你上传的图片、视频、音频或者文档等，你生成的代码，图片，视频，又或者联网搜索等。后面，我们会详细讲解。

五、我们再来看第二件事情：什么情况下会产生Token消耗

肯定有小伙伴会问，我们在使用AI应用的时候，哪一些情况下会消耗Token呢？一般有四种情况会产生Token的消耗。

1. 显性消耗：你来我往的对话中

这个部分是最容易理解的，就是你和AI大模型（比如：deepseek、Gemini、chatGPT等）之间的对话。

输入：你发给AI 的每一句话、每一个指令（也就是我们所说的Prompt提示词）都会消耗token。

输出：AI 给你的回复的每一句、每一段代码或者是每一个总结都会消耗token。

这种消耗比较好理解，因为我们看得见摸得着。并且这里的消耗都是成正比的，比如：你让AI给你写一篇5000字的小说消耗的token肯定要比写一篇3000字的小说消耗的token要多的多。

记住，你消耗的越多那么你花费的就越多，很多小伙伴肯定想我现在用元宝没任何成本呀，这就是我之前提到的少部分AI应用会免费，大部分AI会收费。随着AI的深入，要想大大提高生产力，就需要用到垂直AI（比如：高质量视频生成、音频合成、编程、法律、医疗等），这时候，token的消耗就会很明显的影响到你的荷包。

2. 隐性消耗：上下文的滚雪球

这是普通用户在使用AI的时候，最容易忽略的Token消耗。这里要给大家普及一个知识，就是大模型本身是没有记忆的，但是很多小伙伴说：“我感觉有记忆啊！”，于是给我举了下面的例子

《Token是怎么计算的》（文字、图片、音频、视频分类讲解，非常详细的白话文讲解。【AI时代必知】）

但是，大家要注意这不是AI的记忆，这是AI把你多次所有的对话都打包，重新发给了AI，并不是真的有记忆。我再详细的说一下，以上图为例，当我在第二次问AI：“我叫什么？我做什么工作？”（上图③）。AI其实发送的是① + ② ＋ ③ 的内容给了AI。而不仅仅是上图③的问题。所以，并不是AI记住了什么，而是我们通过程序将更多的信息发给了AI。

我总结一下上面讲的：

第一：AI是没有记忆的

第二：AI为了造成它有记忆的假象，会把之前所有的对话记录全部打包，重新发送给AI。

所以，随着对话轮数增加，即使你每轮只问一句话，单次消耗的Token 也会呈线性甚至指数级增长，就像滚雪球一样越滚越大。甚至你问一个很简单的问题，都会消耗上万的Token。所以，我们非必要情况下，为了节约Token，我们需要开启新一轮的对话，以“元某宝”为例，点击下图左上角的“新建对话”图标即可。

3. 思维过程的消耗

传统的模型，如chatGPT3.5及之前的版本，你问问题，它直接回答你问题。但是，随着deekseep-R1、OpenAI o1等推理模型的普及，Token的计费逻辑就发生了巨大的结构性变化，简单点说，就是AI不仅仅回答问题需要付费了，连它的思考也要收费了。我们把思考过程消耗的Token，叫做“思维链Token”。注意：在外国很多AI，思考模式的使用是有限额的，超过额度就要收费了，而快速模式基本都是免费的。下图是Gemini对于他自己是否收费的回答。

听到这里大家感觉摸不着看不着，其实，我们在使用AI对话的时候经常可以看到”思考模式”。下图是Gemini3的”快速回答模式①”与”思考模式②”切换界面。

下图是deepseek的快速回答模式②与思考模式①的切换界面，其他产品也大同小异，都是在提问框的右下方有一个下拉框（下图③），选择即可。

到这里，我相信你肯定在思考一个问题，难道思考模式是思考，快速模式下我们的AI大模型就不思考了吗？当然不是，快速模式其实有一个名字叫做“快思考”，而思考模式，相对的也有一个名字，叫做“慢思考”。

快思考下，AI采用的是“预测下一个Token字”的逻辑。它根据计算和概率直接蹦出答案，这个思考的过程更像是人类的直觉。而慢思考下，引入了思维链（Chain of Thought）。其过程包含自我纠错、多路径尝试、逻辑验证。比如它算到一半发现不对，会自己推翻重来。最后给出一个它认为合乎逻辑的回答。这个过程更像是我们拿出了草稿纸在不断的验算，最终给出答案。这个过程肯定要比快思考下消耗资源要多得多。目前的AI产品，如果你选择的是“思考模式”下回答问题，它还会将思考的过程展示给大家，我就非常喜欢看这个过程，有时候，这个过程比答案更令我们有所收获。在下图中，我们可以清晰地看到AI大模型还将思考的过程输出给了我们（下图②）。

在快速模式（即快思考）下和思考模式（即慢思考）下，他们的Token消耗差异是非常大的，慢思考Token的消耗，有的时候可以是快思考模式下的5倍~10倍，甚至是20倍。我们在使用AI的时候，千万不要养成“用大炮打蚊子”的习惯。因为它消耗的不仅仅是时间，更是GPU资源（注：当然现在处理TPU，改天有空我写一下他们的区别）。

思维链Token通常是按“输出单价”计费的（虽然有的模型有优惠），但因为它是“隐形输出”，用户往往在不知不觉中就消耗了大量高价值的输出Token。

4. 系统预设与功能调用

我们先来看“系统预设”(System Prompt)，可以说这类消耗就是你还没开始任何问题，Token已经消耗了。

首先，我们要了解什么是AI大模型的预设？为了让AI表现的像一个专业人士（比如：一位专业的物理老师，一位资深的程序员等等），也是为了后续的回答可以更为贴合实际应用场景，为此，会将这样关于身份角色的描述发给AI大模型。其实这个在AI应用中我们是可以设置的，当然很多人都忽略了。如下图，在下图中①按钮式设置预设按钮，下图中②是让你输入预设的文本框，设置好点击保存就可以了。有了预设后，回答后续问题，AI都会站在你是这个角色的基础下，进行问题的回答。

有很多小伙伴说，我在用AI的时候没有发现预设设置的地方呀。这是因为很多AI产品采用了“动态临时预设”的方式，也就是说它们会根据每一次对话中你的问题及你希望得到什么样的帮助来动态调整回应的方式和重点。

下面我们来看“功能调用”消耗Token的情况，这种Token的消耗主要是为了让AI变得更强而递交的过路费。

举个例子：你提出一个问题，“查询所有关于openclaw的权威论文，并给出总结。” ，这个时候，AI需要联网才可以完成这个事情，就会触发联网搜索这一功能的调用。再比如说：我让AI帮我生成一段代码，而代码的运行也是需要功能调用的（注意：代码还是按照文字计算Token，属于输出的部分，但是，运行代码是需要代码解释器的，为了让代码运行进行复杂计算会产生大量的资源消耗）。当然这样的情况还有很多种，我就不一一列举了。这个时候，我们的Token消耗也会增多非常多。

我以“联网查资料并进行总结”这一常规的应用场景为例，大致给大家说一下Token消耗的情况，具体如下：

第一部分：AI 思考“我需要联网”，产生一段思考 Token（输出）。

第二部分：系统去联网查找相关资料，并搜到论文内容共计20000字，这 20000 字会作为输入喂给AI。

第三部分：AI将这20000字，最终形成总结性文字发回给你。

大家看看这个过程，单单就一次这样的问题，Token的消耗是不是就激增了，如果你不开启新一轮对话，继续不断提问题，那这20000字会滚入后续的对话中。Token的消耗就会变得越来越巨大，而这些都是费用。

六、第三件事情：Token数量是怎么计算的？单价又是多少？

首先，我们要明确的是Token的计算是非常复杂的，为了大家理解起来更容易，我把讲解的场景分为英文、中文以及图片、音频、视频五种。

1. 英文字的Token计算

英文字的token计算是最简单的，我在上一篇入门文章“Token是什么”中讲过了，这里就简单再讲一下。

大模型有一个“核心词汇表”，里面收录了大概3万~10万个Token，这些tokens里面包含了常见的完整单词，也包含了词根、前缀、后缀甚至单个字母。

当大模型处理一个一个英文句子时，一般会有两个步骤：

第一次拆分：通常会先按照空格、标点进行拆分。

第二次拆分：第二次拆分是对单词的拆分，有收录到的完整的单词就不进行拆分，作为一个Token存在。而长或者复杂的英文，大模型会按照词根和后缀进行拆分，可能会被拆分成两个或以上个Token。这意味着一个英文单词一般对应一个Token，一个长单词、复杂单词，会被拆分为2个或者更多个Token，标点符号和空格占一个Token。

还是给大家上一个例子：

Standard → Standard (1 Token)

Standardization → Standard + ization (2 Tokens)

有人做了一个统计，大概1000个Token ≈ 750个英文单词。我们可以用这个预估我们的Token数量。

特别要注意的是大模型对英文的大小写特别的敏感，apple是一个token，但是APPLE可能会被拆成A、PP、LE 三个Token。

特别说明：Token 的计算是理解 LLM 计费的入门基石。

2. 中文字的Token的计算

在前面我们已经讲了英文的Token计算，但是中文不同，也更复杂一些。因为大模型的词表初期是基于英文语料构成的。对中文的收录是有限的。

这涉及模型的编码机制：一个汉字在UTF-8 编码下通常占用3个字节（注：某些特殊符号占2个字节，生僻字占四个字节）。如果模型词表中没有收录某个生僻汉字，它就无法作为一个独立的单元被识别到，这样就会被强行拆解为多个字节单元（Bytes）。因此，一个汉字可能会消耗多个 Token。

为了大家更容易理解，我给大家描述一下当大模型遇到一个汉字时都经历了什么？

第一步：当大模型遇到一个汉字后，首先会先按照UTF-8 编码，将一个汉字转换成 3 个字节（生僻字则是 4 个字节）。

第二步：查找收录了token的词表，比较理想的情况是模型的词表里正好收录了这个汉字，这个时候，这个汉字就是一个token。不理想的情况是，这个汉字没被收录。模型只能退而求其次，去匹配这 3 个字节的一个组合。

第三步：这个组合会被切成两个碎片，每个碎片记作一个token，因此，这个汉字就占两个token。

我想你可能已经想到，如果大模型收录的中文词汇多，那么token计算出来就会少。国内有很多大模型会将一些高频的词汇收录到大模型的词表库中。比如：如果在大模型的词表库中收录了“人工智能”这个词。那么，哪怕人工智能是四个汉字，也会被认为是一个token。

注意：中文标点符号如果没有被大模型词表库收录，则也是占用两个token哦~~

3. 图片的Token的计算

图片与文本不同，模型必须先将它们切片，再将其转换为等效的token。我们已经发现了，token在图片这里的计数逻辑不是按照个数，而是按照图像划分的像素块来量化的。

模型一般提供两种处理图像的模式，分别是“低分辨率模式”和“高分辨率模式”。

我们先来看低分辨率模式：

无论原图尺寸多大、分辨率多高，模型都会将其缩放为一个统一的较小尺寸（例如：512 × 512像素）进行快速处理。并将token的消耗统一记为85tokens。

下面，我们再来看高分辨率模式：

这是默认且最常用的模式，模型会尽量保留图像的细节。计算过程分为复杂的三个步骤：

第一步：等比例缩放

模型为了平衡计算量和清晰度，会先对你发送给大模型的大图进行二次采样：确保短边不超过768像素，长边不超过2048像素。为了方便理解，我来举一个例子：

如果你上传一张1024 ×1024 像素的图给大模型，大模型会把他等比例缩放成768×768像素。

第二步：切块采样

这一步是计费的关键。模型会将缩放后的图片，切割成一个个512 × 512 像素的方块。不满512像素的部分，也会被按照一个完整的块计算。

我们接第一步，第一步中已经把图缩放成768×768像素了。先来看横向，需要 768 ÷ 512 ≈ 1.5，向上取整，得到2。再来看纵向，同样需要768 ÷ 512 ≈ 1.5，向上取整，得到2。那么总的切换数 = 2 × 2 = 4 。

第三步：计算tokens

最终的tokens消耗将会按照两个部分来计算，第一部分是切块成本，每个方块消耗 170 Tokens。第二部分是基础成本，固定85tokens基础处理费用。

我们继续第二步，最终处理我们上传的1024 ×1024 的图，需要：

总tokens = （ 4块 × 170tokens ） + 85tokens。

我们来实战一下：

正方形150×150像素的图需要多少tokens？ 1×170 + 85 = 255 tokens

再来一个难点的实战一下：

长方形1920×1080像素的图需要多少tokens？

第一步，缩放后的尺寸为1356×768像素

第二步：切换数为1356÷512并向上取整数，为3 ； 768÷512并向上取整数，为2，所以切换数为 3×2 = 6块。

第三步：套入公式6×170 + 85 = 1150tokens。

大家注意了，这只是这张图消耗的tokens，不包括你的中文指令、缓存、预设等等所消耗的tokens。我相信大家也可以想到，为什么一张图只是裁了一个边，就有可能少消耗很多Token了。

4. 音频的Token的计算

音频的token计算又不同了，这是很好玩的，它是将连续的模拟信号离散化，转换成“时间切片”。是不是听上去很难，其实，很简单。你发送一个音频给大模型，大模型在处理这段音频的时候，会将它拆解成一个个微小的声音片段，一般情况下是20毫秒到50毫秒，具体要看模型。每个模型会给这一个切片一个预设的tokens数。比如：20毫秒为1token，这样一秒时长的音频消耗50tokens。但是，按照毫秒计费太麻烦了，所以，现在的大模型都会换算成秒进行计算，并且会给消费者明确一秒钟消耗多少tokens。

音频tokens计算公式：总tokens = 音频时长（秒） × 每秒预设的tokens数

5. 视频的Token计算

视频tokens的计算是最复杂的，它是图像 + 音频 + 时间维度的叠加强化，听上去，很难理解，我给大家一个基本正确的公式：

总tokens = （时长 × 视觉采样率 × 每帧tokens ） + （时长 × 每秒音频tokens ）

我们先来分析视频（画面）的部分：

很多剪辑软件里面，视频每秒30帧或者60帧，但是，模型不会像播放器那样每秒抽 30 或 60 帧，那样计算量太恐怖了，token消耗的就太多了。

默认情况下可以每秒只抽一帧（注意：可以抽不止一帧，当然模型资源就消耗的更多，tokens也就消耗的更多）。

抽出来的这一帧画面，也是分为高清画面模式和低清画面模式，高清画面模式（相当于一个高清图）每帧越定为260左右tokens，低清画面模式每帧约65左右tokens。

音频部分的tokens消耗的计算和我们上面讲的是一样的，每秒厂商会给你固定的tokens计算。

七、第四件事情：如何降低Token消耗

在降低Token消耗这个问题上，我们也是分成文字、图片、音频和视频四类来进行讨论。

第一类：文字模态

文字虽然单价比较低，但对话往复次数过多，使用的时候不注意，累积成本也会非常多。很多小伙伴可能会说，我在使用国内AI应用时也没有什么费用呀，那是你只是用它进行了文本对话。如果你是独立开发者、AI agent深度使用者、需要集成AI的企业、AI提供商、爱好者或者研究者等等（比如：最近N多人都在玩小龙虾），那么，你就要非常关注token的消耗了。

第一：提问的时候不要用礼貌用语，比如：请，谢谢等，也不用夸奖它等情绪上的语言表达。AI只需要结构性的指令。

第二：不要总是在一个对话框里聊。当话题转换时，及时开启新的对话。

第三：利用缓存技术，当然这主要是对开发者说的。

第二类：图片模态

我们在前面讲过了图片是如何计算token的，那么我们想要降低关于图片的token消耗，优化的核心在于减少切块。

第一：如果一张图中，我们只想让AI读取一部分内容进行分析，那么我们就裁切这张图的局部即可。

第二：如果是开发者，那我们可以在调用API的时候，强制为低细节模式。这个我们也在前面讲过了，这样无论图片是什么样，都大概率只按照85tokens计费。尤其适合识别图片中有什么的任务。

第三：进行图片尺寸的预处理，可以提前手动将图片长边压缩到768px 以内。这能在触碰到高清模式底线的同时，还保住了清晰度，与此同时，还避免了因尺寸过大产生的额外切块费。

第三类：音频模态

我们前面讲过音频本质上是按照时长来计费的，那么，优化的核心就是缩短物理时长。

第一：一定要将空白处提前预处理掉，AI 只要开着就在计费，即使它什么也没听到。

第二：绝大多数场景下，先用音频转文字的软件转文字后，再传给AI。文字的 Token 成本通常只有音频的 1/10。除非你需要让AI 听出对方是否有奇怪的情绪。