什么是 Token，1000 Token 对应多少个字？

大模型对话中的 Token 是语言模型处理文本的基本单位，类似于“语言的积木块”。

它通过分词器（Tokenizer）将输入文本切割为更小的单元，这些单元可以是字、词、短语或符号，直接影响模型对语言的理解和生成效率。

最小处理单元 Token 是大模型处理文本的最小单位，类似于人类语言中的“原子”。例如，中文句子“只因你太美”可能被拆分为 4-5 个 Token（如“只因”“你”“太”“美”或更细的拆分），同样，中文标点符号、空格也都会被标记为 1 个 Token。

而大模型在创作过程中，会涉及 “输入”、“思考”、“输出” 等阶段，所以在各个阶段都会用到 Token 的运算，不能从单方面得出 1000 Token 对应多少个字，但是如果要做预估的话，可以简单粗暴理解为 Token 的消耗 = 输入字数 + 思考字数 + 输出字数。