>_ 实时可视化 LLM 如何将文本分割成 Token
大语言模型不会直接「阅读」文字——它们看到的是 Token。Tokenization 将文本切分成小块,每个 Token 可能是:
"the"
"hello"
"un"
"believ"
"able"
不同模型使用不同的 Tokenizer(编码方式),所以同一段文本在不同模型中的 Token 数量可能不同。o200k_base 是 GPT-4o 及更新模型的编码,对中文和多语言更友好。