一个词元的神奇旅程（延伸阅读）

人民日报 2026-04-03 20:47:38

每次与人工智能对话时，你有没有好奇过：冰冷的数据如何变成鲜活、智能的内容？要搞懂这背后的门道，得先了解词元是如何“流动”的。

对人工智能来说，词元就像一位“翻译员”，在人类语言和机器数字之间搭起桥梁。所有喂给人工智能的数据，都需要先按规则切分成独立的词元，再转换为数字编码，才能被人工智能识别。比如你输入“春节包饺子”，人工智能会切分为“春节/包/饺子”三个词元，再从“字典”中找到匹配的编码。

要想大规模批量处理这些词元，离不开一座“词元工厂”——数据中心。人工智能正式上岗前，需要经历一个训练的过程：数据中心消耗大量电力，开动算力引擎，把数十万亿级的词元源源不断地喂给人工智能。它要做的是挖掘并记住词元间的关联关系，比如当“春节/包/饺子”出现时，人工智能就能联想到在学习材料中常与它们同框出现的“北方”和“传统”等词元。这些从海量词元中沉淀下来的经验，就是我们感知到的“智能”。

等到你向人工智能提问时，工厂再次运转。问题被切分成词元送给人工智能，庞大的算力群随即驱动它进行一场“文字接龙”，也就是推理。人工智能根据输入的词元，依据之前学到的经验规律，逐次预测下一个最可能出现的词元，一步步拼接出完整内容，再翻译回人类文字，于是屏幕上便跃出那句：“春节包饺子是北方的传统。”

跳动的词元背后是生产力的跃迁，使得人工智能可以从海量的数据中发现其中深层的关联规律，极大地拓展了数据价值挖掘的空间。也正是一个个小小的词元，串联起数据与智能的桥梁，不仅让数据拥有了温度，也让人工智能的每一次回应，都成为数据价值释放的生动实践。

（作者袁军为国家数据发展研究院副院长，人民日报记者王云杉采访整理）

《人民日报》（2026年04月03日第06版）

责编：秦雅楠、侯兴川