每次与人工智能对话时,你有没有好奇过:冰冷的数据如何变成鲜活、智能的内容?要搞懂这背后的门道,得先了解词元是如何“流动”的。
对人工智能来说,词元就像一位“翻译员”,在人类语言和机器数字之间搭起桥梁。所有喂给人工智能的数据,都需要先按规则切分成独立的词元,再转换为数字编码,才能被人工智能识别。比如你输入“春节包饺子”,人工智能会切分为“春节/包/饺子”三个词元,再从“字典”中找到匹配的编码。
要想大规模批量处理这些词元,离不开一座“词元工厂”——数据中心。人工智能正式上岗前,需要经历一个训练的过程:数据中心消耗大量电力,开动算力引擎,把数十万亿级的词元源源不断地喂给人工智能。它要做的是挖掘并记住词元间的关联关系,比如当“春节/包/饺子”出现时,人工智能就能联想到在学习材料中常与它们同框出现的“北方”和“传统”等词元。这些从海量词元中沉淀下来的经验,就是我们感知到的“智能”。
等到你向人工智能提问时,工厂再次运转。问题被切分成词元送给人工智能,庞大的算力群随即驱动它进行一场“文字接龙”,也就是推理。人工智能根据输入的词元,依据之前学到的经验规律,逐次预测下一个最可能出现的词元,一步步拼接出完整内容,再翻译回人类文字,于是屏幕上便跃出那句:“春节包饺子是北方的传统。”
跳动的词元背后是生产力的跃迁,使得人工智能可以从海量的数据中发现其中深层的关联规律,极大地拓展了数据价值挖掘的空间。也正是一个个小小的词元,串联起数据与智能的桥梁,不仅让数据拥有了温度,也让人工智能的每一次回应,都成为数据价值释放的生动实践。
(作者袁军为国家数据发展研究院副院长,人民日报记者王云杉采访整理)
《人民日报》(2026年04月03日第06版)
责编:秦雅楠、侯兴川