首页 开云体育 关于开云 开云新闻 开云盘口 开云真人 开云2026世界杯 开云体育app
开云app “Token”有了华文名“词元”, 那么Token(词元)到底是什么
发布日期:2026-05-24 18:01    点击次数:122

开云app “Token”有了华文名“词元”, 那么Token(词元)到底是什么

在不久前举行的中国发展高层论坛年会上,国度数据局局长刘烈宏给一个东说念主工智能领域的中枢成见Token赋予了华文名——词元。那么,Token(词元)到底是什么?东说念主工智能和数据产业的异日会怎么?请听中国工程院院士王坚在央视财经频说念“中国经济大讲堂”上的解读。

中国工程院院士王坚。(贵寓图片)

『大模子处理文本的最小单元』

东说念主类发展的速率绝顶快,之前是信息时间,很快又插足了AI时间。关联词,在很万古候里,咱们并莫得把信息和数据进行很好的差别。咱们畴昔讲的比特、字节皆是信息的计量单元,在很万古候里咱们也用这些计量单元来臆度数据。而Token(词元)这一成见的出现,使数据有了明确的计量单元。这是把数据和信息差别开来的一个绝顶落魄的分水岭。

Token(词元)是大模子结伴、处理、生成信息的最小单元。打个譬如,在畴昔的信息领域,一般情况下咱们是用两个字节抒发一个汉字,是以,若是要抒发“我可爱你”,加起来即是8个字节。而在AI模子中,如何把“我可爱你”这4个字拆成最小的数据单元呢?按照咱们的结伴,“我”是一个最小的单元,“可爱”是一个最小的单元,“你”是一个最小的单元。但是从Token的角度来看并不是这样,“我可爱”可能是一个最小的单元,那么“我可爱你”就变成了两个Token。在许多场景中,它跟咱们平时的教会是不一致的。是以,Token(词元)是以它我方的方式组合、供模子处理信息的最小基础单元,它更像是一个“词块”,不错是一个齐备的词、一个常见短语,以致是一个标点象征或特殊字符。

同期,Token(词元)亦然AI领域的计量单元。用等闲的话来说,Token(词元)这个成见像咱们平时讲的斤、两之类的计量单元。而且,就像生存中一斤肉比一斤青菜贵相似,不同的Token(词元)也有不同的价值。若是一种Token(词元)背后消耗的资源比较多、生成比较复杂,那么它自己就比较有价值,可能这种Token(词元)就会贵一些。是以,Token(词元)不可陋劣地等同于货币,它是数据的通用计量单元。

Token(词元)在东说念主工智能领域被大家所意志,是因为2017年发表的一篇著述《你所需要的仅仅精细力》。这篇著述由谷歌的8位科学家创作,其中建议的Transformer架组成为东说念主工智能模子的基石,同期也建议了Token(词元)这个成见。Token(词元)的出现,意味着数据有了我方的“东说念主格”,数据有了我方孤立的身份。也即是说,任何数据若是莫得Token(词元)的身份,就进不了东说念主工智能模子。

咱们平时使用的平淡的数据,也称为原始数据。东说念主工智能模子使用原始数据之前,最初必须把总共的数据Token(词元)化。咱们不错把模子结伴成一个“翰墨翻译器”,但它并不像东说念主类那样平直结伴句子或段落,它必须先将输入的翰墨切分红一个个小块,然后给每个小块分拨一个唯独的数字ID,再把这些数字交给神经网罗进行臆度。这些被切分出来的“小块”,即是Token(词元)。它既不是英文里的单词,也不是华文里的字,它是以它我方的方式组合的最小单元。

东说念主工智能模子的启动逻辑,即是找到不同Token(词元)之间的关系。试想一下,要磨真金不怕火一个大说话模子,可能要用上亿个Token(词元),是以就要找准它们之间的关系,况兼很好地在模子中抒发出来。当大模子与某个期骗集中时,比如你向大模子发问,它就会在算力“算”完后输出相应的Token(词元)当作谜底。

总之,Token(词元)是大模子处理文本的最小单元,它详细响应了数据的价值以及模子的利害、算力的几许,是以,Token(词元)是AI系统启动的中枢。

(视觉中国供图)

『绮丽着数据身分阛阓的开启』

在东说念主工智能大模子领域,Token(词元)是量度算力与资本的计量单元,因此它具有可计量、可订价、可交游的特征。

在Token(词元)出现之前,数据的价值很难界定。但跟着东说念主工智能的发展,原始数据变成了Token(词元),Token(词元)通过大模子以一定的方式进交运动,并向那些期骗东说念主工智能的消费者收取一定的用度。不错说,Token(词元)使数据自己完成了丽都转型。

若是莫得基本的计量单元,是不可能造成一个新兴产业的。打个譬如,你跑到菜阛阓去买菜,若是莫得计量单元,称不出几斤几两,这个菜阛阓就不竖立。卖鱼的、卖肉的、卖鸡鸭的皆莫得同一的计量单元,那是难以造成一定的经济鸿沟的。这亦然畴昔数据身分阛阓一直莫得缔造起来的主要原因。

因此,Token(词元)的出现,事实上绮丽着数据身分阛阓的开启。这是一件具有长远有趣的事情。咱们知说念,一个东西在阛阓上运动时,它会经过许多东说念主的手,每次过手的时候,它皆要作念一次结算。有了Token(词元)这样一个可计量、可计价的单元,就意味着总共的数据在运动历程中不错自动结算,这将使产业链的资本大大镌汰,运动速率大大加速,并成为东说念主工智能产业营业化的落魄旅途。将来,当一个企业为另一个企业出产Token(词元)时,它们在网罗上不错简易完成交游,因此,数据身分阛阓将比其他身分阛阓愈加高效。

莫得任何一家企业是不错不和出产身分阛阓打交说念的。是以,咱们一定要把Token(词元)放到数据身分阛阓的布景下,而不是陋劣地放到东说念主工智能的布景下去结伴。

我认为,新的数据身分阛阓的出现,对更动式企业、中小企业、初创企业可能会愈加友好。因为,大多数传统企业会更多享受传统身分阛阓的克己,而对新的数据身分阛阓可能会有一定的惰性。是以,这是企业更动发展的一个最佳的时机。

从数据身分阛阓的角度来说,它还将故意于数据和算力的全球运动。比如,你今天拿入部下手机到南好意思一个场合期骗了AI,这就意味着Token(词元)从中国到了南好意思。若是一个南好意思的诱骗者用中国的模子诱骗了期骗,并向南好意思消费者提供劳动的话,当然而然Token(词元)就运动到了南好意思。是以,当东说念主工智能平台劳动全球的时候,Token(词元)就变成了一种结算方式。

此前,许多东说念主对东说念主工智能的蔼然大多停留在大模子的时期竞速上,而Token(词元)的价值显现正在把一场深层的产业变革带到总共东说念主的眼前,它不仅响应在时期层面,更将重构总共这个词行业、总共这个词产业的资本结构、营业模式和和谐方式,继而全面影响东说念主们的生存。

『“小龙虾”倏得爆火的背后』

2026年1月底,一款名为OpenClaw(昵称“小龙虾”)的开源AI智能体倏得爆火,从时期圈赶快席卷全网,开启了全民“养虾”时间。这款以卡通小龙虾为Logo的智能体,透澈野蛮了传统AI只会聊天、不会干活的局限,凭借感知、方案、实行的闭环才气和24小时自主启动,成为好像领受请示、调用器具、读写文献、实行剧本的全功能数字助手。

但是,确凿用过“小龙虾”的诱骗者和用户皆知说念一个痛点:Token(词元)消耗太猛了。一个看似陋劣的查询,就能消耗几十万Token(词元),开云体育app2026世界杯官方推荐版下载从而让消费者收到超出设想的高额账单。

其实,在畴昔几年,东说念主工智能的背后也曾有Token(词元)的成见了。东说念主们使用豆包或千问时,你问一句,它答一句,Token(词元)的消费量没那么大,也即是说算力的消费量没那么大,是以公众不错免费使用豆包或千问。

但是,像“小龙虾”之类的期骗,意味着东说念主工智能发展到了一定水平,它对数据的需求大大增多。为什么此次“小龙虾”的出现会引爆Token(词元)这个成见呢?因为“小龙虾”的Token(词元)消耗不是按需触发,而是握续产生的,是以其消费的Token(词元)量大大超出了原来那些东说念主工智能的期骗,从而导致使用者需要为消耗的巨量Token(词元)支付账单。“小龙虾”在本体上与其他的东说念主工智能期骗比较,由于Token(词元)调用量相当大,才使这个问题暴袒露来。

豪门国际娱乐app官网下载

忘我有偶,2026年3月25日,好意思国东说念主工智能公司OpenAI通知断绝旗下AI视频生成模子Sora总共的劳动与运营。事实上,自2024年2月初次亮相以来,Sora在约25个月的运营时候里,期骗格局的总收入仅约210万好意思元。而据福布斯测算,Sora容颜年化运营资本高达50多亿好意思元。逐日数亿级的Token(词元)消耗,让即使赢得了广大投资的OpenAI仍感不胜重担,只可忍痛将其关停。像Sora这样的事件,恰是因为生成视频需要花消比大家设想多得多的Token(词元),终局,花消那么多Token(词元)生成的视频的价值还抵不外Token(词元)自己的价值,是以营业逻辑无法竖立。

AI大模子出现以后,大家一直有这样一个困惑的问题:到底用什么格局、什么措施来使用东说念主工智能模子呢?这在畴昔是一个问题。而“小龙虾”的出现,评释东说念主工智能有它我方零散的期骗方式。比如,“小龙虾”把畴昔App的成见颠覆了,使用东说念主工智能期骗不需要再去装一个个App。一个“小龙虾”践诺上作念了畴昔十几个、二十几个App作念的事情。不错说,“小龙虾”的形态和构建方式与东说念主工智能是相匹配的。

跟着“小龙虾”从小众器具成为内行期骗,国度互联网救急中心与中国网罗空间安全协会于2026年3月发布了《OpenClaw安全使用实践指南》,面向平淡用户、企业用户、云劳动商以实时期诱骗者等建议安全看管建议,为这一新兴生态系上“安全带”。

『Token爆发式增长意味着什么』

国度数据局局长刘烈宏在本年3月24日国务院新闻办举行的新闻发布会上公布了一组令东说念主震恐的数据:2024岁首,中国日均Token(词元)调用量为1000亿,至2025年底该数据跃升至100万亿,到本年3月也曾突破140万亿。两年间,增长非常1000倍。

Token(词元)的爆发式增长意味着什么?

最初,意味着东说念主工智能期骗自己发生了质的变化。

在软件时间,一个软件有几许行代码,基本上代表了这个软件的复杂度,也即是它的价值。今天,当咱们用AI模子的时候,Token(词元)就会产生运动,这个运动既娇傲出原来磨真金不怕火模子时所消耗的算力,同期也娇傲出其自己启动需要消耗的算力。是以,Token(词元)的消费量激增,代表东说念主工智能期骗发展到了一个新的水平。

拿电来打譬如。早期的时候,家里唯有一个电灯,只用小数点电,自后有了雪柜、洗衣机、空调,用电量大增,这代表了生流水平的提高,也评释电对社会生存和经济的影响。Token(词元)的爆发式增长亦然相似,这是一个绝顶可喜的弘大变化。是以说,Token(词元)的消耗量是东说念主工智能时间的标尺。

其次,意味着东说念主工智能在中国的发展到了一个绝顶落魄的拐点。在国内,诱骗、使用东说念主工智能的东说念主越来越多,每个东说念主使用的量也越来越多。日均Token(词元)调用量的广大增多,充分标明中国的东说念主工智能发展也曾插足了快速增长的阶段。从能对话的说话大模子到能方案实行的智能体,跟着期骗场景的不休深化,中国东说念主工智能产业的竞争力也显贵增强。

另外,需要指出的是,Token(词元)的爆发式增长是需要遒劲的物资基础来辅助的,因此,单个Token(词元)的资本一定要镌汰。大家设计一下,若是用电资本不降到迷漫低的话,老匹夫是不可能广大使用空调的。而单元Token(词元)资本的镌汰,除了进一步擢升东说念主工智能时期、算力时期外,还需要不休改造东说念主工智能模子的期骗。这就像早年咱们用白炽灯,大部分的电皆被热量消耗掉了,是以当今咱们广大使用节能灯。我确信异日的东说念主工智能期骗也会不休改造,尽量终局Token(词元)的消费量,这是一个不休迭代、不休发展的历程。

『一种新经济模式可能会出现』

在信息时间,软件在很长一段时候里不知说念怎么才能挣钱。在微软公司出现之前,软件仅仅硬件的从属,是以软件产业一直莫得发展起来,直到微软公司成为第一家挣钱的软件企业。是以今天,咱们不可用静态的方式来看待东说念主工智能,因为这是一个变革性的产业,就像当年软件产业倏得出身并赶快发展那样,可能东说念主工智能产业的发展也会出现这样的局面。

我认为,东说念主工智能的变革将远远超出之前总共时期带来的变革,这可能是自东说念主类发明电以来最大的一次变革。大家想一下,自从发明电以后,产生了几许产业,产生了几许不同的工业门类,东说念主工智能也会有那么大的能量。

以“小龙虾”为例,它本体上使咱们的责任方式发生了一次很大的改革。以前咱们每每讲,要提高责任效果或者改革责任方式,而以“小龙虾”为代表的智能体的出现,以致改革了责任自己,果真每一项责任皆会濒临大的变化。

这里需要强调的是,“智能体”这个词的翻译不太准确,其实它正本的有趣是“代理”,翻译成“智能代理”应该更符合。从这个角度来看,将来会出现各式种种不同的“智能代理”,比如“旅行代理”“看病代理”等,不错匡助咱们惩办生存中方方面面的问题。

设计一下,咱们的责任有几许单干,将来就会出现几许不同格局的责任代理。“小龙虾”仅仅其中的一种代理良友。但是专门念念的是,“小龙虾”完成的一部单干作是以前莫得东说念主作念过的。若是你用过“小龙虾”就会发现,以前莫得东说念主会把我方总共硬盘上的东西皆看一遍,把我方几十年的像片皆看一遍,但“小龙虾”不错作念到,只消它以为这件事跟责任是揣度系的。是以我认为,将来“智能代理”会完成一些莫得东说念主作念过的责任。这样的话,一种新的经济模式可能会出现。

一言以蔽之,Token(词元)在东说念主工智能时间是一个绝顶关键的成见,它与时期、营业、期骗以及产业发展皆息息关系。但愿大家好像了解Token(词元),用好咱们手里绝顶可贵的资源——数据资源。

栏目主编:龚丹韵翰墨剪辑:徐蓓开云app



Copyright © 1998-2026 开云体育app2026世界杯中国官方下载™版权所有

shyijiamen.com备案号 备案号: 

技术支持:®开云体育世界杯 RSS地图 HTML地图