
网络名人账号粉丝数量大、社会关注度高,在互联网上有较强影响力和示范效应。为加强网络名人账号常态化管理,引导其自觉规范网上行为,防范不当网络言行造成负面影响,我办制定了网络名人账号行为负面清单,对行为边界作出明确规定。
近日,寰球科学时代名词坚贞委员会发布《对于发布试用东谈主工智能规模名词token汉文名“词元”的公告》,决定在抽象考量社会各界意见刻薄的基础上,优先保举“词元”行为东谈主工智能规模名词token的汉文名,并面向全社会发布试用。
“词元”这一定名相宜单义性、科学性、简明性、联结性等科技名词坚贞原则。该定名经寰球计较机科学时代名词坚贞委员会坚贞后,由寰球科学时代名词坚贞委员会批准向全社会发布试用。
清华大学计较机系副训导东昱晓以为,“词元”的定名捕捉了其在东谈主工智能讲话模子中行为“基本阻滞标志单元”的实质,又不错通过类比当然延迟至多模态规模。在“词元”这一定名中,“词”点明其在讲话场景下的根源,体现出token与抒发对象语义的密切有关;“元”传达出“基本单元”之意,与“元素”等术语中的“元”保握一致的语义线索。
“token”一词源于古英语tācen,意为“标志”或“标记”。在讲话模子中,token是文本经由切分或字节级编码后获取的最小阻滞单元。它既可能是东谈主类讲话意旨上的词串、单个词,也可能是词根、词缀、子词或单个字符。讲话模子通过对token序列建模,展现出一定的智能水平。
寰球计较机科学时代名词坚贞委员会副主任委员兼东谈主工智能分委员会主任委员、中国科学院计较时代计议所计议员陈熙霖示意,“词元”一词不错将“行为讲话基本语义单元”这一来源实质光显抒发出来,更贴合其在东谈主工智能中的启动扮装。
跟着大模子从纯文本走向多模态,盛康策略“token”所指还是扩张。图像被切分为“图像块”并映射为镶嵌序列,语音片断不错被量化编码为阻滞单元,这些单元在多模态模子中相似被称为token,主要建模技能仍为序列模子。
名鼎配资此时,“词元”中的“词”越过了东谈主类讲话意旨上的“词”,却能暗合术语定名中多量存在的类比想维——将非文本模态的阻滞基本单元也视作“广义的词”。这种用法与“词云”(word cloud)、“词袋”(bag of word)访佛,虽由文本养殖,但已成为东谈主工智能规模中抒发更日常语义的通用术语。“词元”在跨模态场景中承载了“阻滞基本单元”的语义,这种语义多量存在于总共模态之中。
在汉文文件、时代文档及学术疏浚中,“词元”行为刻画大模子中token的译名,迟缓被学术界许多学者招供。token是模子将数据映射为阻滞标志序列的基本单元,自己并不佩戴智能,仅仅承载信息的载体;与“镶嵌”“重想法”“隐情景”等术语比肩时,保握了作风一致性;相宜汉文“二字词”偏好,表述或者,易于传播。
国度数据局数据泄露,2024岁首,中国日均词元(token)调用量为1000亿;至2025年底,跃升至100万亿;本年3月,已冲突140万亿,两年增长超千倍。
更多热门速报、巨擘资讯、深度分析尽在北京日报App速盈所配资
联丰优配恒正网配资富腾优配亿正策略长沙配资盛康策略提示:文章来自网络,不代表本站观点。