AI模型中tokens和参数的区别-AI算法相关基础知识补充

本文结合deepseek,kimiai,chatgpt整理分析而成,仅供参考和作为读者灵感分析的启发。(若有侵权请联系作者删除~)

AI中的“tokens”是什么?

在自然语言处理中(NLP),token 是处理文本数据时的基本单元。token可以是一个单词、一部分单词、或者甚至是一个字符,这取决于你使用的分词(tokenization)方法。

单词作为token:例如,“I am learning AI”这句话可以分成4个token:["I", "am", "learning", "AI"]。

子词作为token:有些高级的分词方法,如BPE(Byte Pair Encoding)或WordPiece,会将单词拆分成更小的部分,例如将“learning”分解为["learn", "ing"]。这样可以处理未知词汇和少见的词。

在GPT和类似的大型语言模型中,token是用于训练模型的基本单位。模型处理文本时,会把文本转化成tokens进行输入,每个token对应着一个独特的索引,模型通过这些tokens来学习语言的结构和含义。

参数与tokens的关系

参数决定了模型的内部配置和能力,即如何将输入(如tokens)转化为输出。

tokens是输入的实际数据,模型通过这些tokens进行训练和推理。

训练模型时,tokens是通过数据集提供的,模型的参数则会根据这些tokens的信息进行调整。例如,在训练GPT时,模型通过不断接收tokens(单词或子词),并通过反向传播调整参数,以便更好地预测下一个token或生成新的文本。

另外一种解释:

参数:模型的内部数值,用于确定模型如何从输入到输出进行计算。

tokens:文本数据的基本单元,在自然语言处理中,tokens是分词后得到的元素,可以是单词、子词或字符。

本贴的其他相关学习笔记资料可以通过订阅专栏获取,喜欢的小伙伴可以多多点赞+关注呀!后续会 持续更新相关资源的~

最后,感谢每一位阅读这篇文章的朋友,你们的反馈对我来说非常宝贵。如果有任何问题或建议,请随时告诉我。让我们一起学习和进步吧!如果您喜欢我的内容,别忘了点赞和关注哦,我会定期分享更多有价值的信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值