
NLP基础知识系列课程
文章平均质量分 87
AI让世界更懂你
计算机科学与技术专业博士,主要研究方向为人工智能、自然语言处理、大规模语言模型和对话系统等。曾与微软小冰、微软小娜共同工作。兴趣广泛,包括并不限于人工智能,心理学,认知科学,语言学,数学,天文学等。让我们一起和AI,改进世界!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【NLP基础知识系列课程-Tokenizer的前世今生第五课】从静态到可学:Tokenizer 的自适应演化之路
Vokenization 是一个跨模态的 token alignment 方法,为每个文本 token 匹配一个“视觉 embedding”,形成“视觉 token”或“voken”。在 NLP 或多模态任务中,我们一直使用固定的分词器(如 BPE、WordPiece)在训练前将文本分为 token。但这是一种静态方式,与模型参数解耦,与任务目标无关。Tokenizer,不再只是“tokenizer”,而是人工智能系统的输入分配器(Input Orchestrator)。是新的 token 表示。原创 2025-05-27 23:41:37 · 987 阅读 · 0 评论 -
【NLP基础知识系列课程-Tokenizer的前世今生第四课】生物信息中的 Tokenizer 策略:如何切开一段基因?
控制输入长度,压缩非线性结构显式聚焦功能片段,避免模型注意力稀释引入结构先验或从数据中自学习切分规律正如语言模型需要“分词”,蛋白质语言模型、分子语言模型、甚至交互药理模型,也需要找到它们的“词语单位”。Tokenizer,不再是文本处理的工具,而是知识结构的剪刀。未来,它将进一步融入结构建模、信号表达、合成建模任务中,成为生物智能系统的“语言入口”。原创 2025-05-27 23:26:45 · 955 阅读 · 0 评论 -
【NLP基础知识系列课程-Tokenizer的前世今生第三课】多模态世界中的 Tokenizer 策略
一个优秀的多模态 tokenizer,不只是“切词工具”,而是跨语言与感知之间的桥梁。一个模态压缩器(compressor)一个语义对齐器(aligner)一个结构提示器(structurer)tokenizer 与 encoder 融合为模态感知引擎动态感知上下文,灵活生成 token 序列从统一序列转向多模态图结构 token 表示下一篇,我们将走入非语言符号世界:基因、蛋白质、分子结构等生物序列,那些没有自然语言规律却承载复杂规则的序列,又该如何“切”?原创 2025-05-27 23:15:33 · 1134 阅读 · 0 评论 -
【NLP基础知识系列课程-Tokenizer的前世今生第二课】NLP 中的 Tokenizer 技术发展史
Tokenizer 不只是为了节省长度、提升效率,更是为了让模型对语言有更深入、系统的建模方式。今天的 tokenizer,已经从“静态规则”演进到“可学习模块”;从“辅助工具”升级为“认知中介”。而随着语言模型不断演进,我们也逐渐意识到:Tokenizer 不应当是障碍,而应当是助力。下一篇,我们将走进多模态时代的 tokenizer:图像、音频、视频、表格……这些非文本的输入,又是如何“被切”的?又如何与文本 token 融为一体?敬请期待。原创 2025-05-27 23:04:28 · 897 阅读 · 0 评论 -
【NLP基础知识系列课程-Tokenizer的前世今生第一课】Tokenizer 是什么?为什么重要?
当你读到“unbelievable”,你可以立刻意识到它是“un + believe + able”构成的,这种构词结构能让你快速理解它的意思。这个单位,就叫做 token,而设计这个单位的方式,就是 tokenizer。”,模型可能就要花更多精力才能拼凑出“哦,这是一个否定+动词+形容词构成的词”。我们可以看到,从语义结构最强的“句子”到最原始的“字节”,Tokenizer 划分的单位越小,信息越精细,但模型所承担的“组合理解”任务也越大。细了,理解变得困难。除了“切多大”,另一个问题是“怎么切”。原创 2025-05-27 22:49:24 · 870 阅读 · 0 评论