在“搜索关键词”管理中,我们可以自定义关键词分词,从而主动控制搜索结果。比如把“Baklib”
手动分词为 “Bak”
+ "lib"
,如此以来,当用户搜索“bak”或者"lib"的时候,也会找到“baklib”相关的内容。
什么是分词?
分词(Tokenization)是自然语言处理中的一个基础概念,它指将一个连续的文本序列拆分成一系列的独立单元(tokens)的过程。分词的主要目的是为后续的自然语言处理任务(如信息检索、机器翻译、情感分析等)提供基础的语言单元。分词结果的质量直接影响到这些任务的效果。
Baklib 中的全文检索,即需要用到中文分词算法。
分词算法通常会结合词典、规则、统计模型等方法来实现。不同的语言和应用场景也会使用不同的分词策略。比如中文分词要特别考虑汉字之间没有明确分隔符的问题。
在使用 LLM 进行自然语言处理时,输入文本通常需要先进行分词处理;分词结果会被进一步转换成 LLM 的 Token 序列,作为模型的输入。