搜索引擎原理之入索引与分类
来源:公司新闻
2024-05-07
入索引和分类是两码事
入索引就是是分词后的入库。根据ABCD,啊哦额一等一系列term进行存放。分类是把一大堆东西A,去归类的另外几样东西B上。其实本质就是就求A们和某个B的相关性。然后这个相似性又分成布尔模型和潜在语义模型。
布尔模型很简单,就是包含(相关)和不包含(不相关)的问题。例如你上面的说的东西。各种2元匹配然后布尔模型是有局限性的,太依赖匹配,容易找出太多或者太少的结果。
然后接下来就是向量模型
把文档中的term映射到向量空间中,然后每个term会有自己的权重,通过余弦求相似性。当然,上面这两个种比较好理解,然后技术实现难度也不大,搜索引擎也不可能用。接下来说说搜索引擎可能会用的(为啥是可能?因为我也不在搜索引擎工作)