欢迎! 感谢您访问!
订阅充分饲料
这个职位是一个持续系列: 如何搜索技巧 。
上周: “的”索引( 1 ) 。
上周,我们看到一个倒排索引(其中的字词清单点的文件清单中,他们似乎)是疯狂做有益的和查询。

但是,如果你不寻找任何文件, 搜索的关键词和 人民 的 引擎 ,但您正在寻找搜索引擎的人吗 ?
好吧,如果42号文件在我们的例子中写着“ 引擎是搜索后发现的一些人 ”或“ 人使用搜索引擎 , 例如谷歌”比传统的倒排索引可能会认为它的位置上进行搜索。 爱... 。
其中的一段路要走这个将是一个倒不知生成清单词组 。

问题 :如果您指数词组2字长度, 3 +字词组搜索成为另一个和查询,结合部分的词组。 “ 高个儿 ”及“ 银 ” 。
索引词组3字长度只是动作的问题4 +字词组搜索... 。 等等
问题 :成为巨大的倒排索引,列出每一个字和每一份文件,每2 ( 3 ? 4 ? )一语中的每一个字的文件... 。
唯一的真正解决办法是商店不仅发病率的发生,一个字,但在一个文件存储的具体位置( s )的字在该文件中。

在这个例子中是42号文件确定的“搜索引擎的人” ,因为词出现的顺序:他们似乎在位置1 ,第2和第3 。
优势 :因为位置指数类似的建设为传统倒排索引,它将继承相同的优势。 也就是说,做一个和查询可以跳转时提前一个字,就不会发生在文件中是看。
优势 :只要看的话出现在正确的命令, 任何词组任何长度可以发现,即使它不是索引等。
优势 :通过精确的位置信息,我们可以做的接近查询。
优势 :短语匹配和查询词近距离 还可以用来排序搜索结果 。
虽然定位指数至少2-4倍(或50 % )大于传统的倒排索引的回报是如此之大,这是该类型的指数使用的商业搜索引擎-词组。 一般... ... 。
经常搜索词组仍更好地保存在一个biwords指数;较少搜索词组是一个更好的处理位置倒排索引。
乐趣( 警告:怪胎说话! )是当然,知道这种东西含蓄地解释你的东西。
例如,明知为使倒排索引位置, 真正工作的所有文字,包括所谓的“停止词” ,需要建立索引可以减少奇怪, 停止词人死亡 。
位置索引和检索也使得它不仅逻辑,但预计 店在纽约和纽约铺给予不同的结果。

不同的结果=不同思想,不同的搜索引擎优化...不同的机会。
这就是指数 ![]()
[...]这个职位是一个正在进行的系列:如何搜索技巧。 上周: “的”索引( 2 ) 。 [...]
[...]海恩的2最新增加“如何搜索真的作品”是“ ,该指数第2部分”和“认识到这一点, [...]
哇,这是先进的搜索引擎的东西。 感谢您的信息
另一个伟大后范尼! 停止词是绝对不会死。 他们是如此大的一部分自然语言的搜索查询。
有一个技巧,你知道。