范尼斯特鲁伊海恩 欢迎! 感谢您访问!

订阅充分饲料

如何搜索真的著作: “的”索引( 2 )

由范尼斯特鲁伊海恩。


这个职位是一个持续系列: 如何搜索技巧
上周: “的”索引( 1 )

上周,我们看到一个倒排索引(其中的字词清单点的文件清单中,他们似乎)是疯狂做有益的和查询。

倒排索引

但是,如果你不寻找任何文件, 搜索的关键词 人民 引擎 ,但您正在寻找搜索引擎的人吗

好吧,如果42号文件在我们的例子中写着“ 引擎搜索后发现的一些 ”或“ 使用搜索引擎例如谷歌”比传统的倒排索引可能会认为它的位置上进行搜索。 爱... 。

(延长) Biword倒排索引

其中的一段路要走这个将是一个倒不知生成清单词组

biword词组指数

问题 :如果您指数词组2字长度, 3 +字词组搜索成为另一个和查询,结合部分的词组。 高个儿 ”及“ ” 。

索引词组3字长度只是动作的问题4 +字词组搜索... 。 等等

问题 :成为巨大的倒排索引,列出每一个字每一份文件,每2 ( 3 ? 4 ? )一语中的每一个字的文件... 。

位置倒排索引

唯一的真正解决办法是商店不仅发病率的发生,一个字,但在一个文件存储的具体位置( s )的字在该文件中。

位置指数

在这个例子中是42号文件确定的“搜索引擎的人” ,因为词出现的顺序:他们似乎在位置1 ,第2和第3 。

优势 :因为位置指数类似的建设为传统倒排索引,它将继承相同的优势。 也就是说,做一个和查询可以跳转时提前一个字,就不会发生在文件中是看。

优势 :只要看的话出现在正确的命令, 任何词组任何长度可以发现,即使它不是索引等。

优势 :通过精确的位置信息,我们可以做的接近查询。

优势 :短语匹配和查询词近距离 还可以用来排序搜索结果

冠军

虽然定位指数至少2-4倍(或50 % )大于传统的倒排索引的回报是如此之大,这是该类型的指数使用的商业搜索引擎-词组。 一般... ... 。

经常搜索词组仍更好地保存在一个biwords指数;较少搜索词组是一个更好的处理位置倒排索引。

指数型及高级行政主任

乐趣( 警告:怪胎说话! )是当然,知道这种东西含蓄地解释你的东西。

例如,明知为使倒排索引位置, 真正工作的所有文字,包括所谓的“停止词” ,需要建立索引可以减少奇怪, 停止词人死亡

位置索引和检索也使得它不仅逻辑,但预计 纽约纽约铺给予不同的结果。

不同的结果=不同思想,不同的搜索引擎优化...不同的机会。

这就是指数 : )

本人在Twitter的坑在那里我喜欢该公司的热门话题,掘金队的信息和意见我们传递。
加入我的Twitter的!

提交客户后


张贴在如何搜索技巧关于2008年2月29日。

5回应迄今: 3评论和2引用

  1. 约翰Krost 说:

    哇,这是先进的搜索引擎的东西。 感谢您的信息

  2. 另一个伟大后范尼! 停止词是绝对不会死。 他们是如此大的一部分自然语言的搜索查询。

  3. 有一个技巧,你知道。

引用/ Pingbacks

  1. [...]这个职位是一个正在进行的系列:如何搜索技巧。 上周: “的”索引( 2 ) 。 [...]

  2. [...]海恩的2最新增加“如何搜索真的作品”是“ ,该指数第2部分”和“认识到这一点, [...]


好友连接

近期读者

English flagItalian flagKorean flagChinese (Simplified) flagChinese (Traditional) flagPortuguese flagGerman flagFrench flagSpanish flagJapanese flagArabic flagRussian flagGreek flagDutch flagBulgarian flagCzech flagCroat flagDanish flagFinnish flagHindi flagPolish flagRumanian flagSwedish flagNorwegian flagCatalan flagFilipino flagHebrew flagIndonesian flagLatvian flagLithuanian flagSerbian flagSlovak flagSlovenian flagUkrainian flagVietnamese flagAlbanian flagEstonian flagGalician flagMaltese flagThai flagTurkish flagHungarian flag