欢迎! 感谢您访问!
订阅充分饲料
这个职位是一个持续系列: 如何搜索技巧 。
上周: 承认这一指数?
内存的速度远远超过寻找的东西了。
为了让搜索引擎有很高的需求,以有效地服务于用户应该保持在内存中而不是看它在磁盘上。
传统的大型搜索引擎将保持其完整的字典在内存和磁盘上张贴名单 。

显然,更多的你可以保持在内存和更多的信息可以读取回到一个磁盘行动越好。
不幸的是效率低下的计算机信息被存放在箱子固定尺寸 :如果一个盒子里是10个字符宽4字符词仍然占据1箱10个字符。
解决的办法是挤在一起 , 使信息的最低金额的空间包含的最高金额的信息 。

可以成为:

通过增加长度每个单词每个条目可以使我们的字词列表数百字短。

可以成为:
存储之间的差异文件编号的( 空白 ) ,我们可以节省数百个字符。
同样可以做到存储之间的差距指数的发生部位在每个文件。
这种“ 压缩编码的代表性事件 , 任期为指针的下一个出现的任期 , 以便迅速列举的发生 ” 一词 。
您可以搜索“ 事件中的条款规定的下列文件指针通过压缩代表性 ” 。
索引存储这种方式是完全无损:将保留当前的所有资料文件标识符文件位置标识符。
启动与最不经常使用的术语在搜索很容易瓦解做局部减压这一指数
“ 查明事件中的条款的文件 ”
(词典) -然后使用;
“ 相应的任期的条款标识符在搜索请求中仰视任期抵消表指针到第一次出现的术语在压缩代表性的一套文件 ”
(第一次发布文件编号) ;
“ 和下列的连锁分开始 , 第一次出现时 , 以查明发生的其他条款在压缩代表性的一套文件 ”
(差距压缩文件ID列表)
推荐阅读:
[...]如何搜索技巧:压缩索引-虽然有点先进的,仍然是一个非常好的研究如何搜索引擎的工作原理是分析指数[...]
[...]这个职位是一个正在进行的系列:如何搜索技巧。 上周:压缩指数。 [...]
尼斯后你会在这里。 保持良好的工作,你有非常好的文章。
感谢您让我知道,本。 你有一个伟大的博客去那里,顺便说一句。 滑稽照片太
随时打我了Twitter的任何时候。
范尼斯特鲁伊,我有点儿失去了对这个问题。 正确位置:
“压缩编码的代表性事件,任期为指针的下一个出现的任期,以便迅速列举的发生”一词...我讨厌被金发!
金,它谈存储之间的差异号码(的指针) 。
任何时候你的工作大/长号码,存储之间的差异这些数字的费用,平均存储空间远少于实际数字。
它还可以帮助加速处理。
所以不是说: “这个字载于1040年, 1050年和1052年”你说“这个词出现在文件的1040年, 10份文件后,和2号文件后,一个” 。
每个数字点到下一个地点: 2街头去了... 。 5房屋进一步... 10美元的额外等
尼斯技术后吕德吕: ) 。
由于加布里埃尔-欣赏评论!