欢迎! 感谢您访问!
订阅充分饲料
这个职位是一个持续系列: 如何搜索技巧 。
以前: 关联( 2 )
而不是刻意抓住绝对最符合您的查询,然后与无限级精度,一个节省时间的搜索引擎战略去“足够接近” 。

鉴于所有的时间,金钱和资源,在世界上,这里就是我们通常会做。
一个字一个字,你逐一搜寻。 你看看你的文件,并看到了一个字... 。 字两个三个... ...字。 你的图片。
你给了一些加分,每一次搜索词出现在一份文件。 多少分? 取决于TFxIDF评分该特定文字。
您的得分加起来成为一个总之,衡量的意义了。 做同样的查询本身(当成了很短的文件基本上) 。 简而言之:你计算的向量空间分数 。
衡量数学相似性文件1和查询,文件2和查询,文件3和...烨。
然后你可以不只是打所有这些在屏幕上。 您必须定制的搜索者的需要和选择和排序,得分最高的文件!
现在您可以得分排序您的所有文件,或者只是一次去顶端的一些文件需要;说的第一个或下一个10因为搜索已经是设置为最大结果每页。
不是做这个巨大的排序例程你扔所有值一起在一个大黑帽(数学家称之为“堆” ) ,拿出了前10名的文件或如此,也只有到那时排序。

让我印象最深刻的有趣的是,这种高精确度,高费用的处事方式并不一定意味着您最帮你降压,质量最佳的结果为您的搜寻者的耐心。
不,数学相似性搜索,而且这些文件是我们认为有关 。
这是一个低回报的工作时,成本是如此之高;比较了大量的文件,计算数学相似之处... 。 抢夺的领头羊...
相关性的看法是搜索引擎可以使用虽然进入了“足够好” 。

而不是前10位计算精度高,为什么不抓一堆文件,极有可能在这前10名?
只要抓住一堆文件,在比赛中得到的答案搜索者的查询,并采取了前10名的一群!
虽然这前10名不是前10 ,我们会发现使用我们的艰苦精密的方法,它会包含许多文件,已经在这前10名或接近它。
这就像一个碗的M & M的和想要吃红的。 你可以排序他们精心然后转到红色的...或者你可以在这方面的抓斗在你看到的最红的似乎是。
为了外观,图像礼貌westpark , 伊琳娜Souiki和jacalynsnana