范尼斯特鲁伊海恩 欢迎! 感谢您访问!

订阅充分饲料

如何搜索技巧:抓住大多数红色M & M的

由范尼斯特鲁伊海恩。


这个职位是一个持续系列: 如何搜索技巧
以前: 关联( 2 )

而不是刻意抓住绝对最符合您的查询,然后与无限级精度,一个节省时间的搜索引擎战略去“足够接近” 。

艰苦的精密

排序毫米

鉴于所有的时间,金钱和资源,在世界上,这里就是我们通常会做。

一个字一个字,你逐一搜寻。 你看看你的文件,并看到了一个字... 。 字两个三个... ...字。 你的图片。

你给了一些加分,每一次搜索词出现在一份文件。 多少分? 取决于TFxIDF评分该特定文字。

您的得分加起来成为一个总之,衡量的意义了。 做同样的查询本身(当成了很短的文件基本上) 。 简而言之:你计算的向量空间分数

衡量数学相似性文件1和查询,文件2和查询,文件3和...烨。

然后你可以不只是打所有这些在屏幕上。 您必须定制的搜索者的需要和选择和排序,得分最高的文件!

现在您可以得分排序您的所有文件,或者只是一次去顶端的一些文件需要;说的第一个或下一个10因为搜索已经是设置为最大结果每页。

不是做这个巨大的排序例程你扔所有值一起在一个大黑帽(数学家称之为“堆” ) ,拿出了前10名的文件或如此,也只有到那时排序。

感知关联

彩信中的碗

让我印象最深刻的有趣的是,这种高精确度,高费用的处事方式并不一定意味着您最帮你降压,质量最佳的结果为您的搜寻者的耐心。

不,数学相似性搜索,而且这些文件是我们认为有关

这是一个低回报的工作时,成本是如此之高;比较了大量的文件,计算数学相似之处... 。 抢夺的领头羊...

相关性的看法是搜索引擎可以使用虽然进入了“足够好” 。

排序的不精确十大杂交文件,您可能想要

混合毫米

而不是前10位计算精度高,为什么不抓一堆文件,极有可能在这前10名?

只要抓住一堆文件,在比赛中得到的答案搜索者的查询,并采取了前10名的一群!

虽然这前10名不是前10 ,我们会发现使用我们的艰苦精密的方法,它包含许多文件,已经在这前10名或接近它。

这就像一个碗的M & M的和想要吃红的。 你可以排序他们精心然后转到红色的...或者你可以在这方面的抓斗在你看到的红的似乎是。

为了外观,图像礼貌westpark伊琳娜Souikijacalynsnana

本人在Twitter的坑在那里我喜欢该公司的热门话题,掘金队的信息和意见我们传递。
加入我的Twitter的!

张贴在如何搜索技巧关于2008年5月2日。

评论已经关闭。


好友连接

近期读者

English flagItalian flagKorean flagChinese (Simplified) flagChinese (Traditional) flagPortuguese flagGerman flagFrench flagSpanish flagJapanese flagArabic flagRussian flagGreek flagDutch flagBulgarian flagCzech flagCroat flagDanish flagFinnish flagHindi flagPolish flagRumanian flagSwedish flagNorwegian flagCatalan flagFilipino flagHebrew flagIndonesian flagLatvian flagLithuanian flagSerbian flagSlovak flagSlovenian flagUkrainian flagVietnamese flagAlbanian flagEstonian flagGalician flagMaltese flagThai flagTurkish flagHungarian flag