Добре дошли! Благодарим за посещение!
Абонирайте се за цялата емисия
Тази публикация е част от продължаващата серия: Как Търсене наистина работи.
Преди: Значимост (2)
Вместо painstakingly grabbing абсолютната добри мачове за вашата заявка до тогава ранг тези с безкрайна прецизност, едно време, съхраняване стратегия търсачки отида за "достатъчно близо".

Като се има предвид през цялото време, пари и ресурси в света, ето това, което искате обикновено правим.
Дума по дума отидеш чрез търсене. Вие търсите в документите си и да видим, която е думата един .... Думата две ... три ... думата. Получавате снимката.
Можете да дадете няколко плюс точки за всеки път, когато търсят думата се появява в документа. Колко точки? Зависи от TFxIDF рейтинг за тази специфична дума.
Вие добавяте на точкуване в сумата, измерена по значимост отново. Направете същото за запитването си (лекуващия го като много кратък документ, основно). Накратко: вие сте изчисляването им векторно пространство резултати.
Мярка математическото сходство между документ 1 и заявката, документ 2 и заявката, документ 3 и ... Мда.
И после можеш да не просто шамар всички, които са на екрана. Трябва да се приспособят към търсещия нужда и мотика и сортиране на върха точкуване документи!
Сега можете да сортирате вкара всичките си документи наведнъж или просто да отидем в началото на страницата брой необходими документи; кажа първата или следващите 10, защото има търсачи, които определят като максимални резултати на страница.
Вместо да правим това Огромни сортиране рутинните ви хвърлят всички ценности заедно в голяма черна шапка (математици повикване това "грамада"), излезе с горната 10 документи или така и едва след това ги сортирате.

Какво ме порази като смешно е, че тази висока точност, висока издръжка начин правиш неща, не означава непременно, получавате най-добрия резултат за теб долар, най-доброто качество на резултатите за вашите търсещия търпение.
Не, математическата сходство между нашите търсене и тези документи, е нещо, което възприемат като подходящи.
Това е малка отплата за работа в случаите, когато цената е толкова висока; сравняване на огромен брой документи, изчисляване на математическите прилики .... grabbing върха на куп ...
Възприемането на значимост е нещо, с търсачката може да използва все пак, като за "достатъчно добър".

Вместо на изчисляване на Топ 10 с висока точност, защо да не вземете един куп документи, които най-вероятно ще бъде в началото, че 10?
Просто вземете куп документи, които са в състезанието да бъде отговорът на търсещия, и предприемане на Топ 10 на тази група!
Въпреки че това не е Топ 10 Топ 10 бихме намерили използвайки нашето усърдие Прецизност начин, тя ще съдържа множество документи, които биха били в топ 10 или в близост до него.
Това е нещо като купа на M & M и искат да ядат червени такива. Може да ги сортирате painstakingly и след това отивам за червената такива ... или може да вземете в тази област, в която виждате по-голямата част от тях изглеждат червени да бъде.
С оглед на външния вид, изображения учтивост на westpark, Ирина Souiki и jacalynsnana
Аз се мотае в Twitter, където се насладите на дружеството, Бъз, на nuggets на информация и мнения ще мине покрай.