Добре дошли! Благодарим за посещение!
Абонирайте се за цялата емисия
Тази публикация е част от продължаващата серия: Как Търсене наистина работи.
Миналата седмица: признават, този показател?
Паметта е много по-бързо, отколкото гледам нещата.
За да може търсачката в голямото търсене да обслужва своите потребители ефективно да пазят нещата в памет вместо да гледам го на дискета.
Традиционно голям мащаб търсачки ще пази техния пълен речник в памет и командироването списък на диск.

Очевидно, толкова повече ще може да задържи в памет и повече информация може да се чете назад с един диск действия, толкова по-добре.
За съжаление, компютърът получава информация inefficiently съхранявани в кутии с фиксирани размери: ако кутията е 10 знака широк 4 характер думата все още заема 1 кутия от 10 знака.
Решението е да изтръгне информация заедно така, че най-ниската сума на пространство съдържа максимално количество информация.

може да стане:

Чрез добавяне на дължината на всяка дума на всяко влизане можем да направим списък от думи стотици герои кратък.

може да стане:
Чрез съхраняване на разликата между идентификационен документ (на пропуските) можем да спаси стотици символи.
Същото може да се направи за съхранение на празнините между индекс номера за появата позиции във всеки документ.
Тази "компресиран представителство кодира събития на термин като показалка към следващата поява на срока за улесняване на бързото изброяване на поява на термина".
Можете да търсите "събития от гледна точка на набор от документи, като изпълните следните насоки чрез сгъстен представителство".
Индекс съхраняват по този начин е напълно lossless: тя запазва цялата информация от документа идентификатор към документ позиционен идентификатор.
Като се започне с най-често се използва термина в търсенето е много лесно да се оправям да направи частични decompression на този индекс от
"Идентифициране на събития от гледна точка на набор от документи"
(речника) - да се използват след това;
"Съответния мандат идентификатори на термините в заявката за търсене, за да потърсим срок компенсира таблицата за показалка към първата поява на понятията в компресиран представителство на набора от документи"
(Още първия публикувате документа ID);
"И след верига от указатели, започвайки от първата поява за идентифициране на други събития, от гледна точка на сгъстен представителство на набора от документи"
(разликата сгъстен документ ID списък)
Препоръчителни четене:
Аз се мотае в Twitter, където се насладите на дружеството, Бъз, на nuggets на информация и мнения ще мине покрай. [...] Как Търсене наистина работи: The Компресираните Index - Макар и малко напреднали, все още е много хубаво погледнете как търсачката работи чрез анализ на Индекс [...]
[...] Тази публикация е част от продължаващата поредица: Как Търсене наистина работи. Миналата седмица: The Компресираните Индекс. [...]
Ница пост ли става тук. Продължавай в същия дух, имате наистина хубаво статии.
Благодарим, че ме знаеш, Бени. Вие имате голям блог става там, между другото. Смешни снимка твърде
Чувствайте се свободни да ме удари по Twitter всяко време.
Рууд, аз малко се губи от това. Точно тук:
"Компресиран представителство кодира поява на термин като показалка към следващата поява на срока за улесняване на бързото изброяване на случаи на термина" ... Аз мразя е рус!
Ким, той говори за съхраняване на различията между номера (на указатели).
Всеки път, когато се работи с големи / дълги номера, съхраняване на разликата между тези числа разходи, средно взето, по-малко пространство, отколкото за съхранение на реалните числа.
Тя също може да допринесе за ускоряване нещата.
Така че, вместо да казва "тази дума се появява в документ 1040, 1050 и 1052" ти каже "тази дума се появява в документ 1040, 10 документи, след това и 2 документи, след това едно".
Всеки брой точки за следващото място: Отидете 2 улици определяне .... 5 къщи още ... 10 долара допълнително др
Ница технически пункт Рууд:).
Благодарение Gabriel - Оценявам коментар!