Рууд Хейн Добре дошли! Благодарим за посещение!

Абонирайте се за цялата емисия

Как Търсене наистина работи: The Компресираните Индекс

от Рууд Хейн.


Тази публикация е част от продължаващата серия: Как Търсене наистина работи.
Миналата седмица: признават, този показател?

Паметта е много по-бързо, отколкото гледам нещата.

За да може търсачката в голямото търсене да обслужва своите потребители ефективно да пазят нещата в памет вместо да гледам го на дискета.

Традиционно голям мащаб търсачки ще пази техния пълен речник в памет и командироването списък на диск.

Речник-In-памет-назначения-он-диск

Неефективна за съхранение

Очевидно, толкова повече ще може да задържи в памет и повече информация може да се чете назад с един диск действия, толкова по-добре.

За съжаление, компютърът получава информация inefficiently съхранявани в кутии с фиксирани размери: ако кутията е 10 знака широк 4 характер думата все още заема 1 кутия от 10 знака.

Компресиране

Решението е да изтръгне информация заедно така, че най-ниската сума на пространство съдържа максимално количество информация.

Биг стринга Компресираните Речник

некомпресирани

може да стане:

големи стринг

Чрез добавяне на дължината на всяка дума на всяко влизане можем да направим списък от думи стотици герои кратък.

Gap Компресираните Публикуване Списък

некомпресирани-съобщения

може да стане:

сгъстен публикации

Чрез съхраняване на разликата между идентификационен документ (на пропуските) можем да спаси стотици символи.

Същото може да се направи за съхранение на празнините между индекс номера за появата позиции във всеки документ.

Тази "компресиран представителство кодира събития на термин като показалка към следващата поява на срока за улесняване на бързото изброяване на поява на термина".

Можете да търсите "събития от гледна точка на набор от документи, като изпълните следните насоки чрез сгъстен представителство".

Частично Decompression

Индекс съхраняват по този начин е напълно lossless: тя запазва цялата информация от документа идентификатор към документ позиционен идентификатор.

Като се започне с най-често се използва термина в търсенето е много лесно да се оправям да направи частични decompression на този индекс от

"Идентифициране на събития от гледна точка на набор от документи"

(речника) - да се използват след това;

"Съответния мандат идентификатори на термините в заявката за търсене, за да потърсим срок компенсира таблицата за показалка към първата поява на понятията в компресиран представителство на набора от документи"

(Още първия публикувате документа ID);

"И след верига от указатели, започвайки от първата поява за идентифициране на други събития, от гледна точка на сгъстен представителство на набора от документи"

(разликата сгъстен документ ID списък)

Препоръчителни четене:

Аз се мотае в Twitter, където се насладите на дружеството, Бъз, на nuggets на информация и мнения ще мине покрай.
Присъедини се към мен на Twitter!

Както е публикувано в Как Търсене наистина работи на март 14, 2008.

8 Отговорите дотук: 6 коментари и 2 trackbacks

  1. Бени (1 коментара.) Се казва:

    Ница пост ли става тук. Продължавай в същия дух, имате наистина хубаво статии.

  2. Рууд Хейн се казва:

    Благодарим, че ме знаеш, Бени. Вие имате голям блог става там, между другото. Смешни снимка твърде :)
    Чувствайте се свободни да ме удари по Twitter всяко време.

  3. spostareduro (26 коментара.) се казва:

    Рууд, аз малко се губи от това. Точно тук:
    "Компресиран представителство кодира поява на термин като показалка към следващата поява на срока за улесняване на бързото изброяване на случаи на термина" ... Аз мразя е рус! :-)

  4. Рууд Хейн се казва:

    Ким, той говори за съхраняване на различията между номера (на указатели).

    Всеки път, когато се работи с големи / дълги номера, съхраняване на разликата между тези числа разходи, средно взето, по-малко пространство, отколкото за съхранение на реалните числа.

    Тя също може да допринесе за ускоряване нещата.

    Така че, вместо да казва "тази дума се появява в документ 1040, 1050 и 1052" ти каже "тази дума се появява в документ 1040, 10 документи, след това и 2 документи, след това едно".

    Всеки брой точки за следващото място: Отидете 2 улици определяне .... 5 къщи още ... 10 долара допълнително др

  5. Дърдорене "SEO ВнИ" Goldenberg казва:

    Ница технически пункт Рууд:).

  6. Рууд Хейн се казва:

    Благодарение Gabriel - Оценявам коментар!

Trackbacks / Pingbacks

  1. [...] Как Търсене наистина работи: The Компресираните Index - Макар и малко напреднали, все още е много хубаво погледнете как търсачката работи чрез анализ на Индекс [...]

  2. [...] Тази публикация е част от продължаващата поредица: Как Търсене наистина работи. Миналата седмица: The Компресираните Индекс. [...]


Приятел Свързване

ПОСЛЕДНИ ЧЕТЦИ

English flagItalian flagKorean flagChinese (Simplified) flagChinese (Traditional) flagPortuguese flagGerman flagFrench flagSpanish flagJapanese flagArabic flagRussian flagGreek flagDutch flagBulgarian flagCzech flagCroat flagDanish flagFinnish flagHindi flagPolish flagRumanian flagSwedish flagNorwegian flagCatalan flagFilipino flagHebrew flagIndonesian flagLatvian flagLithuanian flagSerbian flagSlovak flagSlovenian flagUkrainian flagVietnamese flagAlbanian flagEstonian flagGalician flagMaltese flagThai flagTurkish flagHungarian flag