Tervetuloa! Kiitos käynnistä!
Tilaa kaikki syötteen
Tämä viesti on osa käynnissä olevaa sarja: Kuinka Haku todella toimii.
Aiemmin: Relevanssi (2)
Sen sijaan, että vaivalla tarttumalla absoluuttinen parhaiten vastaa hakutermille sitten sijoitus joilla on ääretön tarkkuuden, yksi ajansäästö strategia on hakukoneet mennä "riittävä".

Kun otetaan huomioon koko ajan, rahan ja resurssien maailmassa, tässä mitä we'd yleensä tehdä.
Sana sanalta te läpi haun. Näytät vuonna dokumenttisi ja katso mikä on sana yksi .... sana kaksi ... sana kolme .... Saat kuvan.
Annat noin plus-pisteitä joka kerta, kun etsitään sana näkyy asiakirjan. Kuinka monta pistettä? Riippuu TFxIDF pisteet kyseisen sanan.
Voit lisätä enintään pisteytyksen osaksi summa, joka mitataan merkitystä uudelleen. Onko sama kysely itse (kohdella niin kuin hyvin lyhyen asiakirjan pohjimmiltaan). Lyhyesti: olet laskevat vektorin tilaa tulokset.
Toimenpide matemaattinen samankaltaisuus asiakirjan 1 ja kysely, asiakirja 2 ja kysely, asiakirja 3 ja ... Yup.
Ja sitten ei voi vain isku kaikille niille, ruudulle. Sinun täytyy räätälöidä on hakijan tarpeesta ja poimia ja lajitella alkuun pisteytyksen asiakirjoja!
Nyt voit lajitella kaikki sijoitettiin asiakirjat kerralla tai vain mennä alkuun useita asiakirjoja tarvitaan sanoa ensimmäisen tai seuraavan 10, koska searchers on, että asettaa enintään tulosta sivua kohti.
Sen sijaan, että teemme tämän valtavan lajittelu rutiini sinulla heittää kaikki arvot yhdessä iso musta hattu (matemaatikot kutsua tätä "kasaan"), keksiä alkuun 10 asiakirjoja tai niin, ja vasta sitten lajitella niitä.

Mikä on mielestäni hauskaa, että tämä erittäin tarkasti, korkeiden kustannusten tapa hoitaa asioita ei välttämättä tarkoita, että saat parhaan sinulle pukittaa, paras laatu tulokset teidän hakija kärsivällisyyttä.
Ei, matemaattinen samankaltaisuus haku-ja nämä asiakirjat on jotain pidämme olennaisina.
That's a alhainen takaisinmaksuajat työskennellä, kun kustannukset ovat niin korkeat, vertaamalla valtava määrä asiakirjoja, laskukoneet matemaattinen yhtäläisyyksiä .... tarttumalla yläreunassa keko ...
Käsitys merkitystä on jotain hakukoneen voi käyttää vaikka meneillään "riittävän hyvä".

Sen sijaan, että laskettaessa alkuun 10 kanssa erittäin tarkasti, miksi ei tartu joukko asiakirjoja, jotka mitä todennäköisimmin että top 10?
Juuri tartu joukko asiakirjoja, jotka ovat mukana kilpailussa on vastaus hakijan kyselyn ja toteuttaa alkuun 10 että nippu!
Vaikka tämä top 10 ei Top 10 olisimme löytäneet käyttämällä tunnollinen Precision menetelmä, se sisältää useita dokumentteja, jotka olisi ollut, että alkuun 10 tai lähellä sitä.
Se on kuin ottaa kulhoon M & M: n ja haluavat syödä punaisia. Voit lajitella ne vaivalla ja sitten on punaisia ... tai voit napata tällä alalla, jossa näet suurin osa punaisia näyttävät.
Jotta saapumatta, kuvia courtesy of Westpark, Irina Souiki ja jacalynsnana
I hengaile klo viserrys jossa nauttia yritys, pöristä, että Nuggets tietoyhteiskunnan ja lausunto jätämme pitkin.