Ruud Hein Bienvenido! Gracias por visitarnos!

Suscríbase a la alimentación completa

Buscar cómo funciona realmente: el acaparamiento de la mayoría de Red M & M's

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
Anteriormente: Pertinencia (2)

En vez de agarrar cuidadosamente los mejores partidos de la consulta a continuación, aquellos con rango infinito de precisión, una estrategia de ahorro de tiempo los motores de búsqueda para ir "bastante cerca".

Minuciosa precisión

ordenados mm

Teniendo en cuenta todo el tiempo, dinero y recursos en el mundo, esto es lo que nos hace normalmente.

Palabra por palabra de ir a través de una búsqueda. Te ves en sus documentos y ver una palabra que tiene .... palabra dos ... tres ... palabra. Usted obtiene la imagen.

Ruud Hein

¿Cómo funciona realmente Buscar: Pertinencia (2) - espacios vectoriales

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
Anteriormente: Relevance (1)

Otra forma en que podemos evaluar la pertinencia de un documento es, por término de ponderación.

Desde el mito de la densidad de palabras clave, sabemos que la verdadera expresión de ponderación se realiza la recogida de ancho.

Al observar el número de documentos en el índice que aparece en un plazo que puede hacer una medición de la información: lo bueno, ¿cómo ... cómo especial significativa es esta palabra?

La palabra la especial no sería en absoluto, que figura en el camino demasiados documentos. Su valor sería cercano a cero.

Ruud Hein

¿Cómo funciona realmente Buscar: Relevancia (1)

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
Anteriormente: simple optimización de consultas.

Es siempre la búsqueda booleana: sí o no. Verdadero o falso.

Cualquiera de las palabras están en el documento o no.

búsqueda booleana

Pero como ves, no todos los documentos que son "nacidos por igual". Algunos están sobre nuestro tema, algunos sólo lo mencionaré.

Lo que necesitamos, lo que queremos, no es sólo una gran lista de resultados - queremos una lista de resultados relevantes, de preferencia ordenados de modo que la mejor apuesta en la parte superior.

Ruud Hein

¿Cómo funciona realmente Búsqueda: Simple Consulta Optimización

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
Última semana: El Índice comprimido.

Si bien los seres humanos puede escanear una página y ver si toda la frase "un diccionario grandilocuente" aparece en ella, un motor de búsqueda no puede.

Un motor de búsqueda tiene que:

  1. Buscar las ocurrencias de cada palabra en la frase
  2. Ver si las posiciones de las palabras en el documento encaja la frase

Como un motor de búsqueda inteligente que no se tiene que trabajar inteligente.

Palanca de frecuencia de palabras clave

de clasificación por frecuencia

Ruud Hein

¿Cómo funciona realmente Búsqueda: El Índice comprimido

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
La semana pasada: Reconocer este índice?

La memoria es mucho más rápido que mirando las cosas.

Para que un motor de búsqueda en alta demanda para servir a sus usuarios de manera eficiente debe mantener las cosas en la memoria en lugar de ver que en un disco.

Tradicionalmente, los motores de búsqueda a gran escala mantendrá su diccionario completo en la memoria y el desplazamiento lista en el disco.

diccionario-en-memoria-anuncios-en-disco

Ineficiente de almacenamiento

Obviamente cuanto más se puede mantener en la memoria y obtener más información se puede leer de nuevo con un disco de acción, mejor.

Ruud Hein

¿Cómo funciona realmente Buscar: Reconocer este índice?

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
La semana pasada: "El" Índice (2).

Demasiado: tenemos al menos un par de páginas en nuestro índice, se han extraído cada palabra de los que han escrito páginas y en un índice en el que las páginas donde las palabras se producen.

¿Quieres hablar números? Tenemos algunas muy precisas para que el idioma Inglés.

Google dice;

"Hemos procesado 1.024.908.267.229 palabras de texto y se ejecuta la publicación de la cuenta 1176470663 para todos los cinco secuencias de palabras que aparecen por lo menos 40 veces. Hay 13.588.391 única, es decir, después de descartar las palabras que aparecen menos de 200 veces."

Ruud Hein

¿Cómo funciona realmente la búsqueda: "El" Índice (2)

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
La semana pasada: "El" Índice (1).

La semana pasada vimos cómo un índice invertido (si una lista de palabras apunta a una lista de los documentos en que aparecen) es útil para locamente Y haciendo preguntas.

índice invertido

¿Pero qué pasa si no estás en busca de cualquier documento que tenga las palabras de búsqueda y las personas y del motor, sino que está buscando gente de motores de búsqueda?

Bueno, si el documento 42 en el ejemplo dice "el motor fue encontrado tras una búsqueda por algunas personas" o "la gente utiliza un motor de búsqueda como Google" que un índice invertido tradicionales creo que es en el terreno para su búsqueda. Ai ....

Ruud Hein

¿Cómo funciona realmente la búsqueda: "El" Índice (1)

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
Tramo anterior: El mito de la densidad de palabras clave.

Si un motor de búsqueda de la búsqueda "en vivo" a través de los documentos que conoce de la ocurrencia de la palabra que estamos buscando que puede tomar su tiempo y, a continuación, simplemente informe donde se encuentra nuestra palabra.

En este ejemplo, nuestro motor de búsqueda sólo tiene un índice: los documentos en sí.

documento de sólo-índice

Sin embargo, el tiempo es algo que un motor de búsqueda no tiene, la pregunta debe ser respondida ahora.

Lo que necesitamos es un verdadero índice!

Ruud Hein

¿Cómo funciona realmente Búsqueda: El Mito de densidad de palabras clave

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
La semana pasada: Relleno de palabras clave.

¿Qué es la densidad de palabras clave?

Densidad de palabras clave es una función, un cálculo, la frecuencia de palabras clave.

Es calculado como el número de incidentes dividido entre el número de palabras y se expresa normalmente como un porcentaje.

ejemplo la densidad de palabras clave

¿Qué es la densidad de palabras clave utiliza?

No hay mucho, de verdad.

La densidad de palabras clave puede ayudar a la legibilidad en los cálculos.

La densidad de palabras clave también se utiliza a veces como una manera simplificada locales para introducir las palabras clave de peso, pero nunca debe confundirse con ella.

¿Por qué no utilizar los motores de búsqueda de palabras clave Densidad?

local-la densidad de palabras clave

Ruud Hein

¿Cómo funciona realmente la búsqueda: Palabra clave Relleno

por Ruud Hein.

Este puesto es parte de una serie en curso: ¿Cómo funciona realmente la búsqueda.
Última semana: Enlaces de palabras clave.

Abandonados a su suerte, la gente asignar palabras clave (etiqueta o enlace), ya que, por favor.

Que pinta un panorama de la riqueza vinculada contenido.

natural que une

De palabras clave es el uso repetitivo antinatural de una palabra o frase.

En su contenido ....

por palabra clave relleno

.. o sus enlaces ...

por palabra clave stuffing2