Inicio » Solr » Índices invertidos

Índices invertidos

Acercando me un poco en el mundo solr, encontré la referencia a índices invertidos. Este tipo de índices se utilizan muy frecuentemente en la recuperación de palabras.  Lo que hacen es almacenar cada término junto la lista de documentos donde vamos a encontrar ese término. De esta forma conseguimos un acceso directo a los documentos que contiene esa palabra. Existen dos tipos principales: índice invertido a nivel registro que guarda la referencia al documento que contiene la palabra y índice invertido a nivel palabra que guarda también la posición de la palabra dentro del documento. Este último requiere más tiempo para crearlo y más espacio.

Utilizando un ejemplo de la wikipedia es muy fácil de entender:

Dados los textos:

T[0] = "it is what it is"
T[1] = "what is it"
T[2] = "it is a banana"

Creamos los siguientes índices indicando en que documento encontramos las palabras:

"a":      {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}

Utilizando el mismo texto vemos un ejemplo de índice invertido a nivel palabra. Cómo los documentos la posición de las palabras también comienza con 0. Con lo cual banana”: {(2, 3) }significa que la palabra “banana” es la cuarta palabra (posición 3) del tercer.

"a":      {(2, 2)}
"banana": {(2, 3)}
"is":     {(0, 1), (0, 4), (1, 1), (2, 1)}
"it":     {(0, 0), (0, 3), (1, 2), (2, 0)}
"what":   {(0, 2), (1, 0)}

Más información:

http://en.wikipedia.org/wiki/Inverted_index

http://indiceri.netne.net/Indices%20Invertidos.html

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s