La relevancia desde el punto de vista del sistema de recuperación de información

Cuando consultamos una base de datos o un buscador de Internet, obtenemos unos resultados en respuesta a una estrategia de búsqueda que hemos ejecutado previamente.

En este apartado podemos hacernos dos preguntas básicas:

¿Hasta qué punto hemos conseguido recuperar todos los documentos que existen en el sistema y que son relevantes para nuestra búsqueda?
¿Hasta qué punto hemos conseguido recuperar la máxima cantidad de documentos relevantes, sin recuperar los que no lo son?

Encontramos la respuesta a estas dos preguntas en dos índices básicos denominados:

Índice de recuperación (o recall ratio).
Índice de precisión (o precision ratio).

Estos dos indicadores fueron elaborados en el marco de los proyectos llevados a cabo a finales de los años cincuenta en el Cranfield College of Aeronautics de Inglaterra. El objetivo de estos proyectos era evaluar el efecto y las diferencias que el uso de vocabularios controlados y lenguajes naturales producían en el proceso de búsqueda y recuperación de información. Desarrollaron un estándar de evaluación, basado en dos medidas básicas: el recall ratio y el precision ratio.

El índice de recuperación mide la proporción de documentos relevantes recuperados, es decir, mide la efectividad y exhaustividad de la búsqueda realizada, o hasta qué punto después de interrogar el sistema hemos conseguido recuperar todos los documentos relevantes para nuestra consulta.

Este índice se expresa en términos de proporcionalidad mediante la fórmula siguiente:

El índice de precisión mide la exactitud de la búsqueda, o hasta qué punto se ha conseguido recuperar sólo los registros que debían ser recuperados, evitando hacerlo con los que no eran necesarios.

Este índice se expresa en términos de proporcionalidad mediante la siguiente fórmula:

El índice de recuperación se relaciona con el concepto silencio, mientras que el índice de precisión se relaciona con el concepto ruido.

Hablamos de silencio en una búsqueda cuando no hemos conseguido recuperar todos los documentos pertinentes; o lo que es lo mismo, cuando hemos obtenido menos ítems de los que podíamos obtener.

Hablamos de ruido en una búsqueda cuando no hemos conseguido eliminar los documentos no pertinentes (cuando hemos obtenido más ítems de los que deberíamos haber obtenido).

De entrada, tanto el silencio como el ruido pueden ser causados por los hechos siguientes:

Que no hayamos planteado correctamente la búsqueda.
Que no hayamos elegido la fuente de información más apropiada.

La relación entre el índice de recuperación y el índice de precisión es expresada por varios autores mediante la matriz siguiente:

Ítems recuperados

Ítems no recuperados

Relevantes

A

C

No relevantes

B

D

Grupo A: engloba los ítems recuperados y relevantes para nuestra consulta.
Grupo B: engloba los ítems recuperados y no relevantes para nuestra consulta.
Grupo C: engloba los ítems que, a pesar de ser relevantes para nuestra consulta, no han sido recuperados.
Grupo D: engloba los ítems que no han sido recuperados, pero que tampoco eran pertinentes para nuestra consulta.

A partir de la interpretación de esta matriz, podemos extraer las conclusiones siguientes:


Ejemplo
Podemos definir como búsqueda perfecta aquella en la que recuperamos todos los documentos relevantes sin ningún documento no relevante (es decir, sólo estarían llenos los grupos A y D, mientras que B y C se mantendrían vacíos).
Los ítems que se engloban en el grupo B producen ruido en el resultado de la consulta, es decir, producen una reducción de la precisión de la búsqueda.
Los ítems que se engloban en el grupo C producen silencio en el resultado de la consulta, es decir, producen una reducción de el índice de recuperación de la búsqueda.

Además de la elaboración de estas dos medidas de evaluación, otra aportación importante del test de Cranfield fue la demostración de la relación inversa que existe entre los dos índices.

Para entender esta relación inversa, pondremos un ejemplo: imaginemos que queremos hacer una búsqueda que nos permita conseguir un índice elevado de precisión; esto implica recuperar necesariamente menos ítems (es decir, ser menos exhaustivos) mediante una estrategia de búsqueda muy esmerada.

En principio, lo ideal es que esta reducción de ítems se produzca por el lado de los ítems no relevantes (grupo D de la matriz), pero incluso podemos acabar eliminando también ítems relevantes que pasarían a engrosar el grupo C de la matriz, y eso repercutiría negativamente en el resultado del índice de recuperación.

Por el contrario, una elevada exhaustividad implica ampliar el número de ítems recuperados, tanto en el grupo A como el B de la matriz, por lo cual nuestra precisión bajaría.

Arriba