La relevancia desde el punto de vista del sistema de recuperación de información

Cuando consultamos una base de datos o un buscador de Internet, obtenemos unos resultados en respuesta a una estrategia de búsqueda que hemos ejecutado previamente.

En este momento nos podemos hacer dos preguntas básicas:

 

¿Hasta qué punto hemos conseguido recuperar todos los documentos relevantes para nuestra búsqueda que hay en el sistema?
 

¿Hasta qué punto hemos conseguido recuperar la máxima cantidad de documentos relevantes sin recuperar los que no lo son?

Encontramos la respuesta a estas dos preguntas en dos índices básicos:

 

índice de recuperación (recall ratio)
 

índice de precisión (precision ratio)

Estos dos indicadores fueron elaborados en el marco de los proyectos llevados a cabo a finales de los años cincuenta en el Cranfield College of Aeronautics de Inglaterra. El objetivo de estos proyectos era evaluar el efecto y las diferencias que el uso de vocabularios controlados y lenguajes naturales producía en el proceso de búsqueda y recuperación de información. Desarrollaron un estándar de evaluación basado en dos medidas básicas: el índice de recuperación y el índice de precisión.

El índice de recuperación mide la proporción de documentos relevantes recuperados: es decir, la efectividad y exhaustividad de la búsqueda hecha o hasta qué punto después de interrogar al sistema hemos conseguido recuperar todos los documentos relevantes para nuestra consulta.

Este índice se expresa en términos de proporcionalidad mediante la fórmula siguiente:

El índice de precisión mide la exactitud de la búsqueda; es decir, hasta qué punto se ha conseguido recuperar sólo los registros que tenían que ser recuperados, lo cual evita recuperar los que no eran necesarios.

Este índice se expresa en términos de proporcionalidad mediante la fórmula siguiente:

El índice de recuperación se relaciona con el concepto silencio, mientras que el de precisión se relaciona con el concepto ruido.

Hablamos de silencio en una búsqueda cuando no hemos conseguido recuperar todos los documentos pertinentes: es decir, cuando hemos obtenido menos ítems de los que podíamos obtener.

Hablamos de ruido en una búsqueda cuando no hemos conseguido eliminar los documentos no pertinentes, es decir, cuando hemos obtenido más ítems de los que tendríamos que haber obtenido.

De entrada, tanto el silencio como el ruido pueden estar causados por los hechos siguientes:

 

Que no hayamos planteado correctamente la búsqueda.
 

Que no hayamos escogido la fuente de información más apropiada.

Además de la elaboración de estas dos medidas de evaluación, otra aportación importante del test de Cranfield fue la demostración de la relación inversa que hay entre estos dos índices.

Para entender esta relación inversa, pondremos un ejemplo: imaginemos que queremos hacer una búsqueda que nos permita conseguir un índice elevado de precisión. Esto implica necesariamente recuperar menos ítems: es decir, ser menos exhaustivos mediante una estrategia de búsqueda muy cuidadosa.

En principio, lo ideal es que esta reducción de ítems se produzca por el lado de los ítems no relevantes, pero si hilamos muy fino podemos acabar eliminando también ítems relevantes, y esto repercutiría negativamente en el resultado del índice de recuperación.

Por el contrario, una exhaustividad elevada implica ampliar el número de ítems recuperados y, por lo tanto, nuestra precisión bajaría.

Arriba
Cerrar