Los índices y sus efectos en la búsqueda de información En la obra Information Seeking in the Online Age: Principles and Practice, A. Large, L.A. Tedd y R.J. Hartley consideran lo siguiente:
Evidentemente, este tiempo de espera está condicionado por el hardware, el software y las comunicaciones que se utilicen, pero también tiene un papel muy importante la estructuración e indexación de los ficheros. Un índice pretende proporcionar acceso a los documentos o a la información que contienen. Los índices mantienen un orden reclasificado de uno o más campos, lo cual reduce el tiempo de respuesta de la base de datos. El productor de la base de datos es quien decide cómo se tiene que procesar cada campo para generar el índice, de manera que el sistema generará automáticamente los índices correspondientes a cada nuevo registro. Cada campo se puede indexar de diferentes maneras. Las más habituales son las siguientes: Por palabra Este tipo de indexación se suele utilizar en los campos que contienen datos sobre el contenido del documento, que básicamente son el título, los descriptores y el resumen. Se trata, pues, de campos en los que cada palabra tiene un significado útil en la recuperación y, por lo tanto, el sistema selecciona todas las palabras de este campo excepto las conocidas como palabras vacías de significado. Este tipo de palabras corresponden a las que aparecen frecuentemente en un texto, pero que no tienen ningún valor a la hora de recuperar información (y, pero, de, a). Una palabra se identifica como una secuencia alfanumérica de caracteres separados por un espacio o por el final del campo. Por lo tanto, cuando buscamos por un campo que ha sido indexado por palabra, podremos buscar cualquier término del campo, excepto las palabras vacías, independientemente de la posición que tenga dentro del campo. Por frase Este tipo de indexación se utiliza, normalmente, en campos que están sujetos a algún tipo de normalización, como pueden ser los campos de autor y materia. La indexación se hace por frase, en vez de hacerla por palabras. Una frase es habitualmente identificada por un punto y coma seguido de un espacio o bien por el final del campo. El hecho de que se decidiera indexar un campo de título por frase nos obligaría a conocer el inicio exacto del título que buscamos para poder recuperarlo. Por palabra y frase Para algunos tipos de campos, es muy útil usar las dos formas de indexación. Normalmente, este tipo de indexación se utiliza para campos sometidos a control de vocabulario (descriptores, materias) en el caso de una base de datos bibliográfica, o bien para el campo del nombre de un organismo en una base de datos de referencia. Sin ningún tipo de indexación Hay campos que contienen información sin ningún valor con respecto a la búsqueda y que, por lo tanto, no es necesario indexar. Sería, por ejemplo, el caso del campo de paginación en una base de datos bibliográfica. Para disminuir el tiempo de respuesta, se crean unos ficheros invertidos que agilizan la búsqueda. Los ficheros invertidos en la búsqueda de información Un fichero invertido puede estar compuesto de dos o tres ficheros índice. Si continuamos con el discurso de A. Large, L.A. Tedd y R.J. Hartley, vemos que muchas bases de datos crean tres ficheros que corresponden al siguiente: Fichero índice (index file) En este fichero el sistema selecciona cada una de las palabras con significado de todos los campos del registro que se ha decidido que había que indexar y las ordena alfabéticamente. Seleccionará palabras o frases según el tipo de indexación establecida para cada campo concreto. A medida que se introduzcan registros en la base de datos, este fichero índice se actualizará automáticamente. Un fichero índice puede meter tres tipos de informaciones: El término (term). El número de ocurrencias (number of postings): número de registros en los que aparece el término en la base de datos. La localización del fichero (postings file address): corresponde a un número de identificación propio de cada término dentro de la base de datos. Si cuando introducimos un nuevo registro el sistema detecta que uno de los términos no está incluido en este fichero índice, lo añadirá, pondrá un 1 a la información correspondiente al número de ocurrencias y dará un número de localización único para el nuevo término. En caso de que el término aparezca en el fichero índice, el sistema únicamente tendrá que incrementar en 1 el número de ocurrencias. Fichero de localización (postings file) Muestra las correspondencias entre el número de identificación propio de cada término y los números de registro de la base de datos que incluyen este término. Fichero de impresión (print file) Este fichero está formado por los registros de la base de datos ordenados por número de registro. Podemos ver, pues, que el fichero de localización establece el vínculo entre el fichero índice y el fichero de impresión. El funcionamiento de estos ficheros puede llegar a ser bastante complejo según el tipo de búsqueda que hagamos. |