|
Los ficheros invertidos en la búsqueda de información
|
|
Un fichero invertido puede estar compuesto de dos o tres ficheros índice. Si continuamos con el discurso de A. Large, L.A. Tedd y R.J. Hartley, vemos que muchas bases de datos crean tres ficheros que corresponden a:
 | Fichero índice (index file)
En este fichero el sistema selecciona cada una de las palabras con significado de todos aquellos campos del registro que se ha decidido que había que indexar, y las ordena alfabéticamente. Seleccionará palabras o frases según el tipo de indización establecida para cada campo concreto.
A medida que se vayan introduciendo registros en la base de datos, este fichero índice se irá actualizando automáticamente.
Si nos fijamos en la tabla siguiente, podemos ver que un fichero índice puede introducir tres tipos de informaciones:
 | El término (term).
|
 | Número de ocurrencias (number of postings): número de registros en los que aparece el término en la base de datos.
|
 | Localización del fichero (postings file address): corresponde a un número de identificación propio de cada término dentro de la base de datos.
|
|
Inverted file structure: Index file
|
Term |
No. of postings |
Postings file address |
... |
|
|
Browsers |
27 |
1233 |
Centres |
23 |
3245 |
Community |
6 |
6100 |
Developments |
14 |
1456 |
Doctors |
29 |
2378 |
Effect |
234 |
65 |
Email |
145 |
6740 |
Engine |
26 |
2354 |
Engineers |
35 |
4356 |
Growth |
153 |
3297 |
Health |
635 |
8234 |
Informatics |
23 |
3298 |
Information |
347 |
2682 |
Internet |
2345 |
5478 |
Learning |
156 |
6390 |
Medical |
89 |
7789 |
Nurses |
21 |
8256 |
Fuente: A. Large y otros (1999)
|
Si cuando entramos un nuevo registro, el sistema detecta que uno de los términos no está incluido en este fichero índice, lo añadirá y en la información correspondiente al número de ocurrencias pondrá un 1 y dará un número de localización único para el nuevo término. En el caso de que el término aparezca en el fichero índice, el sistema únicamente tendrá que incrementar en 1 el número de ocurrencias.
 | Fichero de localización (postings file)
Contiene un número de identificación para cada término del fichero índice. Establece un vínculo de este número con los números de registro de la base de datos que incluyen el término.
|
Address |
Record numbers |
1233 |
88,91,427... |
1456 |
18,98,1245... |
2378 |
5,6,7,8,1455... |
2682 |
23,45,561,678,... 1245 |
3448 |
666,783,1011 |
5478 |
1,2,3,4,7,8,9,23,45,56,67...1245 |
6100 |
456,789,987,1034,1123,1245 |
6390 |
45,47,269,345,589 |
6740 |
2,3,5,18,34,56,269,345,589... |
7789 |
36,47,59,63,269... |
8256 |
1,3,578,892,1245... |
|
Fuente: A. Large y otros (1999)
|
 | Fichero de impresión (print file)
Este fichero está formado por los registros de la base de datos ordenados por número de registro.
|
Record N.º 1244...
Record N.º 1245
Jones, Jean; Wilkinson, Michael
Department of Electronic Communication Studies; University of Widgettown
Developments in medical information on the Internet and its use by nurses
Journal of Medical Internet Applications 6 3 129-137 1998
Controled terms: information seeking; medical informatics; World Wide Web;
A study of the growth of medical information on the Web and its effect on the information seeking behaviour of nurses, particularly in community health centres.
|
Fuente: A. Large y otros (1999)
|
Podemos ver, pues, que el fichero de localización establece el vínculo entre el fichero índice y el fichero de impresión.
El funcionamiento de estos ficheros puede llegar a ser bastante complejo según el tipo de búsqueda que hagamos. Sin embargo, lo ejemplificaremos con una búsqueda sencilla:

|
Cuando introducimos un término para realizar una consulta, por ejemplo, nurses, correspondiente a la imagen del index file, el sistema testea el fichero índice para ver si este término está incluido en su secuencia alfabética. Si no es así, el usuario recibe un mensaje del sistema en el que se indica que no hay ningún registro en la base de datos relacionado con nurses.
Si el término nurses está incluido en el fichero índice, el sistema informa al usuario del número de ocurrencias; es decir, del número de registros que contienen información relativa a nurses, en este caso 21; para hacer esta función, consultaría el fichero de localización (postings file).
Teniendo en cuenta que el resultado de la búsqueda es razonable (21 documentos), el usuario puede decidir ver estos registros por pantalla. En este caso, el sistema encuentra los números de los registros (accession numbers) en la localización 8256 del fichero de ocurrencias, y encuentra estos registros en el fichero de impresión; por lo tanto, podrá visualizar la información de los registros 1, 3, 578, 892 y 1245.
|
|
|