Las bases de datos

En este apartado, dedicado a las herramientas de búsqueda, queremos hacer especial incidencia en las bases de datos, ya que son herramientas indispensables en la búsqueda de información. La consulta de una base de datos especializada nos permite localizar información de cualquier tipo: últimos estudios publicados en todo el mundo sobre un tema concreto, la sentencia sobre un caso judicial de actualidad, datos de facturación de empresas de la competencia, toda la legislación relacionada con una materia concreta, los componentes químicos de un producto farmacéutico, etc.

Las bases de datos son para los documentalistas la fuente de información por excelencia.

Contenido complementario

Hasta que no apareció la red Internet, y con ella el gran volumen de páginas web accesibles, la forma más fácil y ágil -y a menudo la única- de consultar información especializada era mediante las bases de datos. Actualmente, según el tipo de información que estemos buscando, podemos utilizar un buscador en Internet o ir directamente a una base de datos especializada. También podemos hacer una combinación de los dos tipos de fuentes de información.

Ejemplo

Un usuario nos pide información sobre Bali. Vemos que el tema de la búsqueda es muy conocido. Probablemente, en Internet encontraremos muchas páginas web sobre esta isla de Indonesia. Nuestra búsqueda, pues, se iniciaría en Internet.

Un usuario está interesado en conocer los últimos estudios que se han publicado sobre una enfermedad muy poco conocida por el gran público. En este caso, nuestra búsqueda tendrá que hacerse directamente en una base de datos especializada en medicina, como Medline.

A menudo, cuando hablamos de bases de datos, pensamos en bases de datos, gratuitas o comerciales, que las bibliotecas y los centros de documentación suscriben para su posterior consulta. Sin embargo, el concepto de base de datos es más amplio.

¿A qué nos referimos cuando hablamos de bases de datos?

Una base de datos no es más que una colección organizada de datos constituida por los propios datos y una serie de índices asociados que permiten que estos datos sean recuperables.

Hace falta, sin embargo, diferenciar entre lo que es propiamente una base de datos y el programa informático que hace posible explotarla. Estos sistemas informáticos se llaman sistemas de gestión de bases de datos (SGBD) y hacen posible introducir los datos, modificarlos, eliminarlos, recuperarlos y también editarlos por pantalla e imprimirlos.

Más adelante estudiaremos qué opciones y técnicas utilizan los SGBD para la recuperación de la información.

Todos estaremos de acuerdo en que una de las tareas que desarrolla una biblioteca o un centro de documentación consiste en la búsqueda y recopilación de información. A partir de los datos recopilados, estos centros confeccionarán sus propias bases de datos internas, como podrían ser las siguientes:

Base de datos de su propio fondo (catálogo).
Base de datos en la que vacían los artículos de las publicaciones periódicas a las que están suscritos.
Base de datos para el control de sus adquisiciones.
Base de datos de sus usuarios.
Base de datos de las preguntas y respuestas más frecuentes recibidas en el centro, etc.

Todas, pues, corresponderían a bases de datos internas de la biblioteca.

Evidentemente, si la biblioteca decide que la consulta de sus bases de datos internas sea accesible a otras bibliotecas o al público en general -de forma gratuita o mediante previa suscripción-, estas bases de datos pasarán a ser bases de datos externas para la biblioteca que las utilice como fuente de información.

Así pues, las bases de datos externas son herramientas que utiliza la biblioteca para localizar información que no corresponde a su propio fondo; es decir, son externas a la propia biblioteca. Estas bases de datos pueden ser gratuitas o bien de pago. El acceso a ellas tiene lugar por medio de servicios de búsqueda en línea, en CD-ROM y, como ya hemos comentado, cada vez más por Internet.

En el caso concreto de Internet, podemos encontrar tanto bases de datos especializadas gratuitas normalmente, este tipo de bases de datos son mantenidas por organismos oficiales y organizaciones sin ánimo de lucro-, como las denominadas bases de datos comerciales de pago, a las que es necesario suscribirse para poder consultarlas.

Algunas de las bases de datos comerciales permiten la consulta gratuita de información referencial. Sin embargo, si se quiere obtener el texto completo o los datos con valor añadido se debe ser miembro de la institución propietaria de la base de datos, como sucedería en el caso de la base de datos Guiame de Esade (http://www.guiame.net/), o bien pagar por el texto completo, como ocurre en la base de datos de convenios colectivos de Lex-Nova (http://www.lexnova.es).


Contenido complementario
Contenido complementario

Otra modalidad sería la que encontramos en bases de datos como ERIC o Medline, que pueden consultarse gratuitamente por Internet, a pesar de que también disponen de versión de pago que ofrece más prestaciones que la versión gratuita.

Tipos de bases de datos

Las bases de datos, según la información que almacenen, pueden clasificarse en dos grandes grupos: referenciales y factuales.

Referenciales

Factuales

Bibliográficas
Catálogos de bibliotecas
Referenciales
Numéricas
Textuales
Textuales-numéricas
Multimedia

  1. Bases de datos referenciales
  2. Dirigen al usuario hacia otra fuente que contiene la información primaria, como por ejemplo un documento o un organismo. Dentro de esta tipología podemos hablar básicamente de tres grupos:

    Bases de datos bibliográficas: incluyen cita o referencias bibliográficas y, en muchos casos, también un resumen. Informan al usuario de lo que se ha publicado sobre una materia en concreto, y también indican en qué tipo de fuente está ubicado.
    Catálogos de bibliotecas: incluyen el fondo propio de una biblioteca o de una red de bibliotecas. Estas bases de datos incluyen monografías, títulos de publicaciones periódicas y otros tipos de documentos que tiene la biblioteca. En este sentido, los catálogos son bases de datos bibliográficas, sin embargo, dado que su orientación es diferente de las otras bases de datos bibliográficas -informan sobre el propio fondo de la biblioteca-, es importante considerarlas como una categoría diferente.
    Bases de datos referenciales: son directorios que ofrecen datos para identificar organismos, instituciones o personas, como por ejemplo nombres, direcciones, información sobre la actividad que realizan, etc.

  1. Bases de datos factuales (source databases)
  2. Contienen la información original en formato electrónico. Cuando consultamos una base de datos factual, obtenemos la información directamente y no tenemos que consultar ninguna fuente de información complementaria. La información puede estar disponible, por ejemplo, en formato HTML, PDF y también en formato de impresión. Según su contenido, podemos destacar las siguientes bases de datos:

    Numéricas: contienen datos numéricos como por ejemplo estadistícas.
    Textuales: contienen textos completos de documentos.
    Textuales-numéricas: contienen datos textuales y también numéricos. Por ejemplo, el informe anual de una empresa.
    Multimedia: contienen documentos en los cuales podemos encontrar no sólo texto, sino también sonido, imagen fija e imagen en movimiento.

Estructuración de las bases de datos: los índices y la búsqueda de información

La estructura de las bases de datos

La unidad básica de una base de datos es el registro. Cada registro de una base de datos contiene toda la información relativa a un documento. Por ejemplo, cada registro de una base de datos de patentes contiene toda la información sobre una patente en particular. Del mismo modo, en una base de datos de productos químicos cada registro corresponde a la identificación de un producto concreto.

Por otra parte, los registros están divididos en una serie de campos. Cada campo contiene un elemento de información del registro (es decir, contiene datos). Por ejemplo, en una base de datos de empresas, la información que se facilita sobre cada empresa (nombre de la empresa, dirección, datos de facturación, etc.) se presenta en un campo concreto del registro.

Los campos de los registros de una base de datos son su elemento más diferenciador; estos campos serán unos u otros según el tipo de información que la base de datos almacene.

Es muy probable que una base de datos bibliográfica incorpore los campos siguientes:

Registro de la base de datos Sociofile de Ebsco.

Registro de la base de datos Sociofile de Ebsco.

Una base de datos de información de empresas tendrá una estructura de campos diferente:

Registro de la base de datos Buscador de empresas españolashttp://www.elcorredor.com

Igualmente, una base de datos a texto completo tendrá algún campo diferente:

Registro de la base de datos Academic ASAP de Information Access.

En el caso de una enciclopedia en línea, la base de datos tendrá pocos campos:

Registro de la enciclopedia Britannica Online.

Los índices y sus efectos en la búsqueda de información

En la obra Information Seeking in the Online Age: Principles and Practice, A. Large, L. A. Tedd y R.J. Hartley consideran que:

Cita

"... cuando ejecutamos una búsqueda en una base de datos, esperar diez segundos para obtener una respuesta es un tiempo excesivo, incluso cuando estamos interrogando una base de datos como quizá Medline, que contiene más de ocho millones de registros."

A. Large y otros (1999)

Evidentemente, este tiempo de espera está condicionado por el hardware, el software y las comunicaciones que se utilicen, pero también tiene un papel muy importante la estructuración e indización de los ficheros.

Un índice pretende proporcionar acceso a los documentos o a la información que éstos contienen. Los índices mantienen un orden preclasificado de uno o más campos, lo cual reduce el tiempo de respuesta de la base de datos.

El productor de la base de datos es quien decide cómo se debe procesar cada campo para generar el índice, de manera que el sistema generará automáticamente los índices correspondientes a cada nuevo registro.

Cada campo puede indexarse de varias maneras. Las siguientes son las más habituales:

Por palabra:

Este tipo de indización suele utilizarse en los campos que contienen datos sobre el contenido del documento, que son básicamente el título, los descriptores y el resumen. Se trata, pues, de campos en los que cada palabra tiene un significado útil en la recuperación; por lo tanto, el sistema selecciona todas las palabras de este campo excepto las conocidas como palabras vacías de significado. Este tipo de palabras corresponden a aquellas que aparecen frecuentemente en un texto, pero que no tienen ningún valor en el momento de recuperar información (y, sin embargo, de, a).

Una palabra se identifica como una secuencia alfanumérica de caracteres separados por un espacio o por el final del campo. Por lo tanto, cuando buscamos por un campo que ha sido indizado por palabra podremos buscar cualquiera de sus términos, excepto las palabras vacías, independientemente de la posición dentro del campo en que éstos se encuentren.

Por frase:

Este tipo de de indización se utiliza, normalmente, en campos que están sujetos a algún tipo de normalización, como pueden ser los campos de autor y materia. La indización se hace por frase, no por palabras individuales.

Una frase se identifica habitualmente por un punto y coma seguido de un espacio o bien por el final del campo. Si se decidiera indexar un campo de título por frase, deberíamos conocer el inicio exacto del título que estamos buscando para poder recuperarlo.

Por palabra y frase:

Para algunos tipos de campos, resulta de mucha utilidad el empleo de las dos formas de indización. Normalmente, este tipo de indización se utiliza para campos sometidos a control de vocabulario (descriptores, materias, etc.) en el caso de una base de datos bibliográfica, o bien para el campo del nombre de un organismo en una base de datos de referencia.

Sin ningún tipo de indización:

Hay campos que contienen información sin ningún valor en un ámbito de búsqueda y que, por lo tanto, no es necesario indexar. Sería, por ejemplo, el caso del campo de paginación en una base de datos bibliográfica.

Los mismos autores nos ilustran los diferentes tipos de indización que pueden establecerse en una base de datos bibliográfica.

Por ejemplo, el caso siguiente corresponde a un registro de una base de datos bibliográfica con los datos introducidos correspondientes a un artículo de revista. Vemos que el registro está dividido en 11 campos: an (número de registro), ave (autores), aa (afiliación de los autores, lugar de trabajo), ti (título), so (revista fuente), vo (volumen), is (número), pg (páginas), yr (año), ct (términos controlados) y ab (resumen).

an:

1245

ave:

Jones, Jean; Wilkinson, Michael

aa:

Department of Electronic Communication Studies; University of Widgettown

ti:

Developments in medical information on the Internet and its use by nurses

so:

Journal of Medical Internet Applications

vo:

6

is:

3

pg:

129-137

yr:

1998

ct:

Information seeking; medical informatics; World Wide Web

ab:

A study of the growth of medical information on the Web and its effect on the information seeking behaviour of nurses, particularly in community health centres.

Fuente: A. Large y otros (1999)

En el caso siguiente, los autores han generado un índice alfabético en el cual detallan entre paréntesis a qué campo corresponde el término de indización, y en el cual vemos también qué campos se han indizado por palabra o por frase:

Campos indizados por palabras: ab, an, ti, yr.
Campos indizados por frase: aa, ave, so.
Campos indizados por palabra y por frase: ct.
Campos no indizados: vo, is, pg.

1245(an)

1998(yr)

Behaviour(ab)

Centres(ab)

Community(ab)

Department of Electronic Communication Studies(aa)

Developments(ti)

Effect(ab)

Growth(ab)

Health(ab)

Informatics(ct)

Information(ti,ab,ct)

Information seeking (ct)

Internet(ti)

Jones, Jean(ave)

Journal of Medical Internet Applications(so)

Medical(ti,ab,ct)

Medical informatics(ct)

Nurses(ti,ab)

Particularly(ab)

Seeking(ab,ct)

Study(ab)

University of Widgettown(aa)

Use(ti)

Web(ab,ct)

Wide(ct)

Wilkinson, Michael(ave)

World(ct)

World Wide Web(ct)

Fuente: A. Large y otros (1999)

El tipo de indización que se haga en una base de datos incidirá directamente en las posibilidades de su consulta.

Para disminuir el tiempo de respuesta, muchas bases de datos crean unos ficheros invertidos que agilizan la búsqueda.

Arriba