 |
|
Corresponde al tipo de lenguaje libre más habitual. Esta tipología consiste en una lista de palabras significativas ordenadas alfabéticamente. Cuando hablamos de palabras significativas, nos referimos al hecho que son palabras "no vacías" (es decir, todas las palabras que no son artículos, conjunciones, pronombres, preposiciones, numerales y algunos verbos y adverbios). Estas palabras se extraen de forma automática por ordenador, a partir del título, del resumen y, cada vez más, del texto completo de los documentos registrados.
|
 | Lista de descriptores libres
Una lista de descriptores es un listado (ordenado alfabéticamente) de conceptos destacados, por un proceso intelectual, a partir de los documentos registrados dentro de un sistema documental determinado. Estos conceptos se expresan mediante palabras o expresiones extraídas de los documentos, o bien los proponen los documentalistas, sin verificar si existen previamente en una lista establecida a priori.
Vemos que las características son idénticas a las que presentan las palabras clave. La única diferencia consiste en que en los descriptores libres se han excluido las palabras vacías y también los casos de polisemia o sinonimia más evidentes, de manera que el vocabulario está depurado a un nivel elemental, lo cual facilita la tarea de recuperación de información.
|
- Lenguajes controlados
, construidos a priori antes de indexar los documentos de una colección.
Existen dos tipos principales de lenguajes controlados:
 | Los encabezamientos de materias
|
 | Los tesauros de descriptores |
- Lenguajes codificados
representados, principalmente, por las clasificaciones.
Teniendo en cuenta su importancia, estos tres últimos tipos de lenguajes controlados serán tratados más adelante en este mismo bloque.
Así pues, vemos que muchos autores utilizan el mismo término para referirse tanto a los lenguajes de indización como a los lenguajes de clasificación. No obstante, J. Maniez establece una distinción de las diferentes tipologías de los lenguajes documentales que se desvía de la mayoría de los autores y que pensamos que es interesante:

| Fuente: J. Maniez (1993). |
Según el mismo autor:
| 
|
"... la clasificación se distingue claramente de la indización porque el análisis del documento se orienta hacia la búsqueda de la materia "dominada" y no hacia los conceptos claves que lo caracterizan, como haría un indizador." J. Maniez (1993)
| |
|
En este sentido, cuando clasificamos estamos haciendo una formulación sintética (una única formulación por documento), mientras que la indización nos permite representar el contenido de un documento o de una consulta de manera analítica (es decir, enumerando los conceptos y combinándolos entre sí en su posterior recuperación). No establece, por lo tanto, un límite tan restrictivo; el indizador puede introducir tantos términos como considere oportuno.
Por otra parte, utilizamos los lenguajes de interrogación como un instrumento para elaborar nuestra estrategia de búsqueda con los términos de indización: álgebra de Boole, lógica aritmética, etc.
Esta distinción, establecida como hemos visto por J. Maniez, es muy interesante en la búsqueda documental, ya que la mayoría de los sistemas de recuperación de información nos permite interrogarlos por medio de lenguajes de indización (básicamente tesauros y listas de encabezamientos de materias). La clasificación, por otra parte, se utiliza más para localizar documentos mediante las técnicas de "hojear" o browsing, que también estudiaremos más adelante.
¿Qué problemas podemos encontrarnos si utilizamos un lenguaje controlado o documental en una búsqueda?
Hasta ahora hemos visto las ventajas que nos proporciona el uso de un vocabulario controlado en el momento de hacer búsquedas. Hay que tener en cuenta, sin embargo, que también puede presentar una serie de inconvenientes. Según A. Large, estos inconvenientes son los siguientes:
La restricción del vocabulario a uno o unos cuantos términos relacionados provoca que se pierda la especificidad que permite el lenguaje libre. En la práctica, los conceptos son representados por el término más adecuado del lenguaje controlado en cuestión. Como consecuencia de ello, algunos ítems son indizados por un término que no es exactamente el concepto.
El número de términos por los cuales se indiza un ítem en un lenguaje controlado, aunque sean 10 términos por ítem, es drásticamente menor que en el caso del lenguaje libre, en el cual puede haber centenares o millares.
-
El lenguaje controlado es un lenguaje artificial creado por especialistas de la información, y no puede reflejar completamente la terminología más actual en un campo. Un lenguaje controlado no puede estar continuamente actualizado, y sólo de forma casual puede ser modificado.
Es difícil determinar la materia de un documento y asignarle una serie de términos controlados que representen esta materia. En la práctica, los indizadores no siempre tienen la misma consistencia en la asignación del mismo término controlado para representar el mismo concepto.
La creación y el mantenimiento de un lenguaje controlado, sobre todo de los tesauros, es muy caro.
|