Los buscadores y la recuperación de información en Internet

Cuando hablamos de buscadores, estamos hablando básicamente de dos métodos de búsqueda:

Los directorios
Los motores de búsqueda

Los directorios

Los directorios presentan una selección de recursos web organizados siguiendo una estructura o clasificación jerárquica de materias que va de categorías más amplias a categorías más específicas.

La búsqueda se lleva a cabo mediante la técnica del browsing. Esta técnica se inicia a partir de una materia o categoría general, para ir bajando a materias más específicas hasta llegar a la más precisa. Esto es posible porque estamos en un entorno hipertexto como el de World Wide Web, que nos permite navegar de una materia a una parte más específica de esta primera materia de una forma muy ágil y fácil. Cada directorio utiliza sus propias categorías y sus propios niveles de jerarquías.

Respecto a la cobertura, los directorios no pretenden incorporar todas las páginas web accesibles en Internet. De hecho, los directorios son una pequeña colección de recursos, sobre todo si los comparamos con los motores de búsqueda.

 
Ejemplo

Se recomienda el uso de directorios cuando estamos buscando información que pertenece a una categoría clara (imaginad, por ejemplo, que estamos buscando organismos del ámbito educativo) o también cuando queremos localizar información general sobre un tema.

En el momento de elegir un buscador que utilice como método de búsqueda un directorio, debemos tener presentes los inconvenientes que mostramos a continuación:

La estructura jerárquica se crea de manera arbitraria y, por lo tanto, debemos intuir a qué categoría se ha asociado un recurso concreto.
La actualización no se hace con frecuencia regular.
La evaluación y selección de los recursos puede haberse realizado sin utilizar criterios lo suficientemente establecidos.

Algunos de los directorios más conocidos son:

Galaxy (http://galaxy.einet.net).
El Indice (http://www.elindice.com/).
Infoseek (http://www.infoseek.com).
Linkaweb (http:// http://www.cercat.com/lincaweb/).
LookSmart (http://www.looksmart.com).
Lycos TOP 5% (http://point.lycos.com/categories).
Magellan Web Reviews (http://magellan.excite.com/).
Ozú (http://www.advernet.es/ozu/).
WebCrawler Channels (http://www.superinternetdeals.com/creditcard.html).
Yahoo (http://www.yahoo.com).
Hay buscadores que se conocen como virtual libraries o bibliotecas virtuales. De hecho, se trata también de directorios especializados, en los cuales los recursos han sido seleccionados y son mantenidos por bibliotecarios con un criterio muy riguroso y profesional.

La gran diferencia que existe entre los directorios y las bibliotecas virtuales es que las bibliotecas virtuales contienen menos recursos, pero éstos han sido seleccionados con más rigor.

Dentro de estos directorios denominados virtual libraries, habitualmente podemos encontrar tres grandes categorías: subject guides, reference works y specialized databases.

 
Ejemplo
Subject guides: son recursos web que incluyen una selección de otros recursos relacionados con una temática concreta y con enlaces a otras páginas web.
 
Ejemplo
Reference works: son recopilaciones de recursos a texto completo, como diccionarios, enciclopedias, etc.
Bases de datos especializadas o specialized databases: como ya estudiaremos más adelante, son índices que permiten la búsqueda de diferentes tipos de materiales, como por ejemplo artículos de revistas, datos financieros, etc.

Las bibliotecas virtuales más conocidas son:

The Argos Clearinghouse (http://www.clearinghouse.net).
BUBL Link (http://bubl.ac.uk).
Infomine (http://infomine.ucr.edu/reference/).
Internet Public Library (http://www.ipl.org).
Librarians' Index to the Internet (http://lii.org/).
World Wide Web Virtual Library (http://www.vlib.org).

Los motores de búsqueda

Contenido complementario
Ejemplo

Los motores de búsqueda (en inglés, search engines) permiten la búsqueda de webs por medio de descriptores. Son herramientas que utilizan programas de ordenadores, denominados spiders o robots lógicos, que rastrean y recopilan automáticamente información disponible en Internet. Después, incorporan estos recursos a una base de datos que podemos consultar mediante los buscadores.

Las principales ventajas que suponen los motores de búsqueda son las siguientes:

Contenido complementario
Se actualizan frecuentemente.
Permiten el acceso a grandes colecciones de información.
Facilitan un resultado exhaustivo.

Se recomienda la utilización de este tipo de buscadores cuando buscamos por un concepto o una frase específica. También se recomienda la utilización de más de uno de ellos, ya que el resultado obtenido seguramente será distinto.

Los buscadores más importantes que utilizan motores de búsqueda son los siguientes:

Altavista (http://www.altavista.digital.com).
Excite (http://www.excite.com).
HotBot (http://www.hotbot.com).
Infoseek (http://www.infoseek.com).
Lycos (http://www.lycos.com).
Northern Light (http://www.northernlight.com).
Olé (http://www.ole.es).
VilaWeb (http://vilaweb.com/).
WebCrawler (http://www.webcrawler.com).

Los metabuscadores también son muy útiles y nos permiten buscar en diferentes motores de búsqueda al mismo tiempo, en lugar de tener que ir interrogando los distintos buscadores por separado.

Las ventajas de utilizar este tipo de herramientas son obvias: ahorramos un tiempo considerable y los resultados son exactamente los mismos que si ejecutáramos la búsqueda en cada uno de los motores de búsqueda por separado.

Sin embargo, también tienen las desventajas siguientes:

No todos los motores de búsqueda se interrogan con la misma sintaxis.
No hay control de duplicados: un mismo recurso aparecerá duplicado el mismo número de veces que se encuentre indizado en motores de búsqueda.

Algunos de los metabuscadores más conocidos son los siguientes:

All4one (http://all4one.com/)

Busca en AltaVista, Lycos, HotBot y Excite.

MetaCrawler Searching (www.metacrawler.com)

Realiza la consulta simultánea en los buscadores siguientes: About.com, AltaVista, Excite, GoTo.com, Infoseek, LookSmart, Lycos, Thunderstone, Webcrawler y Yahoo.

 
Bibliografía sugerida

Si queréis entender cuál es el sistema que utilizan los robots lógicos para actualizar la información de sus bases de datos, leed el texto de Oliver Andrieu de la obra Cómo buscar y encontrar en Internet.

Debemos tener presente que la mayoría de los principales buscadores permiten la búsqueda de información tanto por un directorio como por un motor de búsqueda, aunque generalmente dan más importancia a la búsqueda por medio de uno de estos métodos. El directorio que forma parte de un motor de búsqueda es, normalmente, un subconjunto de la base de datos entera, y los recursos listados en el directorio están por lo general evaluados, disponen de un resumen y se han ordenado siguiendo un criterio de ponderación. Igualmente, algunos directorios incorporan unas opciones de búsqueda que suelen ser muy sencillas.

Ya hemos comentado en varias ocasiones que el gran crecimiento de la información disponible en Internet provoca que el hecho de recuperar sólo la que necesitamos sea un proceso cada vez más difícil. Y hemos estudiado también que los motores de búsqueda llegan a ser herramientas útiles en la recuperación de información, pero que, al mismo tiempo, presentan importantes inconvenientes, como por ejemplo que el resultado obtenido no es siempre el deseado.

 
Ejemplo

Hoy por hoy, el hecho de que los motores de búsqueda rastreen el texto completo de los documentos hace que el resultado de las búsquedas tenga, muy a menudo, un número de documentos inalcanzable y, por otro lado, que no todos sean pertinentes. Por ejemplo, si buscamos en un buscador el término Mercury, obtendremos un resultado como el del ejemplo.

Vemos, pues, que recuperamos páginas sobre el planeta, sobre el mercurio como elemento químico, sobre el dios griego Mercurio e incluso sobre Freddy Mercury.

De toda esta cantidad de información, ¿cómo podemos recuperar una imagen del planeta que no tenga ningún tipo de texto asociado?

 
Contenido complementario

Ante esta situación, e igual que ocurre en las bibliotecas tradicionales, se ve clara la necesidad de establecer algún tipo de estandarización que nos ayude a organizar la información que hay en Internet y, por lo tanto, a localizar sólo documentos pertinentes. De hecho, aplicar los métodos tradicionales que se utilizan en las bibliotecas (es decir, que profesionales de la documentación sean los responsables de catalogar e indexar todas las páginas web o los recursos accesibles en Internet) es, obviamente, una tarea imposible. Sin embargo, a pesar de este gran impedimento, continúa siendo un trabajo imprescindible y en este contexto entran en juego los metadatos.

Arriba