Producción de texto digital – Bases de datos – Definición de la terminología

Antes de empezar, nos parece importante señalar que en este apartado emplearemos el término información de la manera más genérica posible. Así, dicha información puede consistir en un conjunto de datos sobre cualquier entidad (autores, libros, personas, pacientes, contabilidad, etc.) o puede tratarse también de fragmentos de audio, imágenes, textos, películas, etc.

La manera habitual de almacenar información en un ordenador es mediante el uso de ficheros. Sin embargo, cuando se gestionan grandes cantidades de información es preciso contar con algún tipo de estructuración, bien del conjunto de ficheros o de la información que guardamos en ellos. En caso contrario invertiremos gran parte del tiempo en tareas poco productivas, que tienen más que ver con la (des)organización de la información que con los objetivos finales de nuestro trabajo.

Las bases de datos son herramientas informáticas que permiten al usuario y, por ende, al editor multimedia, organizar grandes volúmenes de información de manera estructurada, mejorando la productividad y disminuyendo el volumen de errores posibles.

Una posible manera de organizar grandes volúmenes de información sería definiendo una especie de fichas, como las que se emplean en una biblioteca para catalogar los libros. Dichas fichas se denominan técnicamente registros, y están formados por diferentes unidades semánticamente indivisibles a las que se denomina técnicamente campos. La granularidad en la definición de los campos depende de criterios de diseño de la tabla, los cuales implican una diferente funcionalidad según las aplicaciones que la usen. Estos criterios de diseño no deben confundirse con los criterios de diseño gráfico, sino que se refieren a la información y a las posibles interrelaciones de los datos de una tabla.

Los sistemas de bases de datos organizan los diferentes registros manteniendo un conjunto de interrelaciones entre ellos. Se dice que dos o más registros de una base de datos están interrelacionados si hay campos en un registro que provienen de otro, de manera que se establece un vínculo entre la información contenida por ambos.

Adicionalmente, los sistemas de bases de datos ofrecen un conjunto de procedimientos para recuperar y modificar el contenido de la información almacenada, manteniendo su coherencia gracias a un conjunto de reglas definidas por el diseñador de la base de datos. Toda la información necesaria para este cometido se deposita en una serie de ficheros que, en principio, sólo el sistema de base de datos sabe interpretar.

Uno de los mayores peligros que puede surgir al organizar información es la duplicación.

Técnicamente se denomina redundancia a la duplicación de información dentro de un sistema de almacenamiento de información, y plantea los siguientes problemas:

Incoherencia entre los ficheros del sistema de almacenamiento: si durante la actualización de un dato (por ejemplo, la dirección de un autor), éste está duplicado y no se actualiza en todos los ficheros en los que está presente, el conjunto de información presentará incoherencias (podría suceder que un cliente tuviera asociadas varias direcciones y no supiéramos cuál de ellas es la correcta).

Incremento de las necesidades de almacenamiento y de los tiempos de procesamiento: se utiliza más espacio de almacenamiento del imprescindible y, si el volumen de redundancia es elevado, se aumentarán el coste de los discos y el tiempo de procesamiento de la información, tanto en procesos productivos (generación de facturas, contabilidad, etc.) como en procesos de administración del sistema informático (por ejemplo, copias de seguridad en cinta).

Las técnicas de bases de datos fueron desarrolladas para intentar solucionar el problema de la redundancia. Para ello básicamente se establecen, dentro del sistema de base de datos, una serie de normas de diseño y mecanismos automáticos de control que dificultan la aparición de redundancias. Sin embargo, no perdamos de vista que la redundancia es un concepto semántico, y que cobra sentido según se interpretan los datos: aunque trabajemos con una base de datos de última generación, un mal diseño puede provocar redundancias indeseables.

La redundancia evidente es la comentada hasta ahora y se denomina redundancia lógica. Su aparición se debe a:

Por lo explicado hasta aquí quizá parezca que la redundancia de datos es un error que debe ser erradicado de nuestros ordenadores a cualquier precio. Sin embargo, en algunas ocasiones la redundancia puede ser útil. Por ejemplo, podemos servirnos de la denominada redundancia física como recurso de diseño para reducir tiempos de cálculo de un valor costoso de obtener y cuya validez es considerablemente larga en el tiempo.