XML

En el mes de febrero de 1999, el World Wide Web Consortium (W3C) aprobó de manera definitiva la especificación XML 1.0 (eXtensible Markup Language), el nuevo lenguaje que se integra como una evolución más, y necesaria, al conocido lenguaje HTML; de este modo cubre gran parte de sus carencias y agiliza mucho el trabajo de almacenamiento y distribución de información.

Contenido complementario

El gran problema que plantea hasta ahora el lenguaje HTML se encuentra en que sólo permite la difusión de texto e imagen, y una de las grandes novedades que aporta consiste en que rompe precisamente esta barrera al permitir el intercambio de cualquier tipo de datos o información, sea cual sea su origen. Esto nos hace pensar que el XML puede solucionar o paliar gran parte de los problemas que provoca la coexistencia de diferentes formatos de almacenamiento de datos.

De todos modos, el XML no pretende ser el sustituto del HTML, sino más bien quiere ser una herramienta complementaria que potencie al máximo el rendimiento de la información que vehicula por la red. Tampoco se trata de una versión evolucionada de HTML, ya que, de hecho, a diferencia de éste, es un subconjunto del SGML; así pues, tampoco se trata exactamente de un lenguaje en sí mismo, sino más bien tendremos que decir que es una derivación de HTML. Por lo tanto, también puede considerarse un metalenguaje.

Ejemplo

El origen es común para los dos (HTML y XML), que parten de las especificaciones del estándar SGML (Standard Generalized Markup Language). Este estándar permitió definir de manera conjunta para los documentos electrónicos tanto su estructura como su contenido. De hecho, el XML es una acotación de SGML que se ha tenido en cuenta específicamente para su uso dentro de la red Internet, con una flexibilidad que permite definir libremente las etiquetas específicas de su formato, algo que se diferencia mucho del "rígido" HTML, con etiquetas predefinidas y fijas.

Esto permite definir de forma clara dentro del mismo documento qué información contiene, y estructurar unos contenidos fáciles de entender e interpretar por parte de cualquier programador. Por otro lado, el usuario no tendrá que preocuparse porque no se producirá un cambio visual efectivo, ya que serán los diferentes programas los que se encargarán de proporcionar la información del documento de manera legible.

La gran característica que proporciona a este lenguaje un gran atractivo en lo que respecta al desarrollo de futuras líneas, como por ejemplo el comercio electrónico, la banca por Internet o la gestión de cualquier tipo, consiste en que es capaz de almacenar y distribuir datos de origen muy diverso (bases de datos, hojas de cálculo, etc.), teniendo en cuenta que puede interactuar perfectamente con applets y servlets de Java, lo cual permitirá una gran facilidad de acceso a información de bases de datos y una mayor flexibilidad en la publicación en Internet de estos datos y muchos otros.

Lectura

Por otra parte, no se verán únicamente afectados (en el buen sentido del término) los procesos para publicar y distribuir información electrónica, sino que también tendrá lugar una notable diferencia en la eficacia de los motores de búsqueda de Internet. Hasta ahora éstos se basan en las diferentes palabras "indexadas", ya sean las correspondientes a las meta-tags o las veinticinco primeras de cada página, y no en su significado, de modo que siempre aparecen páginas con información poco o nada adecuada a nuestra búsqueda. Con el XML las cosas cambian, porque permite definir el contenido de cada página de manera específica, sin desvirtuarlo.

El XML, que es mucho más sencillo que el SGML, nos ayudará a reorganizar el caos de las actuales incompatibilidades de las etiquetas de HTML entre navegadores, gracias a que el DTD (Document Type Definition) no está definido en XML; por lo tanto, cada autor independiente puede y debe definir su propio DTD. Pensad que el lenguaje HTML tiene predefinido su DTD y que no puede modificarse. El XML rompe este muro, ya que sólo dicta las pautas para definir un nuevo código, y será cada autor concreto el único responsable de su contenido y su estructuración. Esta libertad es precisamente la que proporciona la facilidad de transporte e intercambio de información, e interviene en otros factores como, por ejemplo, el formato de exportación o de impresión de un documento.

Gracias al hecho de que nosotros podemos definir las propias etiquetas personalizadas, puede asignarse un sentido a la información que debe incorporarse a una sede web. Por ejemplo, si nos dedicamos a diseñar las etiquetas que tienen que formar parte de los contenidos de un servicio de noticias en línea, debemos procurar que nuestra información se presente de manera organizada y homogénea. Nosotros definiremos un DTD que especifique cómo querremos presentar la información para cada artículo o noticia. De este modo, destinaremos una etiqueta al encabezamiento de la noticia, otra para el autor, otra para el grueso de la noticia, otra para la dirección de contacto, y así aquellas que se nos ocurran, y se formará todo un árbol jerárquico de los diferentes elementos.

A partir de aquí, con un editor XML transportaremos el cuerpo de las diferentes noticias, con etiquetas personalizadas que facilitarán la tarea a otras personas que no conozcan nada del lenguaje XML, porque indicarán qué tienen que incluir y dónde de la forma simple que nosotros hayamos designado. Por ejemplo, en las etiquetas personalizadas <título noticia> XXX </título noticia>, <autor> XXX </autor>, <cuerpo texto> XXX </cuerpo texto>, se incluirá la información que corresponda; la facilidad de uso es extraordinaria porque las etiquetas son personalizadas.

Contenido complementario

Sin embargo, nos preguntaremos rápidamente lo siguiente: si definimos así los contenidos y les conferimos una estructura, ¿cómo asignaremos el estilo? La solución la tiene el XSL (eXtensible Stylesheet Language). Se trata de un lenguaje similar a las Style Sheets del HTML 4.0, de modo que una vez definido el estilo que queremos aportar, la tipografía, las alineaciones, y todo tipo de formato físico del documento, sólo hará falta especificarlo dentro del documento o referenciarlo de forma externa en un fichero, tal y como se hace con las CSS (Cascade Style Sheets).

EL XML tiene todas las características que hicieron del HTML un lenguaje ideal y otras innovadoras:

  • Asociabilidad: de la misma forma que el HTML, puede realizar asociaciones simples de conceptos, pero además permite generar otras complejas.

  • Mantenimiento: es básicamente simple, al dividir los vínculos de información y los de la apariencia externa de los documentos.

  • Inteligencia: cualquier documento XML puede tener una descripción opcional de su gramática para que sea utilizada por aquellas aplicaciones que necesiten realizar una validación estructural. Además, ofrece la posibilidad de interrelacionar conceptos y generar estructuras anidadas de conceptos hasta cualquier nivel de complejidad.

Arriba