La edición electrónica

La promesa de XML

Resumen de una presentación hecha en el seminario Recent Developments in Standards for Electronic Publishing (21-22 de enero de 1999), organizado por los proyectos GISEDI e IESERV, y albergado por AFNOR (traducción por Begoña Aguilera, revisión técnica por David Maniega).

Peter Kibby, TFPL Ltd. Socio coordinador de ETHOS

XML es un cambio real -un cambio de dirección o de paradigma-. La mecánica del XML no es excitante en ella misma, ya que XML aborda los problemas de los datos y ofrece muy poco como artilugio, pero los efectos que están realmente apareciendo en el mercado son profundos.

XML, el lenguaje de marca extendida propuesto por el World Wide Web Consortium, es el siguiente paso en el camino, después de HTML. No es una nueva versión de HTML, sino más bien un subconjunto de SGML (lenguaje estándar de marca generalizada). Las diferentes versiones de HTML son individuales, definiciones fijas de tipos de dato dentro de SGML, pero XML es extensible, i.e. la marca puede ser extendida por un autor -o un grupo de autores- para adecuarse a una necesidad precisa y crear una definición de tipo de dato (DTD) propia. Por eso XML es un lenguaje abierto en el que la información puede ser capturada -en palabras de W3C- "de una forma comprensible por la máquina". La noción de lo que puede ser descrito como comprensible por una máquina es intrigante, y llegaremos a ella al final.

La naturaleza del HTML

HTML es fijo y la marca está definida por el fabricante del navegador, no por el autor del documento. El texto que está marcado según su significado e.g. <strong>significado</strong>, es visualizado de diferente manera en diferentes navegadores. Esto da un aspecto y una sensación poco profesional y ofrece la oportunidad a los fabricantes de navegadores de permitirse extensiones propietarias de los estándares HTML, y en consecuencia, guerras de navegadores.

En segundo lugar, HTML no está validado, e.g. la producción de etiquetas de marca o su cierre no está impuesto por el lenguaje. Consecuentemente, a los navegadores HTML se les requiere que realicen amplias búsquedas de errores, y éstos son más abundantes de lo que se desearía.

En tercer lugar, HTML no puede enviar datos al entorno del navegador de una forma adecuada para el procesamiento de datos. Una tabla en HTML, por ejemplo, contiene filas y columnas, pero si ésta fuera una tabla de una base de datos, le faltaría no sólo la validación, sino también la definición de los datos que contiene.

Problemas que tiene que solucionar el XML

Visualización

El primer problema es la manera impredecible en que los datos marcados de HTML se visualizan en navegadores incompatibles. Los navegadores de XML visualizarán las páginas de acuerdo con la marca provista por su autor, que será interpretada por un lenguaje de estilo. Una descripción de este lenguaje de estilo, XSL, está actualmente en desarrollo, y toma elementos de DSSSL (semántica del estilo del documento y lenguaje de especificación) y CSS (hojas de estilo en cascada). La forma en la que el usuario ve la página puede ser modificada por las acciones de los scripts (como JavaScript) que responden a las condiciones establecidas por el usuario o su navegador.

Esto proporciona una vía a visualizaciones completamente profesionales en los navegadores, pero el origen de las guerras entre navegadores estaba en la competitividad entre los fabricantes. No se ha encontrado una forma de conseguir que las recomendaciones de W3C sean obligatorias, y los fabricantes harán lo que puedan para competir. Por ejemplo, XML implementa el salto de línea y los espacios en blanco de una forma diferente al HTML: ¿explotarán los fabricantes tales oportunidades para hacer sus navegadores XML "más compatibles" con HTML -para la conveniencia de los autores?

Búsqueda

Se espera que el uso de tipos de etiquetas más amplias para identificar información conllevará el uso de esas etiquetas para la recuperación, lo cual proporcionará efectivamente una gama de metaetiquetas o seudocampos para la búsqueda. Por ejemplo, considérese esta línea de texto marcado: Los <SPECIES>Tigres</SPECIES> no se encuentran ya en <GEOG CLASS=INDIA>Bengal</GEOG>.

Etiquetas como éstas posibilitarían búsquedas por "species = tigres", lo que le permitiría a la persona que hace la búsqueda evitar las referencias de fútbol americano.

Una característica de este tipo está ya disponible en muchos motores de búsqueda, por ejemplo AltaVista permite buscar por "host:tfpl" y "applet:tchat".

Las preguntas que se deben hacer, de todas maneras, son las siguientes: ¿quién hace el trabajo?, ¿quién se beneficia de él? Por eso pocos autores de web utilizan actualmente las oportunidades de las metaetiquetas, o incluso el enunciado correcto de sus páginas, por lo que es difícil verlos organizando etiquetas XML en las líneas de un tesauro para beneficio de extraños. Existe también el problema de la armonización de los diferentes tesauros de los autores. Dentro de intranets o en datos propietarios, de todas maneras, los beneficios vuelven al autor y los conjuntos de etiquetas son conocidos y pueden ser gestionados. Aquí es donde la búsqueda por etiquetas XML puede ser útil.

SGML es demasiado duro

Escribir un DTD con XML no es fácil, pero es un proceso más corto que con SGML. Más importante aún, hay pocas áreas en las cuales un grupo necesitaría estar de acuerdo para acordar un estándar. XML como "la luz de SGML" asistirá a los grupos para organizar nuevas áreas de espacios de datos comunes. Ofrece también nuevas áreas para la cooperación, donde una organización ofrecerá un estándar a sus competidores. La evidencia de esto está en la reactivación de los prolongados esfuerzos hacia el SGML y la explosión de otros nuevos, desde el intercambio financiero abierto (OFX) al proyecto de metadatos Dublin Core.

Transferencia de datos

Los datos presentados en XML al navegador pueden "darle a Java algo que hacer". Se ha sugerido la escritura de datos en XML, pero ni ésta ni el legado son todavía características de la especificación. De todas maneras, XML puede transmitir los datos al navegador de una forma estándar, lo que es imposible en el web diseñado en HTML.

Además, XML ofrece una forma más amplia de integración de datos. En el pasado, la emigración de datos entre los sistemas había sido o imposible, bien porque los softwares propietarios de las bases de datos realmente evitaban el proceso de carga o descarga por lotes, o porque había sido un proceso tedioso de reducir complejos formatos de datos a estructuras planas, como variables separadas por coma, que pueden entonces ser cargadas o descargadas. En este proceso hay amplias oportunidades para que las sofisticaciones en la estructura de los datos (i.e. significado) se pierdan.

XML promete ser una lingua franca para la migración de datos. Oracle, Computer Associates y Sybase son ya partidarios:

"... las formas de proveer una definición estándar de todos los recursos de empresa en un único lugar, sin tener en cuenta el tipo y la localización de la información. Oracle8i directamente soporta XML."

(http://www.oracle.com/products/oracle8i/idc/98232.html)

"... los usuarios de CA automáticamente ganarán una infraestructura potente que soportará sin limitaciones las nuevas aplicaciones proporcionadas por CA y sus socios que hacen uso de estos estándares [XML, CORBA, etc.]"

(http://www.cai.com/offices/uk/press/harmony.htm)

IBM y Microsoft son menos claros. Sus esfuerzos en apoyar los navegadores XML son importantes, pero no hay soporte anunciado para XML en sus últimas versiones de DB2 o de Servidor SQL. La cuestión aquí es si los vendedores de DBMS realmente abandonarán sus baluartes propietarios. Parece que hay poca elección: si los clientes lo quieren y sus competidores lo ofrecen, se verán obligados a ofrecer una interfaz en XML.

La migración de aplicaciones de bases de datos legada será todavía un desafío, pero para las nuevas aplicaciones XML se eliminarán muchas barreras. Éstas pueden ser tanto negativas como positivas: la capacidad de las fuerzas de la policía para intercambiar datos es -en general- algo bueno, pero las consideraciones sobre privacidad de datos de la UE son válidas sólo en la UE.

¿Abierto o propietario?

El uso de XML puede ser analizado por medio de la propiedad o disponibilidad de DTD. La definición de tipo de documento para un documento bien construido con XML puede ser inferida por el navegador. Los DTD declarados pueden aumentar las funcionalidades del navegador (validando los datos, etc.). Sin embargo, un DTD puede ser protegido de la visualización haciéndolo disponible condicionalmente, de manera que la autorización es requerida para acceder a él. Una propuesta de Microsoft (XML-data) permite que las definiciones de tipo sean incluidas en los propios documentos -aunque esto sería aún más prolijo de lo que es ya XML-. Incluso si los medios técnicos no son utilizados para controlar el acceso a un DTD, el propio DTD presenta una oportunidad para afirmaciones inequívocas de la propiedad del DTD y de los datos codificados con él.

Hay tres grandes categorías de disponibilidad de DTD, que copian las categorías de las aplicaciones de red:

Internet. Los DTD abiertos permiten el intercambio de información en el sector, área temática o nivel de industria; ejemplos corrientes incluyen:

– Resource Description Framework, RDF (que incorpora PICS)

– Channel Definition Format, CDF (tecnología push)

– Synchronized Multimedia Integration Language, SMIL

– Mathematics Markup Language, MML

Ejemplos verticales específicos de un sector son:

– Open Software Description Format

– Open Financial Exchange, OFX

– Text Encoding Initiative, TEI

– Bioinformatics Sequence Markup Language, BSML

Intranet. Los DTD privados permiten aplicaciones específicas para las organizaciones; éstas incluirán:

Integración múltiple de documentos
Autoría múltiple de documentos
Aplicaciones mixtas de documentos/bases de datos
Búsquedas apropiadas (como SQL) y recuperación de datos

Extranet. Los DTD privados pero compartidos son precisamente lo que los editores están buscando, y cuando los editores hablan de "edición en intranet", lo que están describiendo es la extranet; más allá de la edición, hay iniciativas industriales como el proyecto ANX de la industria automovilística.

Metadatos

Si el intercambio de información no es ya dependiente de la contabilidad del software, el centro se mueve ahora hacia la propia información, particularmente los metadatos utilizados para clasificar y gestionarla. Es por ello por lo que el proyecto Dublin Core es importante. Puede haberse originado dentro de la comunidad bibliotecaria -¿qué otra comunidad ha estado interesada durante tanto tiempo en la gestión de la propia información?- pero es un excelente lugar de inicio para proyectos de información sin ninguna dimensión bibliotecaria inmediata. Los elementos de metadatos DC pueden ser codificados con RDF y ofrecen una línea base genérica para la gestión de muchos conjuntos de datos, que se aplica a la propiedad, el control, la relevancia, el ámbito, la edad y el tipo de la información.

Afirmando lo obvio

Es importante que los árboles nos dejen ver el bosque; XML es abierto -no como ODBC, su antecedente más cercano, más bien como Internet-. Como resultado es estándar, y orientado al cliente más que a la tecnología o al fabricante. Es además independiente del medio: no hay que decir que se aplica sólo a los datos en web; es igualmente aplicable a los CD-ROM y a las aplicaciones back-office.

XML puede proporcionar no sólo la información que los editores desean vender (o influenciar de cualquier otra manera) sino que también la clasificación y la estructura en esa información. Muchos editores ven este proceso como abandonar las joyas de la corona, ya que en el medio competitivo tal vez ellos no sean capaces de cobrar extra por esto.

Aunque sea desafortunado, los editores se enfrentan a un tipo de competición que no permitirá a este tema desaparecer. Los editores de CD-ROM se encuentran con que sus productos son imitados en la web por otros que no cobran, porque están influenciando las ventas on-line. Un competidor que gane ventaja poniendo disponible la información en XML, que permite a los clientes integrarla con la suya propia, fuerza a un editor a tomar la misma ruta. Las complejidades de marca y de gestión de derechos son gestionables con XML.

Las oportunidades en este medio son para la cooperación y la asociación de los clientes. Además, ser un socio tan cercano a sus clientes debe resultar para los editores "una oferta que no puedes rechazar".

¿Comprensible por la máquina?

Si puede decirse que el proceso de clasificación crea información a partir de los datos, y si la aplicación de estructuras a la información crea comprensión o conocimiento, la capacidad de XML de generalizar esas estructuras en un medio distribuido, en red, ¿da la posibilidad de que un día Internet contenga más información que sólo datos, y que tal vez esa red de información sea una red de conocimiento?

Renuncia

Este artículo es una opinión personal y no representa necesariamente las opiniones de la Universidad de Leipzig o de los otros socios en el proyecto ETHOS.