Para que un ordenador pueda manejar textos digitales necesita de alguna forma de codificación que establezca una correspondencia entre cada carácter de texto y una cifra
El primer estándar de representación de texto digital fue el ASCII; nació en 1963 y se trata de un código que utiliza 1 byte para representar cada carácter. ASCII asignaba un carácter de texto a cada uno de los 128 valores que se pueden representar con 7 bits (recordad que 27=128) y reservaba el bit restante (un byte se compone de 8 bits) para garantizar la correcta transmisión de datos. La tabla de caracteres ASCII se compone de los siguientes:
ASCII Símbolo
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
|
ASCII Símbolo
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63
(espacio) ! " # $ % & ' ( ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
|
ASCII Símbolo
64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
@ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ] ^ _
|
ASCII Símbolo
96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127
` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~
|
En esta tabla podéis ver los valores que el código ASCII asigna a cada unidad de texto. Los primeros 32 valores están ocupados por una serie de acrónimos que representan caracteres de control, entre ellos tenemos el 13, que corresponde al retorno de carro (Carriage Return, una función heredada de las antiguas máquinas de escribir), el 10 para el salto de línea (Line Feed) o el 12 para el salto de página (Form Feed). Esta codificación permite representar con comodidad textos en inglés, pero ¿qué pasa si necesitamos escribir una a con acento, una ñ o una u con diéresis?
El primer sistema operativo para ordenadores personales utilizaba una codificación ASCII extendida, basada en un byte que, usando 8 bits, permitía representar 256 caracteres (28= 256). Los primeros 128 valores equivalen a los ASCII y los 128 siguientes se usaban para representar caracteres "especiales" entre los que se encuentran nuestra ñ, las vocales con acento y diéresis, etc., pero también algunas líneas que permitían dibujar sencillos recuadros en pantallas de texto, que no disponían de capacidades gráficas.
La codificación de texto evolucionó con la creación de nuevos códigos, que compartían los primeros 128 valores de la tabla ASCII, son los siguientes:
ANSI: Lo utilizaban las primeras versiones del sistema Windows y Macintosh. Tiene algunas diferencias con el ASCII extendido de los primeros PC, por ejemplo de caracteres para dibujar recuadros, puesto que los nuevos sistemas tenían soporte para gráficos. Existen versiones de la codificación ANSI adaptadas a las particularidades de cada lenguaje.
ISO: La codificación estándar para el lenguaje de la web hasta la versión 3.2 de HTML. Tiene algunas diferencias con ANSI y también existen versiones específicas para diferentes idiomas y alfabetos.
Unicode: Es un código que nació con la intención de convertirse en el estándar para cualquier plataforma y para cualquier idioma. Se basa en dos bytes de longitud, que se utilizan para codificar más de 34.000 caracteres manteniendo la compatibilidad con el original ASCII. HTML 4.0 y las últimas versiones de los sistemas operativos más comunes, Linux, MacOS y Windows, lo utilizan.
El programa básico para trabajar con texto es el Bloc de notas del propio sistema operativo. Se trata de un procesador de texto sin casi ninguna opción: los caracteres se sitúan uno tras otro, podemos insertar saltos de línea que definan párrafos, pero no hay forma de controlar la anchura, cambiar la alineación o el tipo de letra, a lo sumo podemos configurar la forma en que visualizamos el texto, pero no como un parámetro del documento.
Este texto se guarda en un archivo en base a uno de los códigos descritos, y el único requisito para que pueda leerse o editarse en otro procesador de texto es que éste interprete correctamente el tipo de codificación del documento. También el navegador de Internet precisa interpretar texto, podemos ver todos los códigos que soporta en la opción "codificación" (dentro del menú "ver" en Internet Explorer).
Los archivos de texto pueden intercambiarse con facilidad y son la base de los documentos que pueblan Internet: páginas web, email, chat…
|