Producción de texto digital – Conceptos previos – Codificación del texto digital

Producción de texto digital – Conceptos previos – Codificación del texto digital

Para que un ordenador pueda manejar textos digitales necesita de alguna forma de codificación que establezca una correspondencia entre cada carácter de texto y una cifra

El primer estándar de representación de texto digital fue el ASCII; nació en 1963 y se trata de un código que utiliza 1 byte para representar cada carácter. ASCII asignaba un carácter de texto a cada uno de los 128 valores que se pueden representar con 7 bits (recordad que 2⁷=128) y reservaba el bit restante (un byte se compone de 8 bits) para garantizar la correcta transmisión de datos. La tabla de caracteres ASCII se compone de los siguientes:

ASCII
Símbolo

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

NUL
SOH
STX
ETX
EOT
ENQ
ACK
BEL
BS
TAB
LF
VT
FF
CR
SO
SI
DLE
DC1
DC2
DC3
DC4
NAK
SYN
ETB
CAN
EM
SUB
ESC
FS
GS
RS
US

ASCII
Símbolo

32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63

(espacio)
!
"
#
$
%
&
'
(
)
*
+
,
-
.
/
0
1
2
3
4
5
6
7
8
9
:
;
<
=
>
?

ASCII
Símbolo

64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95

@
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
[
\
]
^
_

ASCII
Símbolo

96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127

`
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
{
|
}
~

En esta tabla podéis ver los valores que el código ASCII asigna a cada unidad de texto. Los primeros 32 valores están ocupados por una serie de acrónimos que representan caracteres de control, entre ellos tenemos el 13, que corresponde al retorno de carro (Carriage Return, una función heredada de las antiguas máquinas de escribir), el 10 para el salto de línea (Line Feed) o el 12 para el salto de página (Form Feed). Esta codificación permite representar con comodidad textos en inglés, pero ¿qué pasa si necesitamos escribir una a con acento, una ñ o una u con diéresis?

El primer sistema operativo para ordenadores personales utilizaba una codificación ASCII extendida, basada en un byte que, usando 8 bits, permitía representar 256 caracteres (2⁸= 256). Los primeros 128 valores equivalen a los ASCII y los 128 siguientes se usaban para representar caracteres "especiales" entre los que se encuentran nuestra ñ, las vocales con acento y diéresis, etc., pero también algunas líneas que permitían dibujar sencillos recuadros en pantallas de texto, que no disponían de capacidades gráficas.

La codificación de texto evolucionó con la creación de nuevos códigos, que compartían los primeros 128 valores de la tabla ASCII, son los siguientes:

ANSI: Lo utilizaban las primeras versiones del sistema Windows y Macintosh. Tiene algunas diferencias con el ASCII extendido de los primeros PC, por ejemplo de caracteres para dibujar recuadros, puesto que los nuevos sistemas tenían soporte para gráficos. Existen versiones de la codificación ANSI adaptadas a las particularidades de cada lenguaje.

ISO: La codificación estándar para el lenguaje de la web hasta la versión 3.2 de HTML. Tiene algunas diferencias con ANSI y también existen versiones específicas para diferentes idiomas y alfabetos.

Unicode: Es un código que nació con la intención de convertirse en el estándar para cualquier plataforma y para cualquier idioma. Se basa en dos bytes de longitud, que se utilizan para codificar más de 34.000 caracteres manteniendo la compatibilidad con el original ASCII. HTML 4.0 y las últimas versiones de los sistemas operativos más comunes, Linux, MacOS y Windows, lo utilizan.

El programa básico para trabajar con texto es el Bloc de notas del propio sistema operativo. Se trata de un procesador de texto sin casi ninguna opción: los caracteres se sitúan uno tras otro, podemos insertar saltos de línea que definan párrafos, pero no hay forma de controlar la anchura, cambiar la alineación o el tipo de letra, a lo sumo podemos configurar la forma en que visualizamos el texto, pero no como un parámetro del documento.

Este texto se guarda en un archivo en base a uno de los códigos descritos, y el único requisito para que pueda leerse o editarse en otro procesador de texto es que éste interprete correctamente el tipo de codificación del documento. También el navegador de Internet precisa interpretar texto, podemos ver todos los códigos que soporta en la opción "codificación" (dentro del menú "ver" en Internet Explorer).

Los archivos de texto pueden intercambiarse con facilidad y son la base de los documentos que pueblan Internet: páginas web, email, chat…