El saber si ocupa lugar. Una breve introducción a la teoria de la información.

Humor de Antonio Mingote Barrachina

El dicho el saber no ocupa lugar, para los informáticos es una quimera. durante años lidiamos con espacio de almacenamiento y tiempo de acceso al mismo.

La información puede definirse como un dato percibido por un sistema que modifica el conocimiento que se tiene sobre otro sistema. Este nuevo dato percibido reduce la incertidumbre sobre el sistema en estudio. Por ejemplo el sentido del gusto nos informa si una comida es dulce. Una balanza nos informa el peso de una bolsa. Un log informa sobre los errores de ejecución de un programa.

La información históricamente fue poder. Conocer sobre un tema implica poder tomar un mejor decisión. La forma de transmitir y almacenar información fue y es un objeto de estudio para lograr hacerlo de la manera más segura y eficiente posible.


No fue hasta tiempos recientes, finales del siglo XIX y comienzos del siglo XX que se comenzó a estudiar matemática y científicamente la generación, transmisión y almacenamiento de la información. La aparición del telégrafo, el teléfono y otros medios de transmisión modernos fueron motores del estudio y la generación de una teoría de la información.


Andrey Andreyevich Markov, matemático ruso define a una fuente de información como una secuencia de variables aleatorias que oscilan sobre un alfabeto finito, con una distribución estacionaria.

Ralph Hartley
Ralph Hartley en su paper "Transmission of Information" de 1928 propuso que la información puede ser entendida como un "principio de individuación". Según su visión la información puede ser medida en forma abstracta en relación al tamaño del mensaje necesario para distinguir entre los elementos discriminables en cualquier conjunto.

Hartley sugiere la utilizacion de la función logaritmo para la medición de la información. La cantidad de información necesaria para discriminar X elementos de un conjunto mediante "b" símbolos corresponde al logaritmo en base b de X.

h(X) = logb X

Los "b" símbolos corresponden a la unidad de información. La unidad mínima que se puede representar utilizando un determinado alfabeto o sistema con un conjunto finito de estados.

Por ejemplo, si tengo el siguiente conjunto de elementos {rojo, amarillo, azul, verde, naranja, violeta, marrón, rosa, celeste, negro, blanco, gris, purpura, turquesa, fucsia, ocre} y tengo 4 símbolos (o estados). Se necesitaran log4 16 = 2 símbolos para representar la información:


AA, AB, AC, AD, BA, BB, BC, BD, CA, CB, CC, CD, DA, DB, DC, DD

El masívamente utilizado sistema binario en informática corresponde a la utilzacion de 2 símbolos posibles (0 o 1) que se utilizan para representar cada elemento. El bit o binary digit como es conocido es la unidad información y puede ser representado en un sistema biestable o de 2 estados para su almacenamiento o transferencia. En una tarjeta perforada o cinta perforada, como la mostrada a continuación, los estado posibles son perforación o no perforación. En este caso cada columna representa una mensaje posible representado como la perforación o no de cada una de los elementos de las filas (en el caso de la imagen se usan 10bits por mensaje).


Puedo tener 1024 mensajes diferentes que puedo representar con los 10 bits (log2 1024 = 10). O, según la definición de Hartley, tengo 10 bits de tamaño de información.
En discos magnéticos los dos estados se construyen con una pista magnetizada o no magnetizada. También se pueden utilizar para el amacenamiento o la transmisión de bits: diferentes voltajes, ondas, intensidad de luz, entre otras. Actualmente se usan como conjunto mínimo multiplos de 8bits y no de 10.

Claude Shannon
Hartley trabajo durante muchos años en los laboratorios de Bell y fue ahí mismo donde años después se sumó Claude Shannon. Shannon notó algo importante: no todo mensaje sobre un sistema aporta la misma cantidad de información. Un mensaje muy probable, si llega nos brinda muy poca información. En cambio un mensaje muy poco probable, si llega nos brinda mucha información.
Por ejemplo, si tengo la siguiente secuencia de letras A,B,C,D,E,F,G... sería esperable para una persona que la próxima sea la letra H. Si efectivamente sigue la letra H, la información "ganada" es poca. Sin embargo si la letra recibida fuese Z, sería más inesperado para la persona y eso le brinda una información más grande.

Shannon realiza la presentación de sus ideas en el fundacional paper "A Mathematical Theory of Communication" de 1948. Entre las definiciones que realiza están:

  • La información se mide en bits.
  • La información contenida en un mensaje es proporcional a la cantidad de bits que se requieren como mínimo para representar al mensaje.
  • Los mensajes mas probables se deben codificar con menos bits que los elementos menos probables.
La primera definición es arbitraria y podría ser tranquilamente otra la unidad de información elegida (recordar el parámetro "b" de la formulación de Hartley).

Con estos principios en mente demuestra que la longitud mínima de un mensaje X, en función a la probabilidad de X es:

L(X) = log2 1/P(X) 

Eso indica que cantidad de bits (o símbolo con estado biestables) deben ser utilizados para representar el mensaje sin redundancia. Por ejemplo un mensaje que tiene un 50% de probabilidad de aparecer debe ser codificado con 1 bit.

Ver la diferencia entre la cantidad de bits utilizado para la codificación de un mensaje y la cantidad mínima según Shannon nos brinda la redundancia de información emitida. Si las longitudes coinciden para todos los símbolos estamos en el caso donde lo emitido corresponde a información pura.

Estudios sobre la comunicacion entre personas en un lenguaje humano muestran que existen una alta redundancia. Lo que en comunicaciones con perdida de información es beneficioso, por que no se pierde información en el camino.

Comentarios