Hablando con redundancia hablando - Una breve introducción a la teoría de la información. Parte 4

Hablar con otra persona en un ámbito cargado de ruido puede ser desafiante. Tener una charla en una discoteca con la música a todo volumen o intercambiar ideas mientras un tren trastabilla por las desgastadas vías esfuerzan nuestras cuerdas vocales. Aun así solemos hacernos entender. Nuestros cerebros son capaces de separar el mensaje del ruido. Palabras adivinadas por el contexto ponen en evidencia no sólo el poder de nuestra materia gris, sino también una característica de nuestro lenguaje, la redundancia.

Hay estudios del idioma castellano, así como de otras lenguajes, que demuestran que la cantidad de redundancia que contiene es muy alta. Los estudios iniciales de redundancia se deben al mismo Claude Shannon en su teoría de la información.

Shannon define a la redundancia como una medida de una fuente consistente en el volumen de partes predecibles del mensaje emitido a partir del resto del mismo. La redundancia es repetición de información y por lo tanto no aporta nada nuevo.

Un ejemplo seria "Hoy es un día sol#". Donde el símbolo "#" nos invita a completar el resto del mensaje. La mayoría completara la palabra "soleado". Aunque podría ser "soldado", "solsticio" u otra palabra que empiece con la letras "sol". Esto se debe a que el contexto de la frase y nuestro conocimiento lingüístico nos llevan a interpretar correctamente el resto de la frase.

La redundancia per se no es dañina, sino que tiene un objetivo. El intento de emitir un mensaje, ya sea oral o escrito (como en cualquier otro tipo de soporte de información) es permeable a perturbaciones que pueden distorsionar el sentido del mismo. El ruido - el conjunto de todos los elementos que representan perturbaciones en la comunicación - puede cambiar el sentido de un mensaje - haciéndolo ininteligible o confuso. La presencia de redundancia reduce esta posibilidad. Un mensaje de información pura (sin redundancia) atacado por ruido irremediablemente perderá información. Un mensaje con alta redundancia atacado por ruido - si bien puede ser confuso - con algo de trabajo y suerte podría ser reconstruido.

Un ejemplo literario es la novela del escritor Julio Verne, "Los hijos del Capitán Grant". En esta novela una botella con un mensaje en mal estado de conservacion a causa del agua marina revela el naufragio del Capitán Grant. La novela transcurre como el periplo de un barco y su tripulación - entre los que se encuentran los hijos del Capitán que da nombre a la historia - que salen al rescate de los náufragos. Los intentos de reconstrucción del mensaje de auxilio - escrito en forma redundante en 3 idiomas - los llevan a recorrer vastas zonas de Sudamérica (Argentina y Chile), islas del océano indico  y Oceanía (Australia y Nueva Zelanda).



El uso incorrecto del idioma muchas veces agrega redundancia. El siguiente párrafo esta preparado para ejemplificarlo.
“Estando en el acceso de entrada al edificio me asome al exterior para ver al visitante. Un señor de edad longeva con un crespón negro me esperaba. Lo invite a entrar dentro y sentarse en el comedor para escuchar su historia. Me contó que había estado deambulando sin rumbo mientras su mente completamente abarrotada de pensamientos lúgubres lo asaltaba. Finalmente se decidió a presentarse. Mientras jugaba con un mendrugo de pan entre los dedos aproveche para beber un liquido para limpiar mi garganta. A pesar de no tener cita previa, dijo, era apremiante el encuentro. Intente decir algo pero me callo la boca. Me informó que mis antecedentes previos me convertían en el principal sospechoso. Que la autopsia en el cadáver indicaba muerte por hemorragia de sangre. Los acontecimientos me ubicaban en una bifurcación de dos caminos..."
 Para el lector con conocimiento de la lengua resulta disonante. Se conoce como pleonasmo a la figura retorica de adicionar palabras no necesarias en una frase. Algunos escritores lo utilizan para agregar más fuerza a una expresión en particular. El ejemplo anterior es un claro abuso. Cuantos pleonasmos podes encontrar?

Otro ejemplo en la lengua de uso redundante es la frase que titula este escrito. En el lunfardo - jerga originada principalmente en la ciudad de Buenos Aires y sus alrededores - se conoce como hablar en sandwich al armado de frases que comienzan y terminan con una misma clausula. El nombre correcto para esta figura retorica se conoce como epanadiplosis. Existen ejemplos de su uso en letras de tango y en fimografía contemporánea a este ritmo musical. Una muestra es el fragmente del Tango "Biaba" de Celedonio Flores:

Pero ella se olvidó, sucia y borracha
llegó como a las nueve la muchacha
por seguirle la farra a un mishetón.

Los bifes –los vecinos me decían–
parecían aplausos, parecían,
de una noche de gala en el Colón.
Shannon postula a la entropía como una medida del nivel de información de una fuente. Este valor caracteriza el nivel de redundancia de esa fuente como su valor complementario. La unidad de la entropía es el bit por Byte. Es decir cuantos bits de información se emiten en promedio por cada conjunto de 8 bits. Elabora varias definiciones y lleva varios experimentos para calcular la redundancia del idioma Ingles  (su idioma natal).

A continuación brevemente la teoria... pero para los que no gustan de las matemáticas, Shannon propuso en 1950 un juego que ayudaba a calcular ese valor, el juego de adivinación.

Se debe seleccionar un texto suficientemente largo y preguntar sucesivamente a una persona que letra piensa que será la siguiente. Si no acierta debe intentar otra letra hasta adivinar (en el castellano como peor caso intentará adivinar 27 veces por posición). La cantidad de intentos de acertar cada caracter va siendo registrado y con eso puede armar una distribución empírica del número de adivinaciones requeridas para calcular el siguiente carácter. Repitiendo el mismo juego con diferentes textos puede aproximar el ratio del idioma.

Se puede ver que cuanto menor es el valor promedio calculado. más predecible es el idioma analizado.

Ahora, los fríos números. El cálculo de la entropía es la sumatoria de la probabilidad de cada símbolo por su longitud en bits. Es la medida promedio en bits de la información que emite una fuente.  Según demuestra Shannon la longitud de representación mínima de un símbolo está relacionada con su probabilidad, quedando la expresión de la entropía como se muestra a continuación:

En una simplificación extrema se puede considerar que la probabilidad de cada símbolo no depende de su contexto anterior. En ese caso la entropía serviría para calcular la redundancia. No obstante este es un modelo que no hace honor a la realidad. Menores simplificaciones pueden considerar que la probabilidad de cierto símbolo depende de un número finito y determinado de los símbolos que ocurrieron inmediatamente antes (ese criterio utilizan algunos compresores de datos sin perdida de información).

Para la determinación de la redundancia de un idioma es apropiado utilizar el ratio de entropía. Esta medida realiza un cálculo de la variación de la entropía a medida que la cantidad de símbolos emitidos (n) crece en una fuente.


Usando la entropía condicionada (y considerando como simplificación que el idioma es un proceso estocástico estacionario) se puede ver que:


Es decir que el ratio de entropía es la suma de las entropias de cada ocurrencia de un símbolo teniendo en cuenta todos los símbolos que salieron anteriormente (su contexto).

Finalmente para tener en cuenta el contexto se debe hablar de la entropía condicional, que corresponde a la entropía de un evento teniendo en cuenta un conjunto de eventos pasados (en este caso el evento es la aparición de un símbolo determinado).


El problema de determinar el valor real de las probabilidades para el cálculo es complejo. Por lo que el hallazgo teórico de la redundancia de una lengua es una tarea titánica. La riqueza y variedad de los idiomas hace que el cálculo de las probabilidad sean aproximaciones (para muestra un número ya desactualizado: en 2005 se inventariaron en la biblioteca nacional argentina 763 mil libros)

Si finalmente se determina un valor del ratio de entropía, resta determinar un cálculo más (por suerte no tan complejo). Un idioma de "información pura" implica que cualquier combinación de letras tomada al azar forma una palabra válida. El ratio de entropía en ese caso - o ratio absoluto - corresponde al log2(N), donde "N" es la cantidad de símbolos del idioma (en el castellano sería 27). La resta del ratio calculado al ratio absoluto nos determina la redundancia del idioma. Algunas estimaciones dicen que castellano es entre un 50 y 70% redundante.



Para finalizar... una obra de arte de la redundancia

La Extra, Diario de Morelia - México

Comentarios