Big Data... marketing? moda? nueva tecnología?


Big Data suena fuerte, poderoso, atractivo. Big Data es el concepto de moda. Pero qué es? Es algo nuevo? Es simplemente un invento del marketing?
La traducción literal es "datos grandes". Pero el término se considera que se refiere a una contracción de big amount of data es decir "gran volumen de datos". Se refiere a los sistemas basados en la acumulación a gran escala de datos y los procedimientos practicados sobre ellos para extraer información derivados de los mismos.
Un análisis más profundo del concepto nos lleva a ver que muchas veces no es solo un gran volumen de datos, sino que también puede contener: gran variedad, gran velocidad de incorporación y/o complejidad de los mismos. Lo fundamental en todos los casos es que el problema planteado sobre los datos hacen complejo el procesamiento del mismo en un tiempo razonable.

Podemos ver históricamente diversos problemas de esta índole.

La biblioteca de Alejandría fue fundada en el siglo III a. C en la ciudad de Alejandría, Egipto, por Ptolomeo I Sóter. La idea en su creación fue contener la mayor cantidad del saber griego posible, como así también el saber de los otros pueblos. No hay una idea exacta de como estaba organizada ni de cuantos libros contenía. Las fuentes históricas hacen diferentes cálculos basados en cuantos libros se perdieron en determinados momentos (por incendios o quemas) y cuantos libros ingresaron por la donación de diversos personajes. Mas allá de cálculos es legendario el saber contenido entre sus paredes. 

Aristófanes el Gramático
Marco Vitruvio Polión en su obra sobre De Architectura, conocido hoy como "Los Diez Libros de Arquitectura" narra una interesante historia relacionada con la biblioteca de Alejandría. Siendo juez de una competencia de poesía, Aristófanes el Gramático (conocido también como de Bizancio) seleccionó como ganador a quién, en opinión de los otros 6 jueces, declamaba la peores versos. Cuando se le consultó sobre su controvertida decisión respondió que era el único que había escrito y declamado sus propias composiciones. Aristofanes había sido sugerido como jurado por el director de la biblioteca de Alejandría quien había observado como diariamente, con el mayor entusiasmo y máxima diligencia realizaba lecturas de los libros de la biblioteca secuencialmente. Este hecho le había dado el conocimiento para detectar el plagio de los participantes. Siendo que aun no daban crédito de tal afirmación, Aristofanes los condujo a la biblioteca y caso por caso dio las evidencias para desenmascarar a los fraudulentos poetas.

La biblioteca de Alejandría con su gran volumen de libros y el episodio de Aristofanes podría considerarse el primer caso documentado de aplicación de Big Data (y tal vez de un caso de plagio)

Herman Hollerith
Desde 1790 y cada década el gobierno de Estados Unidos organiza un censo para  determinar las características de su población. El resultado del censo es de vital importancia para su democracia representativa. Para 1880 la cantidad de habitantes hizo que el procesamiento de la información recabada llevase 7 años. Estimaciones realizadas hacían suponer que dado el crecimiento demográfico el censo de 1890 llevaría 11 años en procesarse. Es decir que se terminaría de analizar 1 año después del comienzo del censo siguiente.
Herman Hollerith, quien trabajaba en la oficina de patentes de EEUU consciente de este problema diseña una máquina para automatizar el conteo de los datos del censo: la máquina tabuladora. Su invento basado en el telar de Jacquard utilizaba tarjetas perforadas para automatizar el conteo de los datos demograficos. Gana el concurso de 1889 de la Oficina del Censo y su máquina es utilizada para el censo de 1890 terminando de procesarse la información en 2 años.

Tarjeta del censo de 1890 de EEUU
 Hollerith funda su propia compañia la Tabulating Machine Company. Año a año va mejorando su diseño. Permitiendo no solamente contar elementos, sino ordenar y otras operaciones. Hasta que decide vender su compañía en 1911. En 1924 la empresa se fusiona con otras 2 para pasar a formar la International Business Machines Corporation (IBM).

El procesamiento del censo de 1890 de Estados Unidos puede considerarse la primera resolución mediante métodos automáticos de un problema de Big Data.

Publicidad de Sillicon Graphics de 1998
Revista Black Enterprise

En su paper "A Personal Perspective on the Origin(s) and Development of Big Data": The Phenomenon, the Term, and the Discipline", Francis X. Diebold investigó sobre el origen del término Big Data y llega a mediados de la década del 90. Allí indica varias publicidades de la Empresa Sillicon Graphics donde se usa el término: Black Enterprise (March 1996, p. 60), varias veces en Info World (comenzando el 17 de noviembre de 1997, p. 30) y varias veces en CIO (comenzando el 15 de febrero de 1998, p. 5). 
La empresa Sillicon Graphics se creó en 1982 y se especializo en el mercado de los gráficos 3D. Las películas Terminator 2 y Jurassic Park tenian efectos computalizados realizados por sus computadoras.
Jhon Mashey, director de Sillicon Graphics afirma que el término Big Data fue inventado dentro de la empresa y comenzada a utilizar en 1994 como término de marketing (Big Data - Yesterday, Today, and Tomorroy).

Dentro de la literatura científica, fue en 1997 en el paper "Application-Controlled Demand Paging for Out-of-Core Visualization" por Michael Cox y David Ellsworth la primera vez que se utilizó el termino Big Data. Los autores, trabajando para la NASA afirman "los set de datos son generalmente bastante grandes, sobrepasando la capacidad de la memoria principal, disco local o aun discos remotos. Llamamos a esto el problema de big data".

Fue en 2006 con la aparición de Hadoop, un framework de código abierto de procesamiento de gran volumen de datos en forma distribuida que permitió al gran público informático comenzar a poder resolver problemas de tipo Big Data.

Teniendo en cuenta lo mencionado, Big Data es más que nada un problema tecnológico: de volumen de almacenamiento y de recursos requeridos para el procesamiento. Y como todo problema tecnológico sus fronteras se van corriendo a medida que la tecnológica avanza y nuevas herramientas se crean para resolver los problemas planteados.

Dentro de un lapso de tiempo histórico dado, con la tecnología existente, existen problemas de rosolución simple, existen los problemas irresolubles y existe una frontera entre ambos: los problemas de Big Data. Que más allá de ser un nombre surgido del marketing engloba a un gran conjunto de problemas y una gran cantidad de herramientas para su resolución.

Comentarios