15 años de Big Data

Cada vez escuchamos hablar más en los medios de comunicación del término Big Data. Aunque con definiciones muy diversas (esto daría para otro artículo), todos tenemos una idea de qué se esconde bajo este concepto.

Las 3 Vs: Volumen, Velocidad y Variedad

Es muy curioso que si queremos remontarnos al origen de este término debemos viajar 15 años atrás. Efectivamente, ya a principios de este siglo se empezaron a construir las bases de lo que hoy se conoce como Big Data.

Para ser exactos en febrero de 2001 Doug Laney, que por aquel entonces trabajaba para la consultora especializada Meta Group, comenzó a hablar de las hoy ya famosas “3 Vs” en su artículo “3D Data Management: Controlling Data Volume, Velocity and Variety”.

En este artículo no se menciona el término Big Data, que llegaría unos años más tarde. Sin embargo, ya se predicen las tendencias tecnológicas que lo sustentan. Se habla del incremento en la complejidad de la información manejada por las organizaciones, tanto en:

El Volumen de información manejada.
La Velocidad en la que se genera la información (y sobre la que se debe dar una respuesta).
La Variedad de formatos de información manejados, con distintas estructuras y semánticas.

También Doug vaticinó en este artículo que las organizaciones tenderían a crear repositorios de datos comunes entre los distintos departamentos, con un mismo vocabulario de negocio y que permitirían colaboraciones tanto internas (interdepartamentales) como externas (con terceros).

Muy posiblemente por todo lo anterior Doug Laney actualmente ocupa un puesto de peso en la consultora de referencia Gartner.

Difusión del término Big Data

No es hasta 2005 cuando se produce el siguiente gran paso al comenzar a popularizarse el término Big Data. Uno de los grandes difusores de este mensaje entre 2005 y 2010 es Roger Magoullas, a quien se atribuye frecuentemente el mérito de haber acuñado el término.

Por su parte, uno de los primeros documentos hablando de Big Data es el número 11 del Release 2.0 de O’Reilly de febrero de 2009: “Big Data: Technologies and Techniques for Large-Scale Data”.

En este documento, Roger y Ben Lorica, que hábilmente reservó en twitter en su momento el perfil @bigdata, ya escriben tanto sobre las nuevas necesidades de negocio de las organizaciones en torno a la gestión de la información como de los aspectos más técnicos para poder manejar estos “voluminosos”, “veloces” y “variados” datos.

Proyectos Apache

Toda esta evolución conceptual durante estos 15 años no hubiera llegado hasta nuestros días si no se hubieran sucedido dos hitos tecnológicos que han impulsado la implantación de soluciones Big Data:

Por un lado, en 2006 la iniciativa de software libre Hadoop alcanzó el nivel de subproyecto dentro de la Fundación Apache (y posteriormente en 2008 alcanzaría el nivel de proyecto).
En segundo lugar, y más recientemente, en 2013 se lanzó una primera versión de Spark, convirtiéndose también en proyecto de primer nivel Apache desde 2014.

Big Data y el Grupo Cajamar

En el Grupo Cajamar los proyectos Big Data son uno de los núcleos de nuestra estrategia de innovación, liderando en nuestro sector la implantación de las mejores prácticas y soluciones tecnológicas Big Data y las últimas tendencias en Data Science.

El objetivo de estos proyectos es mejorar el servicio a nuestros clientes así como optimizar nuestra oferta de productos para adaptarnos a las necesidades de la sociedad actual.
Entre otros proyectos e iniciativas del Grupo Cajamar se encuentran: