BIG DATA, la revolución de los datos masivos

Big Data es el término que se usa para denominar la gestión y análisis de enormes volúmenes de datos que no pueden ser tratados de manera convencional, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos. Es un término cada vez más común pero que aún no está asimilado en el imaginario popular a pesar de estar presente en muchas facetas de la vida. El concepto engloba infraestructuras, tecnologías y servicios que han sido creados para dar solución al procesamiento de enormes conjuntos de datos (mensajes en redes sociales, señales de móvil, archivos de audio, sensores, imágenes digitales, datos de formularios, emails, datos de encuestas, transacciones económicas, ventas de bienes etc,) que pueden provenir de cualquier dispositivo que los facilite y que posteriormente se pueda procesar.

Desde la recopilación de datos sobre síntomas de enfermedades, hábitos de alimentación, preferencias de consumo hasta la medición de multitud de parámetros relacionados con las condiciones climatológicas del planeta. Los datos masivos serán en breve una fuente de innovación y de nuevo valor económico, y muchos aspectos de nuestro mundo que hoy son competencia exclusiva del juicio humano se verán incrementados o sustituidos directamente por sistemas computerizados.

Viktor Mayer-Schönberger es profesor en el Internet Institut de la universidad de Oxford y es uno de los expertos más reconocidos en el mundo de los datos masivos. Kennet Cukier es el editor de datos de la revista The Economist. Ambos expertos han publicado este ensayo destinado al lector común y ajeno al mundo del procesado de datos, para explicar en qué consiste el Big Data, cómo nos puede cambiar la vida y cómo podemos hacer frente a sus riesgos.

Hasta ahora se procesaban datos siempre desde una perspectiva del muestreo, síntoma de las restricciones naturales de interaccionar con la información en la era analógica, como por ejemplo las encuestas de intención de voto o de hábitos de consumo. En esta era digital ya se pueden emplear todos los datos sin acudir al muestreo y así apreciar más detalles que nunca antes. Al considerar todos los datos se pueden asumir más errores de medida, y al procesar todos y cada uno de los datos nos empuja a esforzarnos por obtener el resultado exacto. Antes se trabajaba sobre segmentos poblacionales de los datos, ahora ya sobre todos ellos y eso conduce a una aproximación mucho mayor. Como dice Viktor Mayer «De nada sirve vender ganado cuando el comprador no está seguro si en el rebaño hay ochenta vacas o cien«. El objetivo del Big Data es convertir el dato en información que facilite la toma de decisiones.

Las aplicaciones científicas, médicas y tecnológicas que se abren ante este nuevo horizonte de tratamiento de los datos son inmensas, aunque están siendo las empresas las primeras en tomar posiciones con el objeto de aumentar sus oportunidades y beneficios. Para las empresas no es nuevo manejar grandes volúmenes de datos, y han desarrollado datawarehouses y potentes herramientas analíticas para tratarlos. Los autores describen por ejemplo en el capítulo «Dejad hablar a los datos» que Google procesa más de 24 petabytes de datos al día, Facebook sube más de diez millones de fotos a la hora y sus usuarios insertan comentarios o clickan «me gusta» casi tres mil millones de veces diarias, y los ochocientos millones de usuarios mensuales de Youtube suben más de una hora de vídeo cada segundo. Hoy en día la existencia de información en el mundo se duplica en menos de tres años. Los autores estiman que el actual diluvio digital equivale a darle a cada persona de la tierra el equivalente a trescientas veces la cantidad de información que se calculaba que almacenaba la mítica biblioteca de Alejandría.

Viktor y Kenneth predicen que en pocos años el Big Data será parte de la solución a los acuciantes problemas globales como el cambio climático, erradicación de enfermades y el desarrollo económico. También advierten de la contrapartida, el lado más oscuro de este procesamiento masivo de datos en relación a la dificultad creciente que tendremos por proteger nuestra privacidad.

El libro está enfocado para un público ajeno a la parte más técnica del procesamiento de datos, por lo que no entran a fondo en el cómo se procesan, sino que se quedan en la exposición de en qué consiste y se apoyan en multitud de ejemplos existentes en todos los ámbitos de la sociedad sobre la bondad y las posibilidades de esta nueva forma de procesar la información. Y lo hacen comenzando el libro con un ejemplo impactante. En relación al último brote severo de gripe de 2006, Google extrajo los cincuenta millones de términos de búsqueda más corrientes empleados por los estadounidenses y los comparó con los datos oficiales del sistema de salud (el centro de prevención de enfermedades) entre 2003 y 2008. Su intención: intentar identificar los afectados por el virus de la gripe a través de lo que buscaban por internet. Más que centrarse en términos como «remedios para la tos o la fiebre» diseñaron un sistema que procesó la apabullante cifra de 450 millones de modelos matemáticos diferentes para poner a prueba los términos de búsqueda y los compararon con las predicciones de los casos de gripe del sistema de salud. Los datos de la compañía y el sistema coincidian, pero la compañía los daba en tiempo real. Google mostró que era capaz de determinar la prevalencia de la gripe casi igual de bien que los datos oficiales basados en las visitas de pacientes al médico. Peinaron cientos de miles de millones de términos de búsqueda, obteniendo una respuesta en tiempo real mucho más rápido que las fuentes oficiales. Nada de pruebas médicas, bastoncitos bucales ni acudir al médico. Simplemente empleando el big data. Podría ser que para la próxima pandemia mundial el mundo disponga de una herramienta mejor para predecir, y por ende, prevenir.

The Book Hunter

Estímulos del pensamiento escrito