Se habla mucho actualmente de los Grandes Datos (Big Data). Por ejemplo, esta es la semana de los Grandes Datos (Big Data Week), en que veremos eventos sobre este tema en decenas de ciudades alrededor del mundo. Pero las discusiones sobre los grandes datos se pierden de algo mucho mayor e importante: la oportunidad real no son los grandes datos, sino los pequeños. No súper computadoras centralizadas, sino trabajo manual descentralizado. No “un anillo para gobernarlos a todos”, sino “pequeñas piezas apenas unidas”.
Los Grandes Datos pecan de los caprichos de centralización que hemos visto en cada era de la computación. La idea de “mirá hay más datos de los que podemos procesar” (algo que sin dudas es siempre cierto año tras año desde que comenzó la computación) es hoy la última moda asociada a las tendencias tecnológicas.
Mientras tanto, ponemos en riesgo mirar por encima lo realmente importante de esta historia, la revolución real, que es la democratización masiva de los medios de acceso, almacenamiento y procesamiento de datos. Esta historia no es sobre grandes organizaciones corriendo software paralelo en decenas de miles de servidores, sino que la gente pueda colaborar efectivamente alrededor de un ecosistema distribuido de información, un ecosistema de datos pequeños.
Tal y como hoy nos parece absurdo hablar de “software grande”, como si el tamaño en sí mismo fuera una medida de valor, deberíamos, y lo haremos algún día, encontrar extraño hablar de “grandes datos”. El tamaño en sí mismo no importa, lo que importa es tener los datos, de cualquier tamaño, que nos ayuden a resolver problemas o a contestar preguntas que tengamos.
Para muchos problemas y preguntas, los datos pequeños son suficientes. Los datos de consumo energético que consume mi casa, los horarios de los colectivos, el gasto del gobierno, todos estos son datos pequeños. Todo lo que se procesa en Excel son datos pequeños. Cuando Hans Rosling nos muestra cómo entender nuestro mundo a través de los cambios de alfabetización de la población lo hace con datos pequeños.
Y cuando queremos escalar, la manera de hacerlo es a través de datos pequeños en componentes: mediante la creación e integración de “paquetes” de datos pequeños, no construyendo monolitos de grandes datos, sino seccionando problemas de manera que funcionen a través de personas y organizaciones, no a través de crear masivos silos centralizados.
La próxima década le pertenece a los modelos distribuidos no centralizados, a la colaboración y no al control, y a los datos pequeños no a los grandes.
Este post es una traducción autorizada por su autor original, el Dr. Rufus Pollock, fundador y co-director de la Open Knowledge Foundation, y publicada acá.