Categorías
Big Data Preservación Digital

La Preservación Digital y el Big Data

La Preservación Digital y el Big Data

La preservación digital y el Big Data tienen mucho que ver. Tiene sentido, por lo menos bajo mi punto de vista.

Big DataEl campo del Big Data está entrando lentamente entre nosotros y viene para quedarse. Datos, datos y más datos liberados (o todavía no todos) a disposición de cualquiera que quiera hacer algo con los datos. Una investigación, redistribución, venta, lo que sea.

¿De que va el BigData?

Si no estás muy al caso del BigData, este se basa en la asunción de las 5 R’S

1 reutilizar
2 revisar,
3 remezclar
4 redistribuir
5 retener

Es decir, la idea detrás del BigData es la reutilización de datos liberados en abierto en grandes cantidades, para después generar otros. Aunque la idea conceptualmente es sencilla, tecnológicamente no lo es tanto.

Prueba de ello, es que todavía no es posible ni siquiera encontrar BigData aplicado a PYMES, entre otras cosas por la falta de perfiles profesionales especializados. Aun así es posible ver en multinacionales como IBM, HP o Google software para la recolección y análisis de estos datos.

Sin embargo, en un proceso de Big Data, también pueden influir cuestiones que quizás ahora aparentemente no se plantean ni se tienen en cuenta.

A esta cuestiones me refiero, cuando hablo de formatos, validez de una API o software de visualización obsoleto por poner un ejemplo.

Da la sensación que las aplicaciones que hay para Big Data no van a padecer este tipo de problemas. Hay grandes comunidades de desarrolladores de software abierto detrás.

Parece ser además que el problema de actualización del software está cuando menos solucionado. Pero los datos liberados, no parece ser tan claro. Vamos a centrarnos un poco. En las bibliotecas o archivos.

La aplicación de Big Data a las bibliotecas

Los datos abiertos (opendata) o datos enlazados (linked data) tienen que ver con la preservación digital tanto en cuanto gobiernos, estados, comunidades o ayuntamientos, los están liberando datos.
Estos datos liberados pueden ser utilizados por investigadores, profesionales o empresarios.

Pero, hay una objeción en la que quiero entrar: Si bien estos datos están liberados y a disposición de la ciudadanía, me pregunto hasta qué punto no tendrían que entrar en algunos casos en ciclos de preservación digital.

Esto es análisis forense, migración de formatos, emulación de software con APIS o generación simplemente de nuevas APIS.

Preservación Digital vs Big Data

Un ayuntamiento libera datos en abierto a través de un repositorio como el que tienes aquí enlazado.

De esos datos, se hace una aplicación para validar esos datos y reutilizar datos y una visualización. En definitiva, todo un trabajo de campo.

¿Qué pasa entonces si los formatos de datos quedan obsoletos? ¿Qué pasa cuando la API que se ha creado ya no sirve?

Alguien me podrá decir que los datos que se liberan son datos estructurados, en formato CSV y que son de tipo de texto. A lo sumo formatos en RDF o en formato XML o JSON. Pero no siempre es así. Hay bibliotecas y ayuntamientos con respositorios que no liberan información o datos en esos formatos.

Lo que no está tan claro es que el formato esté actualizado, porque un ayuntamiento por problemas presupuestarios, no pueda tener por ejemplo documentos en formato PDF al día.

Además hay otra cuestión de fondo. Los datos cambian. En algunos casos se actualizan mes a a mes. Como ejemplo sería el registro de certificación de eficiencia energética de Catalunya. El mismo documento tiene una actualización mensual.

Lo que vengo a decir con este artículo es que habrá datos públicos que en algún momento no se podrán abrir. Bien porque la tecnología de proceso ha quedado obsoleta como sería el caso de una API, bien porque el formato no es reconocible.

Así pues estamos otra vez ante una asunción interesante. Los datos se liberan a cargo de presupuestos (de todos). Sería interesante ponerse de acuerdo de una vez en que formatos habría que liberar para que en el largo plazo, no haya que redestinar recursos otra vez para que esos datos liberados no den problemas de formatos.
Te planteo aquí varias cuestiones. La primera de ellas sería que tipos de formatos crees tu que se deberían liberar y que tipo de vigilancia y acciones se podrían hacer.

Puedes comentarlo en la entrada del blog.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *