La Preservación Digital y el Big Data

La Preservación Digital y el Big Data

La preservación digital y el Big Data tienen mucho que ver. Tiene sentido, por lo menos bajo mi punto de vista.

Big DataEl campo del Big Data está entrando lentamente entre nosotros y viene para quedarse. Datos, datos y más datos liberados (o todavía no todos) a disposición de cualquiera que quiera hacer algo con los datos. Una investigación, redistribución, venta, lo que sea.

¿De que va el BigData?

Si no estás muy al caso del BigData, este se basa en la asunción de las 5 R’S

1 reutilizar
2 revisar,
3 remezclar
4 redistribuir
5 retener

Es decir, la idea detrás del BigData es la reutilización de datos liberados en abierto en grandes cantidades, para después generar otros. Aunque la idea conceptualmente es sencilla, tecnológicamente no lo es tanto.

Prueba de ello, es que todavía no es posible ni siquiera encontrar BigData aplicado a PYMES, entre otras cosas por la falta de perfiles profesionales especializados. Aun así es posible ver en multinacionales como IBM, HP o Google software para la recolección y análisis de estos datos.

Sin embargo, en un proceso de Big Data, también pueden influir cuestiones que quizás ahora aparentemente no se plantean ni se tienen en cuenta.

A esta cuestiones me refiero, cuando hablo de formatos, validez de una API o software de visualización obsoleto por poner un ejemplo.

Da la sensación que las aplicaciones que hay para Big Data no van a padecer este tipo de problemas. Hay grandes comunidades de desarrolladores de software abierto detrás.

Parece ser además que el problema de actualización del software está cuando menos solucionado. Pero los datos liberados, no parece ser tan claro. Vamos a centrarnos un poco. En las bibliotecas o archivos.

La aplicación de Big Data a las bibliotecas

Los datos abiertos (opendata) o datos enlazados (linked data) tienen que ver con la preservación digital tanto en cuanto gobiernos, estados, comunidades o ayuntamientos, los están liberando datos.
Estos datos liberados pueden ser utilizados por investigadores, profesionales o empresarios.

Pero, hay una objeción en la que quiero entrar: Si bien estos datos están liberados y a disposición de la ciudadanía, me pregunto hasta qué punto no tendrían que entrar en algunos casos en ciclos de preservación digital.

Esto es análisis forense, migración de formatos, emulación de software con APIS o generación simplemente de nuevas APIS.

Preservación Digital vs Big Data

Un ayuntamiento libera datos en abierto a través de un repositorio como el que tienes aquí enlazado.

De esos datos, se hace una aplicación para validar esos datos y reutilizar datos y una visualización. En definitiva, todo un trabajo de campo.

¿Qué pasa entonces si los formatos de datos quedan obsoletos? ¿Qué pasa cuando la API que se ha creado ya no sirve?

Alguien me podrá decir que los datos que se liberan son datos estructurados, en formato CSV y que son de tipo de texto. A lo sumo formatos en RDF o en formato XML o JSON. Pero no siempre es así. Hay bibliotecas y ayuntamientos con respositorios que no liberan información o datos en esos formatos.

Lo que no está tan claro es que el formato esté actualizado, porque un ayuntamiento por problemas presupuestarios, no pueda tener por ejemplo documentos en formato PDF al día.

Además hay otra cuestión de fondo. Los datos cambian. En algunos casos se actualizan mes a a mes. Como ejemplo sería el registro de certificación de eficiencia energética de Catalunya. El mismo documento tiene una actualización mensual.

Lo que vengo a decir con este artículo es que habrá datos públicos que en algún momento no se podrán abrir. Bien porque la tecnología de proceso ha quedado obsoleta como sería el caso de una API, bien porque el formato no es reconocible.

Así pues estamos otra vez ante una asunción interesante. Los datos se liberan a cargo de presupuestos (de todos). Sería interesante ponerse de acuerdo de una vez en que formatos habría que liberar para que en el largo plazo, no haya que redestinar recursos otra vez para que esos datos liberados no den problemas de formatos.
Te planteo aquí varias cuestiones. La primera de ellas sería que tipos de formatos crees tu que se deberían liberar y que tipo de vigilancia y acciones se podrían hacer.

Puedes comentarlo en la entrada del blog.

Las propiedades significativas de los objetos digitales

Las propiedades significativas de los objetos digitales

Digital Press, Clifton, NJ 6/28/08 - 1 of 25

En la entrada de esta semana, voy a introducirte que son las propiedades significativas de un objeto digital.

Es necesario entender estas propiedades, en el caso de emplear migración de formatos. En un caso ideal como siempre, no serían necesario tenerlas en cuenta. Pero ni la tecnología es eterna, ni los formatos tampoco.

Imagina que te estás comiendo el dulce que más te apetece.

Si lo muerdes o lo saboreas, para ti ese dulce, tiene una serie de propiedades, según su sabor, color, olor, tacto incluso oído si es que cruje. Serían sus propiedades significativas.

En el caso de un objeto digital, pasa exactamente lo mismo. Un objeto digital tiene una serie de propiedades que lo hacen único del resto.

Ah, ¿pero todos los objetos digitales no tienen las mismas propiedades? La respuesta es no. Todos los objetos son distintos y cada uno de ellos tiene propiedades que lo diferencian de los demás.

Te voy a indicar una definición de propiedades significativas

“Las características de los objetos digitales que deben ser preservadas en el tiempo para asegurar su continúa accesibilidad, usabilidad y significado de los objetos” (Wilson, 2007)

Te voy a enseñar esto con ejemplos.

Ejemplo 1 – Contenido del objeto

Dos documento de texto plano con el bloc de Notas (Notepad). El documento 1 tiene 100 palabras y el documento 1 99. Los dos documentos ya sólo por la diferencia del contenido son diferentes. Aun así, aunque tuviesen el mismo contenido, tendrían diferencias, como la hora en que se grabaron o el formato de caracteres en qué se registraron, ANSI, UTF-8, etc.

Ejemplo 2 – Documento gráfico

En una cámara de fotos casera, las imágenes suelen hacerse en formato JPG.  En una profesional, la cosa cambia, tienes por ejemplo el formato RAW (crudo) que te permite definir posteriormente a que formato migrarás la imagen. Ejemplos de formato a migrar serán TIFF o JPG.

Si tienes dos imágenes por ejemplo en formato JPG, no será lo mismo una foto creada en 1996-1997 que fue cuando salieron al mercado las primeras cámaras digitales que una foto creada en 2013. Sólo tener en cuenta la propia resolución de las dos imágenes ya tendrás un cambio en la apariencia de la propia foto.

¿Y todo esto para qué?

Esta quizás sería la pregunta que debes hacerte. Cuando hablamos de estrategias de migración de objetos digitales, uno de los aspectos clave es entender las propiedades significativas de los objetos digitales.

Esto quiere decir que necesitas entender cuáles son esenciales para su conservación, de cuáles puedes prescindir sin que por ello afecte a su información.

A modo de ejemplo, si tienes una colección de documentos con audio, cuestiones relativas cómo la fidelidad, el volumen o la frecuencia de muestreo son propiedades que tendrás que tener en cuenta cuando realizas una transferencia hacía un formato digital.

Tanto por parte de (Hedstrom y Lee, 2002) existen métodos formales para describir las propiedades significativas de un objeto. En su artículo proponen un método modular y extensible.

En este artículo explican como para construir su modelo definieron su estudio basándose entre otras normativas y estándares como el MIME (multipurpose Internet mail extensions) en su definición de ficheros, y extrajeron propiedades de especificaciones de formatos estándares de vido digital de Moving Picture Experts Group (MPEG).

También se basaron en el modelo OAIS y sus descripciones para definir el modelo por el cúal se puede definir de forma sistemática las propiedades significativas de un objeto digital.

Y tú, ¿Qué opinas sobre las propiedades significativas de un objeto digital? ¿Las necesitas?¿Las usas? Puedes comentarlo en la entrada del blog.

 Nos vemos la semana que viene

REFERENCIAS

Hedstrom, M., Lee, C. (2002). Significant properties of digital objects: definitions, aplications, implications. Ponencia presentada en Proceedings of the DLM-Forum 2002, Barcelona, 6-8 May 2002, 218-227. Luxembourg:Office for Official Publications of the European Communites, 2002. [en línea] < http://www.ils.unc.edu/callee/sigprops_dlm2002.pdf > [consulta: 20 de marzo de 2014]

 Wilson,  A. (2007). Significant propierties report, [en línea] < http://www.significantproperties.org.uk/wp22_significant_properties.pdf >[consulta: 20 de marzo de 2014]