La Preservación Digital y el Big Data

La Preservación Digital y el Big Data

La preservación digital y el Big Data tienen mucho que ver. Tiene sentido, por lo menos bajo mi punto de vista.

Big DataEl campo del Big Data está entrando lentamente entre nosotros y viene para quedarse. Datos, datos y más datos liberados (o todavía no todos) a disposición de cualquiera que quiera hacer algo con los datos. Una investigación, redistribución, venta, lo que sea.

¿De que va el BigData?

Si no estás muy al caso del BigData, este se basa en la asunción de las 5 R’S

1 reutilizar
2 revisar,
3 remezclar
4 redistribuir
5 retener

Es decir, la idea detrás del BigData es la reutilización de datos liberados en abierto en grandes cantidades, para después generar otros. Aunque la idea conceptualmente es sencilla, tecnológicamente no lo es tanto.

Prueba de ello, es que todavía no es posible ni siquiera encontrar BigData aplicado a PYMES, entre otras cosas por la falta de perfiles profesionales especializados. Aun así es posible ver en multinacionales como IBM, HP o Google software para la recolección y análisis de estos datos.

Sin embargo, en un proceso de Big Data, también pueden influir cuestiones que quizás ahora aparentemente no se plantean ni se tienen en cuenta.

A esta cuestiones me refiero, cuando hablo de formatos, validez de una API o software de visualización obsoleto por poner un ejemplo.

Da la sensación que las aplicaciones que hay para Big Data no van a padecer este tipo de problemas. Hay grandes comunidades de desarrolladores de software abierto detrás.

Parece ser además que el problema de actualización del software está cuando menos solucionado. Pero los datos liberados, no parece ser tan claro. Vamos a centrarnos un poco. En las bibliotecas o archivos.

La aplicación de Big Data a las bibliotecas

Los datos abiertos (opendata) o datos enlazados (linked data) tienen que ver con la preservación digital tanto en cuanto gobiernos, estados, comunidades o ayuntamientos, los están liberando datos.
Estos datos liberados pueden ser utilizados por investigadores, profesionales o empresarios.

Pero, hay una objeción en la que quiero entrar: Si bien estos datos están liberados y a disposición de la ciudadanía, me pregunto hasta qué punto no tendrían que entrar en algunos casos en ciclos de preservación digital.

Esto es análisis forense, migración de formatos, emulación de software con APIS o generación simplemente de nuevas APIS.

Preservación Digital vs Big Data

Un ayuntamiento libera datos en abierto a través de un repositorio como el que tienes aquí enlazado.

De esos datos, se hace una aplicación para validar esos datos y reutilizar datos y una visualización. En definitiva, todo un trabajo de campo.

¿Qué pasa entonces si los formatos de datos quedan obsoletos? ¿Qué pasa cuando la API que se ha creado ya no sirve?

Alguien me podrá decir que los datos que se liberan son datos estructurados, en formato CSV y que son de tipo de texto. A lo sumo formatos en RDF o en formato XML o JSON. Pero no siempre es así. Hay bibliotecas y ayuntamientos con respositorios que no liberan información o datos en esos formatos.

Lo que no está tan claro es que el formato esté actualizado, porque un ayuntamiento por problemas presupuestarios, no pueda tener por ejemplo documentos en formato PDF al día.

Además hay otra cuestión de fondo. Los datos cambian. En algunos casos se actualizan mes a a mes. Como ejemplo sería el registro de certificación de eficiencia energética de Catalunya. El mismo documento tiene una actualización mensual.

Lo que vengo a decir con este artículo es que habrá datos públicos que en algún momento no se podrán abrir. Bien porque la tecnología de proceso ha quedado obsoleta como sería el caso de una API, bien porque el formato no es reconocible.

Así pues estamos otra vez ante una asunción interesante. Los datos se liberan a cargo de presupuestos (de todos). Sería interesante ponerse de acuerdo de una vez en que formatos habría que liberar para que en el largo plazo, no haya que redestinar recursos otra vez para que esos datos liberados no den problemas de formatos.
Te planteo aquí varias cuestiones. La primera de ellas sería que tipos de formatos crees tu que se deberían liberar y que tipo de vigilancia y acciones se podrían hacer.

Puedes comentarlo en la entrada del blog.

Caracteristicas de la Investigacion Cientifica y su Preservacion

La Preservacion de las Caracteristicas de la Investigacion Cientifica

caracteristicas de la investigacion cientifica
caracteristicas de la investigacion cientifica

Una de las caracteristicas de la investigacion cientifica es la preservación de sus datos. Conservar el conocimiento cientifico ayuda especialmente a su reutilización. También ayuda a su escalabilidad. La razón de ello, es que más adelante se pueden utilizar.

Recientemente he contestado una encuesta donde se me preguntaba por estos temas. Esto me ha hecho reflexionar y escribirte sobre las caracteristicas de la investigacion cientifica. No sólo de la preservacion en sí. También de que tipos de datos tiene sentido preservar.

No nos engañemos, podemos hacer preservación digital de datos científicos. Pero hay que ver que características tiene esa investigación científica. También hay que valorar que tipos de datos genera.

Conservar las caracteristicas de la investigacion cientifica

Conservar las caracteristicas de los datos de investigacion científica, es algo que debería concienciar a muchos investigadores. No sólo a los investigadores. También debería concienciar a sus instituciones. Esta concienciación pasa por la reutilización de los datos. También por su posterior ahorro de costes.

Es fácil de entender. Una institución pública, mantiene investigadores que hacen su labor con fondos públicos. Seguramente alguno me dirá que alguna empresa privada pone dinero. Pero en la mayoría de los casos no es así.

Por tanto, hay una labor pendiente. Esta labor es preservar datos y caracteristicas de la investigacion cientifica. No es una tontería como alguno pueda pensar. Estos datos, después se pueden reutilizar para futuras investigaciones, además de hacer un esfuerzo escalable.

Otra cuestión más peculiar es si la propia institución se da cuenta de la importancia de este tema.

Universidades y centros de investigación empiezan a tener repositorios. Muchas de ellas disponen de un repositorio o varios, para conservar datos de investigación.

Aún así hay una serie de de fondo que quiero plantearte:

¿qué se debe conservar a largo plazo como dato de investigación?

¿cuáles son las características la investigación cientifica que se ha realizado? ¿qué es lo más relevante?

¿El repositorio para preservar datos tiene que ser público o sólo de acceso a investigadores o a futuros investigadores? Es cierto que existen repositorios. Sin embargo, ¿cuántos repositorios existen para preservar datos científicos?

¿Qué tipo de estrategias hay que seguir para conservar datos de investigación?

Quizás esta ultima pregunta es más compleja de responder. No será lo mismo datos de investigación sobre enfermedades coronarias, que datos sobre algun hecho puntual de historia en el S.XV. La investigación en medicina dispone o tiene software sofisticado que posiblemente no permita preservar datos de investigación científica fácilmente.

Formatos de ficheros, patentes o licencias de uso se me antoja que pueden tener políticas de preservación digital complejas.

A continuación te dejo unos enlaces sobre estos temas,

  • Birdlife.com que se dedica a promover la conservación del medio ambiente
  • Martínez Uribe, Luis (2008) ¿Y los datos qué? In 3as Jornadas Os-Repositorios: La proyección de los repositorios institucionales, 10 al 12 de Diciembre 2008, Universidad Complutense de Madrid, Madrid.
  • National Geological and Geophysical Data Preservation Program,
  • Torres, L., Nuñez, L., Torrens, R. Barrios, E. (2011) Implementación de un Repositorio de Datos Científicos usando Dspace, Articulo en Pdf

Es tu turno. Si eres investigador, ¿conservas tus datos de investigación? ¿De que forma? ¿Son para tí importantes los datos y las caracteristicas de la investigacion científica que realizas?

Puedes dejar una nota en la entrada del blog.