Control de integridad y calidad en repositorios DSpace

Giusti, Marisa R. de and Oviedo, Nestor F. and Lira, Ariel J. and Luján Villarreal, Gonzalo Control de integridad y calidad en repositorios DSpace., 2013 . In III Conferencia Internacional de "Acceso abierto, preservación digital y datos científicos" III Conferecia Bibliotecas y Repositorios Digitales de América Latina (BIREDIAL '13) VIII Simposio Internacional de Bibliotecas Digitales (SIBD '13), Ciudad de la Investigación, Universidad de Costa Rica, 15-17 octubre 2013. (Unpublished) [Conference paper]

[img]
Preview
Text
Ponencia 27-220-1-PB.pdf

Download (253kB) | Preview
[img]
Preview
Slideshow
Presentación 27-241-1-PB.pdf

Download (339kB) | Preview

English abstract

-

Spanish abstract

En los últimos años se ha visto un incremento significativo en la creación de nuevos repositorios digitales, así como en la consolidación de los ya existentes. Esto puede atribuirse en gran medida al creciente interés por parte de las instituciones académicas y científicas en reducir las restricciones de acceso a su producción, tomando la decisión de compartirla públicamente bajo las políticas de acceso abierto, y buscando asegurar este libre acceso en el tiempo a través de diversas estrategias de preservación. Es así que el gran crecimiento de los repositorios digitales como puntos centralizados para el depósito, difusión y preservación del material académico y científico de las instituciones se ha convertido en una estrategia a nivel institucional. El crecimiento de los repositorios digitales se ve reflejado mayormente en la cantidad de recursos que los mismos son responsables de almacenar, compartir y preservar; en la medida que el volumen de recursos aumenta, también aumenta la necesidad de contar con mecanismos de control automático de metadatos y archivos, a fin de simplificar el trabajo de control de los administradores sobre la calidad de los metadatos descriptivos, administrativos y de preservación, buscando de esta manera contar con un repositorio eficiente y confiable. El software para repositorios digitales DSpace, de amplio uso a nivel mundial, ofrece para estos fines un sistema de control semi-automático denominado Curation Tasks que permite evaluar y/o modificar cualquier característica deseada sobre todos los recursos del repositorio, o bien sobre un conjunto acotado a una comunidad o una colección específica. Este trabajo describe 2 vías de extensión sobre el módulo de curation de Dspace. En primer lugar se describe un conjunto de curation tasks orientadas a analizar y reportar distintos aspectos asociados a la calidad de los datos y a brindar un soporte adicional a las tareas de preservación sobre el repositorio por medio de chequeos de integridad y de generación de nuevos metadatos. En segundo lugar se plantea la modificación de la estrategia de ejecución de curation tasks provisto por DSpace, en pos de minimizar su impacto en la performance de la aplicación, y flexibilizar los criterios de selección de recursos a procesar. A continuación se mencionan curation tasks que serán consideradas en este trabajo: chequeo de enlaces web a documentos alojados en servidores externos al repositorio, configurable; chequeo de metadatos conectados con autoridades (o vocabularios controlados) dentro o fuera del repositorio, para chequeo de integridad en los datos; chequeo de archivos cargados en el repositorio, asegurando que todos los recursos cuenten con un archivo asociado bajo las normas y políticas del repositorio; control de metadatos obligatorios, según el tipo de documento; control del dominio de metadatos, de acuerdo a tipos primitivos como ser fecha, número, texto, etc; generación de metadatos de preservación a partir de los archivos asociados a los recursos (ej.: software con el que se realizó el archivo, con su correspondiente versión, versión del formato, nivel de compresión utilizado, etc) testeo y posterior reporte de recursos a partir de condiciones lógicas sobre metadatos y archivos, utilizando un lenguaje de expresión simple. Actualmente las curation tasks se ejecutan sobre todos los ítems de una colección, una comunidad o incluso el repositorio completo, sin interrupciones y de manera secuencial. Esta estrategia de selección y ejecución genera una elevada demanda de recursos sobre el servidor que aloja el repositorio durante todo el tiempo de ejecución de los procesos de curation tasks, degradando la performance del mismo. Además, cuando se incluye más de una tarea en una misma orden de ejecución, éstas se ejecutan de forma secuencial, es decir, una tarea no puede iniciar su ejecución hasta tanto la tarea anterior no haya finalizado completamente. De aquí que en este trabajo se propone una nueva estrategia para la selección de los recursos a procesar y dos nuevas estrategias de ejecución de curation tasks: estrategia de selección de recursos a procesar en base a una expresión lógica configurable (ej.: seleccionar recursos según el valor de su metadato dc.type); estrategia de ejecución por lotes incrementales en pos de disminuir el impacto de la ejecución de las curation tasks sobre el sistema; cambio en la forma de ejecución secuencial a fin de obtener un avance uniforme a nivel de recursos en el procesamiento, en lugar de un avance a nivel de curation tasks. Hacia el final de este trabajo se mencionan otras posibles curation tasks, haciendo especial hincapié en las dificultades de implementación y la utilidad de las mismas en lo que respecta a la calidad de los metadatos y archivos, y a la preservación de los recursos. Entre estas tareas se pueden destacar un mecanismo de diagnóstico de archivos plausibles de ser o no preservados, un proceso de detección de recursos duplicados, una tarea de inferencia de relaciones entre recursos, de extracción de bibliografía a partir del texto completo, entre otras.

Item type: Conference paper
Keywords: curation tasks; preservacion digital; intergridad; calidad de la informacion
Subjects: H. Information sources, supports, channels. > HS. Repositories.
Depositing user: Andrey Barrantes Vargas
Date deposited: 16 Nov 2013 05:15
Last modified: 02 Oct 2014 12:28
URI: http://hdl.handle.net/10760/20521

References

1. De Giusti, M.R., Lira, A.J., Villarreal, G.L., Texier, J.D., Oviedo, N.F.: Las actividades y el planeamiento de la preservación en un repositorio institucional. BIREDIAL - Conferencia Internacional Acceso Abierto, Comunicación Científica y Preservación Digital. Barranquilla, Colombia. 2012. Disponible en http://sedici.unlp.edu.ar/handle/10915/26045

2. DSpace Manual. Disponible en https://wiki.duraspace.org/display/DSDOC3x

3. Knight, S.: Preservation Metadata: National Library of New Zealand Experience. Library Trends. Vol 54, No. 1. (91-110). 2005


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item