Enriquecimiento de entidades de Wikidata mediante un modelo de descomposición y mapeado de categorías de Wikipedia

Saorín, Tomás and Pastor-Sánchez, Juan-Antonio Enriquecimiento de entidades de Wikidata mediante un modelo de descomposición y mapeado de categorías de Wikipedia., 2019 [Preprint]

[img]
Preview
Text (Texto en Español)
isko-2019-preprint-wikidata.pdf

Download (853kB) | Preview

English abstract

This paper explores the relationship between the categories assigned to the Wikipedia articles with the description and metadata generated in Wikidata. It is proposed to use the categorization of Wikipedia articles to enrich the description of entities in Wikidata. For this, the literals of the categories could be processed using natural language processing techniques (NLP), establishing patterns that allow the identification of properties as well as entities or values ​​with which to construct statements for an entity. The sequence of operations would be the following: 1) Selection of a coherent set of categories, 2) Establishment of patterns of processing of literals and assignment to properties and elements of Wikidata, 3) Creation of declarations with qualifiers for each category processed and 4) Programming of bots for the automatic processing of categories, enrichment and validation of Wikidata element descriptions. The technique shown in this paper focuses on the use of different properties and entities of Wikidata to develop point 3. The automation of a process to enrich and validate the declarations of each element, would allow to reuse existing edition dynamics. It would also help to elaborate a scheme of concepts of higher quality, by specifying the meaning of the categories that suppose a composition of several terms and that actually solve descriptive needs by other means.

Spanish abstract

El objetivo de este trabajo es explorar la relación entre las categorías asignadas a los artículos de Wikipedia con la descripción y metadatos generados en Wikidata. Se plantea utilizar la categorización de artículos de Wikipedia para enriquecer la descripción de entidades en Wikidata. Para ello se propone procesar los literales de las categorías mediante técnicas de procesamiento de lenguaje natural (PLN) estableciendo patrones que permitan identificar tanto propiedades como entidades o valores con los que construir declaraciones para una entidad. La secuencia de operaciones propuesta sería el siguiente: 1) Selección de un conjunto coherente de categorías, 2) Establecimiento de patrones de procesamiento de literales y asignación a propiedades y elementos de Wikidata, 3) Creación de declaraciones con cualificadores para cada categoría procesada y 4) Programación de bots para el procesamiento automático de categorías, enriquecimiento y validación de las descripciones de elementos de Wikidata. La propuesta recogida en este trabajo se centra en el uso de diferentes propiedades y entidades de Wikidata para desarrollar el punto 3. La automatización de un proceso para enriquecer y validar las declaraciones de cada elemento, permitiría aprovechar las dinámicas de edición existentes. Además ayudaría a elaborar un esquema de conceptos de más calidad, al especificarse el significado de las categorías que suponen una composición de varios términos y que en realidad resuelven necesidades descriptivas por otros medios.

Item type: Preprint
Keywords: Wikipedia, Wikidata, Categories, Named-entity recognition, Knowledge organization, Categorías, Reconocimiento de entidades nombradas, Organización del Conocimiento
Subjects: L. Information technology and library technology
Depositing user: Juan-Antonio Pastor-Sánchez
Date deposited: 16 Jun 2019 10:04
Last modified: 16 Jun 2019 10:04
URI: http://hdl.handle.net/10760/38628

References

Association of Research Libraries (2019) “ARL White Paper on Wikidata: Opportunities and Recommendations”, abril de 2019

Hedden, H. (2016). The accidental taxonomist (2a). Information Today.

Lambe, P. (2007). Organising knowledge: taxonomies, knowledge and organizational effectiveness. Oxford: Chandos Publishing.

Minguillón, Julià; Lerga, Maura; Aibar, Eduard; Lladós-Masllorens, Josep; Meseguer-Artola, Antoni (2017). “Semi-automatic generation of a corpus of Wikipedia articles on science and technology”. El profesional de la información, v. 26, n. 5, pp. 995-1004. Recuperado de: https://doi.org/10.3145/epi.2017.sep.20.

Morville, Peter (2005) Ambient findability: What We Find Changes Who We Become. Sebastopol: O’Reilly.

Pastor-Sánchez, J.A. & Saorín, T. (2018) Proposal for the integration of the semantic structure of Wikipedia categories using SKOS. 15th International ISKO Conference (OPorto, 2018). Recuperado de: http://hdl.handle.net/10760/38627

Saorín, T. & Pastor-Sánchez, J.A (2018). “Wikidata y DBpedia: viaje al centro de la web de datos”. Anuario ThinkEPI, v. 12, pp. 207-214. https://doi.org/10.3145/thinkepi.2018.31

Tramullas, Jesús; Sánchez Casabón, Ana-Isabel; Garrido, Piedad. Wikipedia categories in research: towards a qualitative review of uses and applications. En: in: Fernanda Ribeiro, Maria Elisa Cerveira (Coords.) Challenges and Opportunities for Knowledge Organization in the Digital Age, pp. 490 – 498, Proceedings of the Fifteenth International ISKO Conference 9-11 July 2018 Porto, Portugal


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item