Blázquez-Ochando, Manuel Desarrollo de un sistema de clasificación automática de contenidos en medios de comunicación españoles y mexicanos = Development of an automatic classification of content system in Spaniard-Mexican mass media., 2012 . In 9º Seminario Hispano-Mexicano de Bibliotecología y Documentación, Madrid, 7-9 May. [Conference paper]
Preview |
Text
9o-seminario-hispanomexicano-manuel-blazquez-ochando.pdf - Published version Download (991kB) | Preview |
English abstract
The objective of this research is to develop an automatic classification system for the contents retrieved through the Resync platform specializing in the investigation of sources of information media. This investigation is justified due to the lack of automated methods to organize the information gathered and the need to scrutinize the thematic categories addressed by the media by country. To resolve these problems, we transform the Eurovoc multilingual thesaurus in a pseudo-ontology vocabulary that is used as a qualifier for the documentary corpus. The test collection used has 400,000 contents from Mexican and Spaniard media published during the months of June-July 2011. Additionally, are designed and tested 5 automatic classification algorithms, accurate consultation and generic classification using the vocabulary above, for their harmonization with the collection of evidence. You get all the quantitative results of the experiment, concluding a progressive escalation in the percentage of classified content, given by the precision of the algorithm and its conditioning. Finally, the basis for qualitative evaluation of the classification made by the system, in order to perfect the process described herein.
Spanish abstract
El objetivo de la investigación es desarrollar un sistema de clasificación automática para los contenidos recuperados a través de la plataforma Resync, especializada en la investigación de fuentes de información en medios de comunicación. Se justifica su desarrollo debido a la falta de métodos automatizados para organizar la información recopilada por medio de dicha plataforma. Por otro lado, debido a la necesidad de estudiar en profundidad las categorías temáticas abordadas por los medios de comunicación según el país. Para resolver estos problemas, se transforma el tesauro multilingüe Eurovoc, en una pseudo-ontología, que es utilizada como vocabulario clasificatorio del corpus documental, compuesto por más de 400.000 noticias publicadas durante los meses de junio-julio de 2011, entre medios Mexicanos y Españoles. Por otro lado, se diseñan y prueban 5 algoritmos de clasificación automática, de consulta precisa y genérica, que emplean el vocabulario clasificatorio anteriormente mencionado, para su equiparación con la colección de prueba. Se obtienen todos los resultados cuantitativos del experimento, concluyendo un escalonamiento progresivo en el porcentaje de contenidos clasificados, dado por el grado de precisión del algoritmo y su condicionamiento. Finalmente se sientan las bases para evaluar cualitativamente la clasificación efectuada por el sistema, con el objetivo de perfeccionar el proceso aquí descrito.
Item type: | Conference paper |
---|---|
Keywords: | Automatic classification, Ontology, Thesauri, Automation, Content syndication, Mass media, Text normalization, Information retrieval, Evaluation, Clasificación automática, Ontologías, Tesauros, Automatización, Sindicación de contenidos, Medios de comunicación, Normalización de textos, Recuperación de información, Evaluación |
Subjects: | E. Publishing and legal issues. > EA. Mass media. L. Information technology and library technology L. Information technology and library technology > LM. Automatic text retrieval. L. Information technology and library technology > LQ. Library automation systems. |
Depositing user: | Dr. Manuel Blázquez Ochando |
Date deposited: | 19 Apr 2013 13:17 |
Last modified: | 02 Oct 2014 12:25 |
URI: | http://hdl.handle.net/10760/19031 |
References
Downloads
Downloads per month over past year
Actions (login required)
View Item |