Desarrollo de un sistema de clasificación automática de contenidos en medios de comunicación españoles y mexicanos = Development of an automatic classification of content system in Spaniard-Mexican mass media

Blázquez-Ochando, Manuel Desarrollo de un sistema de clasificación automática de contenidos en medios de comunicación españoles y mexicanos = Development of an automatic classification of content system in Spaniard-Mexican mass media., 2012 . In 9º Seminario Hispano-Mexicano de Bibliotecología y Documentación, Madrid, 7-9 May. [Conference paper]

[img]
Preview
Text
9o-seminario-hispanomexicano-manuel-blazquez-ochando.pdf - Published version

Download (991kB) | Preview

English abstract

The objective of this research is to develop an automatic classification system for the contents retrieved through the Resync platform specializing in the investigation of sources of information media. This investigation is justified due to the lack of automated methods to organize the information gathered and the need to scrutinize the thematic categories addressed by the media by country. To resolve these problems, we transform the Eurovoc multilingual thesaurus in a pseudo-ontology vocabulary that is used as a qualifier for the documentary corpus. The test collection used has 400,000 contents from Mexican and Spaniard media published during the months of June-July 2011. Additionally, are designed and tested 5 automatic classification algorithms, accurate consultation and generic classification using the vocabulary above, for their harmonization with the collection of evidence. You get all the quantitative results of the experiment, concluding a progressive escalation in the percentage of classified content, given by the precision of the algorithm and its conditioning. Finally, the basis for qualitative evaluation of the classification made by the system, in order to perfect the process described herein.

Spanish abstract

El objetivo de la investigación es desarrollar un sistema de clasificación automática para los contenidos recuperados a través de la plataforma Resync, especializada en la investigación de fuentes de información en medios de comunicación. Se justifica su desarrollo debido a la falta de métodos automatizados para organizar la información recopilada por medio de dicha plataforma. Por otro lado, debido a la necesidad de estudiar en profundidad las categorías temáticas abordadas por los medios de comunicación según el país. Para resolver estos problemas, se transforma el tesauro multilingüe Eurovoc, en una pseudo-ontología, que es utilizada como vocabulario clasificatorio del corpus documental, compuesto por más de 400.000 noticias publicadas durante los meses de junio-julio de 2011, entre medios Mexicanos y Españoles. Por otro lado, se diseñan y prueban 5 algoritmos de clasificación automática, de consulta precisa y genérica, que emplean el vocabulario clasificatorio anteriormente mencionado, para su equiparación con la colección de prueba. Se obtienen todos los resultados cuantitativos del experimento, concluyendo un escalonamiento progresivo en el porcentaje de contenidos clasificados, dado por el grado de precisión del algoritmo y su condicionamiento. Finalmente se sientan las bases para evaluar cualitativamente la clasificación efectuada por el sistema, con el objetivo de perfeccionar el proceso aquí descrito.

Item type: Conference paper
Keywords: Automatic classification, Ontology, Thesauri, Automation, Content syndication, Mass media, Text normalization, Information retrieval, Evaluation, Clasificación automática, Ontologías, Tesauros, Automatización, Sindicación de contenidos, Medios de comunicación, Normalización de textos, Recuperación de información, Evaluación
Subjects: E. Publishing and legal issues. > EA. Mass media.
L. Information technology and library technology
L. Information technology and library technology > LM. Automatic text retrieval.
L. Information technology and library technology > LQ. Library automation systems.
Depositing user: Dr. Manuel Blázquez Ochando
Date deposited: 19 Apr 2013 13:17
Last modified: 02 Oct 2014 12:25
URI: http://hdl.handle.net/10760/19031

References

"SEEK" links will first look for possible matches inside E-LIS and query Google Scholar if no results are found.

ARSLAN, A. and O. YILMAZEL. 2010. Quality Benchmarking Relational Databases and Lucene in the TREC4 Adhoc Task Environment. En: Proceedings of the International Multiconference on Computer Science and Information Technology. Wisla: IEEE, pp.365-372. Disponible en: http://www.proceedings2010.imcsit.org/pliks/139.pdf

BERRY, M.W. and M. BROWNE. 2005. Document file preparation. En: Understanding search engines: mathematical modeling and text retrieval, Philadelphia: Siam, pp.11-27.

BLÁZQUEZ OCHANDO, M. and E. SERRANO MASCARAQUE. 2011. Plataforma para la investigación de contenidos sindicados: desarrollo del sistema ReSync y aplicación a los medios de comunicación hispano-mexicanos. En: VIII Seminario Hispano Mexicano de Biblioteconomía y Documentación. Madrid: Universidad Complutense de Madrid.

CAMOUS, F., S. BLOTT, and A.F. SMEATON. 2007. Ontology-based MEDLINE document classification. En: BIRD07 Proceedings of the 1st international conference on Bioinformatics. Heidelberg: Springer, pp.439-452. Disponible en: http://doras.dcu.ie/258/1/lncs_4414.pdf

COHEN, A. M. and W. R. HERSH. 2006. The TREC 2004 genomics track categorization task: classifying full text biomedical documents. Journal of Biomedical Discovery and Collaboration. 1(4). Disponible en: http://www.ncbi.nlm.nih.gov/pubmed/16722582

CUNNINGHAM, H., K. BONTCHEVA, V. TABLAN et al. 2012. GATE: General Architecture for Text Engineering. [online]. [Consultado 1 Abril 2012]. Disponible en: http://gate.ac.uk/

DAEDALUS. 2011. Clasificación Automática Eurovoc. [online]. [Consultado 15 Feb 2012]. Disponible en: http://showroom.daedalus.es/es/tecnologias-de-la-lengua/eurovoc/

DEXTRE CLARKE, S.G. 2010. ISO 25964 - the new standard for thesauri and interoperability with other vocabularies. En: EuroVoc Conference: Mind the lexical gap. Luxembourg. Disponible en: http://eurovoc.europa.eu/drupal/sites/all/files/conference2010/EuroVocConference_ISO25964preview.ppt

GELERNTER, J. 2008. Data Mining of Maps and their Automatic Region - Time -Theme Classification. En: SigSpatial SPECIAL, (ed). International Conference on Advances in Geographic Information Systems. Irvine. Disponible en: 0TUhttp://www.cs.cmu.edu/~gelernter/sigspatial.pdf

HART, P. and T. COVER. 1967. Nearest neighbor pattern classification. IEEE Transactions on Information Theory. 13(1), pp.21-27. Disponible en: http://www.stanford.edu/~montanar/TEACHING/Stat319/papers/cover_nn.pdf

NIST. 2011. Multilingual Automatic Document Classification and Translation Evaluation Program. [online]. [Consultado 1 Abril 2012]. Disponible en: http://www.nist.gov/itl/iad/mig/madcat.cfm

PRABOWO, R., M. JACKSON, P. BURDEN, and H. KNOELL. 2002. Ontology-Based Automatic Classification for the Web Pages: Design, Implementation and Evaluation. En: Proceedings of the 3rd International Conference on Web Information Systems Engineering WISE02. Washington: IEEE Computer Society. Disponible en: http://maya.cs.depaul.edu/~mobasher/research/bib/bib-papers/PJBK02.pdf

ROBERTSON, S. 2004. Understanding Inverse Document Frequency: On theoretical arguments for IDF. Journal of Documentation. 60(5), pp.503-520. Disponible en: http://www.soi.city.ac.uk/~ser/idfpapers/Robertson_idf_JDoc.pdf

SÁNCHEZ JIMÉNEZ, R. 2007. La documentación en el proceso de evaluación de sistemas de clasificación automática. Documentación de las ciencias de la información., pp.25-44. Disponible en: http://revistas.ucm.es/index.php/DCIN/article/view/DCIN0707110025A/18959

SCHWARTZ, B., P. ZAITSEV, V. TKACHENKO et al. 2008. High Performance MySQL. En: Natural-Language Full-Text Searches, Sebastopol: OReilly, pp.244-256.

STEINBERGER, R. 2010. Automatic Eurovoc indexing of parliamentary texts. En: EuroVoc Conference: Mind the lexical gap. Luxembourg.

SUBRAMANIAM, V., D. PUNJANI, and S. MUKHERJEA. 2005. Biomedical Document Triage: Automatic Classification Exploiting Category Specific Knowledge. En: TREC Conference Proceedings. Gaithersburg. Disponible en: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.61.946&rep=rep1&type=pdf


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item