Fuentes para la actualización de macrotesauros: noticias de divulgación científica

Baños-Moreno, María José Fuentes para la actualización de macrotesauros: noticias de divulgación científica. Cuadernos de Gestión de Información, 2013, vol. 13, n. 1. [Journal article (Unpaginated)]

[img]
Preview
Text
articulo_tfm.pdf - Published version

Download (382kB) | Preview

English abstract

Thesauri are knowledge organization tools necessary to control information, but many of them are not updating with the frequency required, it reduces their usefulness. This paper aims to analyze the updating degree of UNESCO thesaurus and European Union thesaurus (EUROVOC) and determine if popular science news are useful for this renovation. In this work, keywords were extracted from headlines. After, using Information Retrieval techniques (N-grams and Apache Solr) they were searched in both thesauri to find equivalences. Data obtained let us confirm that none of these macro-thesauri should be used to describe popular science news, although both of them can be used as a base for building other knowledge organization vocabularies. On the other hand, a more frequent review is necessary. Inclusion of new terms and redefinition of relationships between them is unquestionable to increase the quality of analyzed tools. Popular science news are adequate to this purpose, they constitute real sources of concepts and terms

Spanish abstract

Los tesauros son herramientas de organización del conocimiento necesarias para el control de la información. Muchos no se actualizan con la necesaria frecuencia, reduciendo considerablemente su utilidad. Este trabajo tiene como objetivos, analizar el grado de actualización de los tesauros de la UNESCO y Unión Europea (EUROVOC); y determinar la capacidad de las noticias de divulgación científica de ser usadas para efectuar esa renovación. Para ello se han extraído palabras clave a partir de titulares de artículos de divulgación científica, publicados en prensa digital. A continuación, mediante técnicas de Recuperación de Información (N-gramas y Apache Solr) se buscaron equivalencias con los tesauros mencionados anteriormente. Los datos obtenidos permiten confirmar que ninguno de los macrotesauros debe utilizarse para describir noticias de divulgación científica, ya que buena parte de las palabras clave extraídas no se recogían en estos. Sin embargo sí pueden emplearse como base para la construcción de otros vocabularios de organización del conocimiento. Por otro lado, una revisión más frecuente es necesaria y obligatoria. La inclusión de nuevos términos y la redefinición de las relaciones entre los ya existentes incrementarían incuestionablemente la calidad de las herramientas analizadas. Las noticias de divulgación resultan adecuadas para dicha actualización, constituyendo auténticos yacimientos de conceptos y términos

Item type: Journal article (Unpaginated)
Keywords: UNESCO Thesaurus, EUROVOC Thesaurus, Updating thesauri, N-gramas method, Popular science news, Tesauro de la UNESCO, EUROVOC, Actualización de tesauros, N-gramas, Apache Solr, Noticias de divulgación científica
Subjects: H. Information sources, supports, channels. > HA. Periodicals, Newspapers.
I. Information treatment for information services > ID. Knowledge representation.
I. Information treatment for information services > IE. Data and metadata structures.
L. Information technology and library technology
Depositing user: María-José Baños-Moreno
Date deposited: 22 Jan 2014 13:04
Last modified: 02 Oct 2014 12:29
URI: http://hdl.handle.net/10760/21174

References

- Alcíbar Cuello, M. (2004). La divulgación mediática de la ciencia y la tecnología como recontextualización discursiva. Anàlisi: Quaderns de comunicació i cultura, 31, 43–70.

- Areas da Luz Fontes, A. B., Yeh, L.-H., & Schwartz, A. I. (2010). Desambiguação lexical bilíngue: a natureza dos efeitos de coativação lexical entre as línguas. Revista Digital do PPGL 3 (1). Recuperado el 07/06/2013 de http://revistaseletronicas.pucrs.br/ojs/index.php/letronica/article/view/7074

- Aronson, A. R., Bodenreider, O., Chang, H. F., Humphrey, S. M., Mork, J. G., Nelson, S. J. and Wilbur, W. J. (2000). The NLM Indexing Initiative. Proceedings of AMIA Annual Symposium, 17–21.

- Banco Mundial. (2012). Indicadores del desarrollo mundial: PIB (US$ a precios actuales) (Estadística). Recuperado el 01/05/2013 de http://datos.bancomundial.org/indicador/NY.GDP.MKTP.CD

- Baxter, R., Blomeley, F. & Kemsley, R. (2002). The AIM25 Project. Ariadne, Issue 31. Recuperado el 01/04/2013 de http://www.ariadne.ac.uk/issue31/aim25/

- Campos, L. M. de & Romero, A. E. (2009). Bayesian network models for hierarchical text classification from a thesaurus. Special Section on Graphical Models and Information Retrieval, 50 (7), 932–944. doi:10.1016/j.ijar.2008.10.006

- Carrizo Sainero, G. (2000). La información en ciencias sociales. Gijón: Trea.

- Castillo Blasco, L. (2006). Elaboración de un tesauro de información de actualidad y conversión en red semántica para su empleo en un sistema de recuperación periodístico. Universidad de Valencia, Valencia. Recuperado el 04/04/2013 de http://www.tdx.cat/bitstream/handle/10803/9982/castillo.pdf?sequence=1

- Cebrián, B. J. (1997). Fuentes de consulta para la documentación informativa. Madrid: Universidad Europea - CEES.

- Cleverdon, C. W., & Keen, M. (1966). Aslib Cranfield research project - Factors determining the performance of indexing systems; Volume 2, Test results. Crandfield: National Science Foundation. Recuperado el 04/04/2013 de http://dspace.lib.cranfield.ac.uk/handle/1826/863

- Currás, E. (1991). Thesauros. Lenguajes terminológicos. Madrid: Paraninfo.

- Currás, E. (2010). Ontologies, taxonomies and thesauri in systems science and systematics. Oxford: Chandos Publishing.

- Daudaravicius, V. (2010). The influence of collocation segmentation and top 10 items to keyword assignment performance. In Proceedings of the 11th international conference on Computational Linguistics and Intelligent Text Processing (648–660). Berlin, Heidelberg: Springer-Verlag. Recuperado 11/04/2013 de http://link.springer.com/chapter/10.1007/978-3-642-12116-6_55

- Degani, T., & Tokowicz, N. (2010). Semantic ambiguity within and across languages: an integrative review. Quarterly Journal of Experimental Psychology 63 (7), 1266–1303. Recuperado 04/04/203 de http://www.ncbi.nlm.nih.gov/pubmed/19953429

- Fernández-Quijada, D. (2012). El uso de tesauros para el análisis temático de la producción científica: apuntes metodológicos desde una experiencia práctica. BiD: textos universitaris de biblioteconomia i documentació, 29. Recuperado el 06/06/2013 de http://www.ub.edu/bid/29/fernandez2.htm

- Fiser, D., & Sagot, B. (2008). Combining Multiple Resources to Build Reliable Wordnets. In Sojka, A. Horak, I. Kopecek, & K. Pala (Eds.), Text, Speech and Dialogue, Proceedings (Vol. 5246, 61–68). Berlin: Springer-Verlag Berlin. Recuperado el 07/06/2013 de http://link.springer.com/chapter/10.1007%2F978-3-540-87391-4_10#page-1

- García Gutiérrez, A., & Lucas Fernández, R. (1987). Documentación Automatizada en los Medios Informativos. Madrid: Paraninfo.

- García Jiménez, A. (2002). Organización y gestión del conocimiento en la comunicación. Gijón: Trea. Garrod, P. (2000). Use of the “UNESCO Thesaurus” for archival subject indexing at UK-NDAD (UKNational- Digital-Archive-of-Datasets, database, terms, web, online catalogues). Journal of the Society of Archivists, 21 (1), 37–54. doi:10.1080/00379810050006902. Recuperado de http://www.tandfonline.com/doi/abs/10.1080/00379810050006902#.UdgemD7AWmc

- Gil Leiva, I. (2008). Manual de indización: teoría y práctica. Gijón: Trea.

- Hage, W. R. van, Sini, M., Finch, L., Kolb, H., & Schreiber, G. (2010). The OAEI food task: An analysis of a thesaurus alignment task. Appl. Ontol. 5 (1), 1–28. Recuperado el 06/06/2013 de http://www.cs.vu.nl/~guus/papers/Hage10d.pdf

- Kolar, M., Vukmirovic, I., Basic, B. D., & Snajder, J. (2005). Computer aided document indexing system. (V. L. Luzar & V. H. Dobric, Eds.). Zagreb: Srce Univ Computing Centre, Univ Zagreb. Recuperado el 11/06/2013 de http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=1491146&contentType=Conference+Publications

- Lancaster, F. W. (2002). El control del vocabulario en la recuperación de información (2a ed.). Valencia: Universidad de Valencia.

- Loza Mencía, E., & Füernkranz, J. (2008). Efficient Pairwise Multilabel Classification for Large-Scale Problems in the Legal Domain. In W. Daelemans, B. Goethals, & K. Morik (Eds.), Machine Learning and Knowledge Discovery in Databases, Part II, Proceedings (Vol. 5212, 50–65). Berlin: Springer- Verlag Berlin. Recuperado el 04/04/2013 de http://www.ke.tudarmstadt.de/~juffi/publications/ecml-pkdd-08.pdf

- Marchisio, G. B., & Liang, jisheng. (2001). Experiments in Trilingual Cross-Language Information Retrieval. In Proceedings 2001 Symposium on Document Image Understanding Technology (169–179). Universty of Maryland. Recuperado el 04/04/2013 de http://bitly.es/nr

- Martínez, A. M., Ristuccia, C. A., Stubbs, E. A., Valdez, J. C., Gamba, V. L., Mendes, P. V., Caminotti, M. L. (2011). La estructura sistemática del tesauro: indicadores para evaluar su calidad. Revista Española de Documentación Científica, 34 (1), 29–43. doi:10.3989/redc.2011.1.765. Recuperado 05/04/2013 de http://redc.revistas.csic.es/index.php/redc/article/viewArticle/681

- Mastora, A., Monopoli, M., & Kapidakis, S. (2008). Term Selection Patterns for Formulating Queries: a User Study Focused on Term Semantics. New York: IEEE. Recuperado el 04/04/2013 de http://www.ionio.gr/~sarantos/repository/c45CICDIM2008MasMon.pdf

- Narukawa, C. M., Leiva, I. G., & Fujita, M. S. L. (2009). Indexação automatizada de artigos de periódicos científicos: análise da aplicação do software SISA com uso da terminologia DeCS na área de Odontologia. Informação & Sociedade: Estudos 19 (2). Recuperado el 04/04/2013 de http://www.ies.ufpb.br/ojs/index.php/ies/article/view/2925

- Orenga-Gaya, L., & Giralt, O. (2011). The official gazette of the Generalitat de Catalunya: genesis of a digital newspaper. El Profesional de la Información, 20 (3), 340–344. Recuperado el 01/04/2013 de http://www.doc6.es/media/pdfs/articulos/diario_digital.pdf

- Owens, L. A., & Cochrane, P. A. (2004). Thesaurus evaluation: Review, reinassance y revision. In The Thesaurus: Review, Renaissance, and Revision. Routledge. Recuperado el 04/04/2013 de http://bitly.es/nt

- Pérez Agüera, J. R. (2004). Automatización de tesauros y su utilización en la web semántica. BiD: textos universitaris de biblioteconomia i documentació 13. Recuperado el 08/03/2013 de http://www.ub.edu/bid/13perez2.htm

- Pollit, A. S., Ellis, G. P., & Smith, M. P. (1995). Using the thesaurus to view and filter environmental databases - an example using Eurovoc to search epoque - the European Parliament Online Query System. In P. Stancikova & I. Dahlberg (Eds.), Environmental Knowledge Organization and Information Management, Supplement Vol 1 (21–32). Frankfurt: Indeks Verlag.

- Pouliquen, B., Steinberger, R., & Ignat, C. (2004). Automatic linking of similar texts across languages. In N. Nicolov, K. Bontcheva, G. Angelova, & R. Mitkov (Eds.), Recent Advances in Natural Language Processing III Vol. 260 (307–316). Amsterdam Me: John Benjamins B V Publ.

- Pouliquen, B., Delamarre, D., & Le Beux, P. (2002). Indexation de textes médicaux par extraction de concepts, et ses utilisations. In A. Morin & P. Sébillot (Eds.), 6eme Conférence Internationale « Journées d’Analyse de Données textuelles » Vol. 2 (17–628). Presentado en the JADT’2002, St. Malo, France. Recuperado 09/05/2013 de http://www.med.univrennes1.fr/~poulique/nomindex.pdf

- Rodríguez Mateos, D. (2011). Internet y su influencia sobre la documentación audiovisual. In Documentación audiovisual: Nuevas tendencias en el entorno digital. Madrid: Síntesis.

- Rodríguez-Torrejón, D. A., & Martín-Ramos, J. M. (2012). N-gramas de Contexto Cercano para mejorar la Detección de Plagio. In Actas del II Congreso Español de Recuperación de Información (CERI-2012). Valencia: Universitat Jaume I. Recuperado el 04/07/2013 de http://users.dsic.upv.es/grupos/nle/ceri/papers/ceri2012_torrejon_ramos_ngrams.pdf

- Rubio Lacoba, M. (2007). Documentación informativa en el periodismo digital. Madrid: Síntesis. Recuperado el 05/06/2013 de http://www.marcialpons.es/libros/documentacioninformativa-en-el-periodismodigital/9788497564595/

- Saric, F., Snajder, J., Basic, B. D., & Eklic, H. (2005). Enhanced thesaurus terms extraction for document indexing. In Proceedings of the 27th International Conference on Information Technology Interfaces (214 - 219) . Recuperado el 02/06/2013 de http://www.med.univrennes1.fr/~poulique/nomindex.pdf

- Shiri, A., Nicholson, D., & McCulloch, E. (2004). User evaluation of a pilot terminologies server for a distributed multi-scheme environment. Online Information Review 28 (4), 273–283. Recuperado el 04/06/2013 de http://www.emeraldinsight.com/journals.htm?articleid=862260

- Shvaiko, P., Oltramari, A., Cuel, R., Pozza, D., & Angelini, G. (2010). Generating Innovation with Semantically Enabled TasLab Portal. In L. Aroyo, G. Antoniou, E. Hyvonen, A. TenTeije, H. Stuckenschmidt, L. Crabral, & T. Tudorache (Eds.), Semantic Web: Research and Applications, Pt 1, Proceedings Vol. 6088 (348–363). Recuperado el 06-06-2013 de http://www.loa.istc.cnr.it/Papers/TasLabPortal_final.pdf

- Slype, G. van. (1991). Los lenguajes de indización. Concepción, construcción y utilización en los sistemas documentales. Madrid: Pirámide.

- Smits, P. C., & Friis-Christensen, A. (2007). Resource discovery in a European Spatial Data Infrastructure. IEEE Transactions on Knowledge and Data Engineering 19 (1), 85–95.doi:10.1109/TKDE.2007.250587

- Tolosa, G. H., & Bordignon, F. R. A. (2008). Introducción a la Recuperación de Información: Conceptos, modelos y algoritmos básicos. Buenos Aires: Universidad Nacional de Luján. Recuperado el 03/06/2013 de http://hdl.handle.net/10760/12243

- Van Rijsbergen, C. J. (1979). Information retrieval (2nd ed.). Newton: Butterworth-Heinemann. Recuperado el 01/06/2013 de http://openlib.org/home/krichel/courses/lis618/readings/rijsbergen79_infor_retriev.pdf


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item