Metadatos en noticias: un análisis internacional para la representación de contenidos en periódicos

Baños-Moreno, María-José and Felipe, Eduardo R and Pastor-Sánchez, Juan-Antonio and Lima, Gercina-Angela-Borém Metadatos en noticias: un análisis internacional para la representación de contenidos en periódicos., 2015 . In II Congreso ISKO España y Portugal / XII Congreso ISKO España, Murcia, 19 y 20 de noviembre de 2015. [Conference paper]

[img] Archive
43_Baños.pdf - Published version

Download (789kB)

English abstract

Newspapers use a large volume of information that must be described adequately. To do this, the tags “title”, “keywords” and “description” are widely used in the source code of online-news items. However, these are not descriptive enough for the news items. So, metadata standards are created in order to facilitate the interoperability and make a deeper description of them. Currently, HTML tags and several standards live together in the newspaper industry, with different degrees of implementation. In this paper, we analyze the source code of international generalinformation newspapers. Moreover, we conducted an in-depth literature review on metadata standards. The aim is to analyze what standards exist and how they are used in a sample of newspapers’ source codes. For that, we identify the semantic metadata in the source codes and design the software MetadadosHTML. As conclusions, the great distance between metadata standards identified in the literature review and those in the source codes is clearly shown. In the former, the most cited metadata are NewsML and NITF formats, implemented at least in an internal level by some media and press agencies. By the contrary, schema.org and two social media schemas (Open Graph Protocol for Facebook and Twitter Cards) are the most common in the latter one. The coexistence of different metadata standards in the media sector is exhibited, stressing the lack of uniformity in their use. To achieve the ideal of interoperability between contents, the use of Web Semantic technologies is needed. In this regard, to define ontologies and RDF vocabularies for the different proposals analyzed should be a tendency

Spanish abstract

Los periódicos trabajan con un gran volumen de información que necesita ser descrita adecuadamente. Para ello, las etiquetas “title”, “keywords” y “description” son muy utilizadas en el código fuente de las noticias online. Sin embargo, estas no resultan suficientemente descriptivas. Así, surgen estándares de metadatos, con el fin de facilitar la interoperabilidad y profundizar en la descripción. Actualmente, las etiquetas HTML y diversos estándares conviven en el sector periodístico, con diversos grados de implantación. Se analiza el código fuente de diarios internacionales de información general y se lleva a cabo una profunda revisión bibliográfica sobre estándares de metadatos. El propósito es conocer qué estándares existen, y evaluar su uso en los códigos fuente de una muestra de periódicos. Para ello se identifican los metadatos de contenido semántico de los códigos fuente. Además se desarrolla el software MetadadosHTML. Como conclusiones destacan la gran distancia entre los estándares recogidos en la bibliografía y los mostrados en los código fuente. En el primer caso, los más referenciados son los formatos NewsML y NITF, implementados por algunos medios y agencias de prensa, al menos a nivel interno. Por el contrario, en el código fuente los más habituales son schema.org y dos esquemas para mostrar información en redes sociales, Open Graph Protocol (usado por Facebook) y Twitter Cards. Esto, evidencia la convivencia de diversos estándares de metadatos en el ámbito de los medios de comunicación y pone de relieve la falta de uniformidad en su uso. Para alcanzar el ideal de interoperabilidad de los contenidos, es preciso utilizar tecnologías de la Web Semántica. En este sentido, se debería tender a definir ontologías o vocabularios RDF para las diferentes propuestas analizadas

Item type: Conference paper
Keywords: Newspapers, metadata, schema.org, Open Graph Protocol, NITF, NewsML, Periódicos, metadatos
Subjects: H. Information sources, supports, channels. > HA. Periodicals, Newspapers.
I. Information treatment for information services > IC. Index languages, processes and schemes.
I. Information treatment for information services > ID. Knowledge representation.
Depositing user: María-José Baños-Moreno
Date deposited: 13 Dec 2015 21:04
Last modified: 13 Dec 2015 21:04
URI: http://hdl.handle.net/10760/28589

References

4IMN. (2012). 4International Media & Newspaper. Retrieved October 11, 2012, from http://www.4imn.com

Abadal, E., Guallar, J., & Codina, L. (2014). Sistemi di documentazione della stampa periodica: quali sono e come valutarli? AIB studi, 54(1), 75–86. http://doi.org/10.2426/aibstudi-9486

Abbud Grácio, J. C., & Fadel, B. (2010). Estratégias de preservação digital. En Gestão, mediação e uso da informação (pp. 58–83). São Paulo: Edito-ra UNESP; Cultura Acadêmica. Recuperado de http://books.scielo.org/id/j4gkh/pdf/valentim-9788579831171-04.pdf

Agarwal, S., Singhal, A., & Bedi, P. (2012). Classification of RSS Feed News Items Using Ontology. En A. Abraham, A. Zomaya, S. Ventura, R. Yager, V. Snasel, A. K. Muda, & P. Samuel (Eds.), International Conference on Intelligent Systems Design and Applications, ISDA (pp. 491–496). New York: Ieee. http://doi.org/10.1109/ISDA.2012.6416587

Alesso, H. P., & Smith, C. F. (2004). Developing Se-mantic Web Services. Natick, Mass: A K Pe-ters/CRC Press.

Allen, R. B., Japzon, A., Achananuparp, P., & Lee, K. J. (2007). A framework for text processing and supporting access to collections of digitized historical newspapers. En M. J. Smith & G. Salvendy (Eds.), Human Interface and the Management of Information: Interacting En Information Environments, Pt 2, Proceedings (Vol. 4558, pp. 235–244). Berlin: Springer-Verlag Berlin. Recuperado de https://scholarworks.iupui.edu/bitstream/handle/1805/4552/allen-2007-framework.pdf?sequence=1&isAllowed=y

Ariza Ávila, C. E., & Baptista, A. A. (2004). Uso de RDF y bases de datos de metadatos nativas de-ntro del proyecto Omnipaper. En XATA 2004 : actas da 2a conferência nacional (Vol. 2, pp. 166–169). Porto: FEUP. Recuperado de http://repositorium.sdum.uminho.pt/handle/1822/2249

Asociación Española de Normalización y Certificación (2012). Información y documentación. Metadatos para la gestión de documentos. Parte 3: Método de auto-evaluación. UNE-ISO/TR 23081-3. Madrid: AENOR

Baños-Moreno, M.-J., Pastor-Sánchez, J.-A., & Martí-nez-Béjar, R. (2013). Propuesta de actualización de macro-tesauros a partir de noticias de divulgación científico-tecnológica. En Informação e/ou Conhecimento: as duas faces de Jano (pp. 99–112). Porto (Portugal): Faculdade de Letras da Universidade do Porto / CETAC.MEDIA. Recuperado de http://hdl.handle.net/10760/20684

Baptista, A. A., & Machado, A. (2001). Metadata Us-age En an Online Journal - An application Profile. En A. Hübler, P. Linde, & J. W. . Smith (Eds.), Electronic Publishing ’01 - 2001 En the Digital Publishing Odyssey (pp. 59–64). Kenterbury, UK: University of Kent. Recuperado de http://elpub.scix.net/cgi-bin/works/Show?200106

Biyun, H., Jun, W., & Yiming, Z. (2009). Ontology design for online news analysis (Vol. 4, pp. 202–206). http://doi.org/10.1109/GCIS.2009.78

Castells, P., Perdrix, F., Pulido, E., Rico, M., Fuentes, J. M., Benjamins, R., … Granollers, T. (2006). Newspaper Archives on the Semantic Web. En R. Navarro-Prieto & J. L. Vidal (Eds.), HCI related papers of Interacción 2004 (pp. 267–276). Springer Netherlands. Recuperado de http://link.springer.com/chapter/10.1007/1-4020-4205-1_22

Cutts, M. (2009, September 21). Google does not use the keywords meta tag En web ranking. Recuperado de http://googlewebmastercentral.blogspot.com/2009/09/google-does-not-use-keywords-meta-tag.html

Díaz Nosty, B. (2013). La prensa en el nuevo ecosis-tema informativo. «¡Que paren las rotativas!». La transición al medio continuo. Barcelona: Ariel, Fundación Telefónica, Planeta. Recuperado de http://www.fundacion.telefonica.com/es/arte_cultura/publicaciones/detalle/238

Fernández, N., Arias Fisteus, J., Sánchez, L., & López, G. (2012). IdentityRank: Named Entity Disambiguation En the News Domain. Expert Syst. Appl., 39(10), 9207–9221. http://doi.org/10.1016/j.eswa.2012.02.084

Fernández, N., Blázquez, J. M., Fisteus, J. A., Sánchez, L., Sintek, M., Bernardi, A., … Ben-Asher, Z. (2006). NEWS: Bringing Semantic Web Technologies into News Agencies. En I. Cruz, S. Decker, D. Allemang, C. Preist, D. Schwabe, P. Mika, … L. M. Aroyo (Eds.), The Semantic Web - ISWC 2006 (pp. 778–791). Springer Berlin Hei-delberg. Recuperado de http://link.springer.com/chapter/10.1007/11926078_56

Fernández, N., Blázquez, J. M., Sánchez, L., & Ber-nardi, A. (2007). IdentityRank: Named entity dis-ambiguation En the context of the NEWS project (Vol. 4519 LNCS, pp. 640–654). Recuperado de http://www.scopus.com/inward/record.url?eid=2-s2.0-34548061897&partnerID=40&md5=09bf835b0eb41d2e206ff59b97ec5ca3

Fernández, N., Fuentes, D., Sánchez, L., & Fisteus, J. A. (2010). The NEWS ontology: Design and appli-cations. Expert Systems with Applications, 37(12), 8694–8704. http://doi.org/10.1016/j.eswa.2010.06.055

Fernández, N., Sánchez-Fernández, L., Blázquez-del-Toro, J. M., & Villamor-Lugo, J. (2007). The News Ontology for Professional Journalism Applications. En R. Sharman, R. Kishore, & R. Ramesh (Eds.), Ontologies (pp. 887–919). Springer US. Recuperado de http://link.springer.com/chapter/10.1007/978-0-387-37022-4_32

Galfi, R. (2012, September 19). Google News Blog: A newly hatched way to tag your news articles. Re-cuperado de http://googlenewsblog.blogspot.com.es/2012/09/a-newly-hatched-way-to-tag-your-news.html

García Gutiérrez, A. (2014). Análisis documental de noticias de prensa en sistemas de información factual. Revista Española de Documentación Científica, 37(2), e046. http://doi.org/10.3989/redc.2014.2.1094

García, R., Perdrix, F., & Gil, R. (2006). Ontological Infrastructure for a Semantic Newspaper. En In “Semantic Web Annotations for Multimedia Work-shop, SWAMM 2006”. 15th World Wide Web Conference.

González Cristóbal, J. C., Villena Román, J., Bueno Carrillo, F. J., García Serrano, A. M., Ruiz Cristina, A., & Martínez Fernández, P. (2002). Omni-Paper : acceso inteligente a periódicos europeos. Recuperado de http://rua.ua.es/dspace/handle/10045/1752

Google Inc. (2014a). Creating a Google News Sitemap. Retrieved November 30, 2014, from https://support.google.com/news/publisher/answer/74288?hl=en

Google Inc. (2014b). Learn about sitemaps. Retrieved February 12, 2014, from https://support.google.com/webmasters/answer/156184?hl=en

Guerrillot, S. (2006). Use of semantic technologies at Agence France-Presse (AFP). Presented at the Semantic Technology Conference, San José. Recuperado de http://ceur-ws.org/Vol-194/paper8.pdf

Heravi, B. R., & McGinnis, H. (2013). A Framework for Social Semantic Journalism. En First Interna-tional IFIP Working Conference on Value-Driven Social & Semantic Collective Intelligence (VaSCo). Paris, France. Recuperado de http://members.deri.ie/~bahher/Publications/A%20Frame-work%20for%20Social%20Semantic%20Journalism%20Final.pdf

Hickson, I. (2013, October 29). HTML Microdata: W3C Working Group Note 29 October 2013. Re-cuperado de www.w3c-prg/TR/microdata/

Hillman, D. (2005, November 7). Using Dublin Core (DCMI Recommended Resource). Recuperado de http://dublincore.org/documents/usageguide/

Iannella, R., & McKinney, J. (2014). vCard Ontology - for describing People and Organizations. W3C Interest Group Note 22 May 2014. Recuperado de http://www. w3. org/TR/vcard-rdf

IPTC (International Press Telecommunications Council). (2009). NewsML G2. Specification Version 2.4. Power Conformance Level (No. Document Revision 1). Recuperado de https://www.iptc.org/std/NewsML-G2/2.4/specification/NewsML-G2_2.4-spec-PCL.pdf

IPTC (International Press Telecommunications Council). (2014). NITF News Industry Text Format. Recuperado December 17, 2014, de https://www.iptc.org/site/News_Exchange_Formats/NITF/

Jiménez Cano, R., & Abad Liñán, J. M. (2015, May 13). “The New York Times”, “The Guardian” y la BBC publican directamente en Facebook desde hoy. El País. San Francisco / Madrid. Recuperado de http://tecnologia.elpais.com/tecnologia/2015/05/13/actualidad/1431490102_473389.html

Jokela, S., Turpeinen, M., Kurki, T., Savia, E., & Su-lonen, R. (2001). The role of structured content En a personalized news service. Acta Polytechnica Scandinavica Mathematics and Computing Series, (114), XX–XXI. Recuperado de http://www.computer.org/csdl/proceedings/hicss/2001/0981/07/09817044.pdf

Kallipolitis, L., Karpis, V., & Karali, I. (2012). Semantic search En the World News domain using automatically extracted metadata files. Knowledge-Based Systems, 27, 38–50. http://doi.org/10.1016/j.knosys.2011.12.007

Kodama, M., Ozono, T., Shintani, T., & Aosaki, Y. (2008). Realizing a news value markup language for news management systems using newsML. En F. Xhafa & L. Barolli (Eds.), 2nd International Conference on Complex, Intelligent and Software Intensive Systems (pp. 249–255). Los Alamitos: Ieee Computer Soc. http://doi.org/10.1109/CISIS.2008.70

Lamarca Lapuente, M. J. (2013, August 12). Hipertexto, el nuevo concepto de documento en la cultura de la imagen: Metadatos en HTML (tesis). Universidad Complutense de Madrid, Madrid. Recuperado de http://www.hipertexto.info/documentos/meta_html.htm

Mannens, E., Coppens, S., De Pessemier, T., Dac-quin, H., Van Deursen, D., De Sutter, R., & Van de Walle, R. (2013). Automatic news recommenda-tions via aggregated profiling. Multimedia Tools and Applications, 63(2), 407–425. http://doi.org/10.1007/s11042-011-0844-8

Mannens, E., Troncy, R., Braeckman, K., Van Deur-sen, R. D., Van Lancker, V. W., De Sutter, R., & Van De Walle, R. (2009). Automatic metadata en-richment En news production. En 10th Interna-tional Workshop on Image Analysis for Multimedia Interactive Services (pp. 61–64). New York. http://doi.org/10.1109/WIAMIS.2009.5031432

Martínez-Fernández, J. L., García-Serrano, A., Martí-nez, P., & Villena, J. (2004). Automatic Keyword Extraction for News Finder. En A. Nürnberger & M. Detyniecki (Eds.), Adaptive Multimedia Re-trieval (pp. 99–119). Springer Berlin Heidelberg. Recuperado de http://link.springer.com/chapter/10.1007/978-3-540-25981-7_7

McGee, M. (2012, September 19). Google Announces News Keywords Meta Tag For Publishers. Recuperado de http://searchengineland.com/google-announces-news-keywords-metatag-133759

Mueller, E. T. (2000). Making news understandable to computers. arXiv. Recuperado de http://arxiv.org/html/cs/0003001

Nies, T. de, D’heer, E., Coppens, S., Van Deursen, D., Mannens, E., & Van de Walle, R. (2012). Bringing newsworthiness into the 21st century. En Web of Linked Entities, Workshop proceedings (pp. 106–117). Recuperado de http://ceur-ws.org/Vol-906/paper11.pdf

Open Web Fundation (OWF). (2014, October 20). The Open Graph protocol. Retrieved December 3, 2014, from ogp.me

Paepen, B. E. (2002). Omnipaper: Bringing electronic news publishing to a next level using XML and Artificial Intelligence. En J. A. Carvalho, A. Hübler, & A. A. Baptista (Eds.), Proceedings of the 6th International ICCC/IFIP Conference on Electronic Publishing. Karlovy Vary, Czech Republic: VWF Berlin. Recuperado de http://elpub.scix.net/cgi-bin/works/Show?02-29

Pastor-Sánchez, J. A. (2011). Tecnologías de la Web Semántica (Edición: 1). Barcelona: Editorial UOC, S.L.

Pastor-Sánchez, J. A., Orduña-Malea, E., & Saorín Pérez, T. (2013). Marcado semántico automático en gestores de contenidos: integración y cuantifi-cación. El Profesional de la Informacion, 22(5), 381 – 391. http://doi.org/10.3145/epi.2013.sep.02

Pellegrini, T. (2012). Semantic metadata En the news production process: achievements and challenges. En Proceedings of the 16th International Academic MindTrek Conference 2012 (pp. 125–133). Tampere; Finland: ACM Press. http://doi.org/10.1145/2393132.2393158

Pereira, T., & Baptista, A. A. (2003). Omnipaper: descrição de recursos de notícias digitais em RDF. En J. C. Ramalho, Pedro Rangel Henriques, G. R. Librelotto, & G. V. Arnold (Eds.), XML, apli-cações e tecnologias associadas. Braga, Portugal: Universidade do Minho. Recuperado de http://repositorium.sdum.uminho.pt/handle/1822/283

Pereira, T. S. M., & Baptista, A. A. (2009). The instan-tiation of OmniPaper RDF prototype En the con-text of scientific publications. Electronic Library, 27(5), 767–778. http://doi.org/10.1108/02640470910998506

Rubio Lacoba, M. (2012). Nuevas destrezas docu-mentales para periodistas: el vocabulario colabo-rativo del diario El País. Trípodos, 31, 65–78. Re-cuperado de http://www.raco.cat/index.php/Tripodos/article/view/262073/349255

Saias, J., & Quaresma, P. (2006). A proposal for an ontology supported news reader and question-answer system. En S. Oliveira Rezende (Ed.), Proceedings of International Joint Conference, 10th IBERAMIA, ICMC-USP. Ribeirao Preto, Bra-zil. Recuperado de http://ceur-ws.org/Vol-199/wonto-05.pdf

Saleh, L. M. B., & Al-Khalifa, H. S. (2009). AraTation: An Arabic semantic annotation tool (pp. 447–451). http://doi.org/10.1145/1806338.1806421

Sánchez-fernández, L., Bernardi, A., & Fuentes, M. (2005). An experience with Semantic Web tech-nologies En the news domain. En Integration of Knowledge, Semantics and Digital Media Tech-nology, 2005. EWIMT 2005. The 2nd European Workshop on the (Ref. No. 2005/11099) (pp. 455–459). London.

Schranz, M., Dustdar, S., & Platzer, C. (2005). Build-ing an Integrated Pan-European News Distribution Network. En L. M. Camarinha-Matos, H. Afsarmanesh, & A. Ortiz (Eds.), Collaborative Networks and Their Breeding Environments (pp. 587–596). Springer US. Recuperado de http://link.springer.com/chapter/10.1007/0-387-29360-4_62

Shoval, P., Maidel, V., & Shapira, B. (2008). An On-tology- Content-based Filtering Method. Interna-tional Journal ITA, 15(4), 303–314. Recuperado de http://sci-gems.math.bas.bg:8080/jspui/handle/10525/88

Silva, D. L. da, Souza, R. R., & Almeida, M. B. (2008). Ontologias e vocabulários controlados: compa-ração de metodologias para construção. Ciência da Informação, 37(3), 60–75. Recuperado de http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19652008000300005

Sporny, M., Longley, D., Kellogg, G., Lanthaler, M., & Lindström, N. (2014, January 16). JSON-LD 1.0: A JSON-based Serialization for Linked Data. Recuperado de http://www.w3.org/TR/json-ld/

Tenenboim, L., Shapira, B., & Shoval, P. (2008). Ontology-based classification of news En an electronic newspaper (pp. 89–97). Presented at the INFOS 2008: Intelligent Information and Engineering Systems, Varna, Bulgaria. Recuperado de http://sci-gems.math.bas.bg/jspui/bitstream/10525/1035/1/IBS-02-p12.pdf

Toffler, A. (1980). The third wave: The classic study of tomorrow. New York, NY, USA: Bantam.

Troncy, R. (2008). Bringing the IPTC News Architec-ture into the Semantic Web. En A. Sheth, S. Staab, M. Paolucci, D. Maynard, T. Finin, & T. Krishnaprasad (Eds.), Semantic Web - Iswc 2008 (Vol. 5318, pp. 483–498). Berlin: Springer-Verlag Berlin. http://doi.org/10.1007/978-3-540-88564-1-31

Wong, W., Liu, W., & Bennamoun, M. (2010). An ontology-based interface for improving information exploration. En Proceedings of the first international workshop on Intelligent visual interfaces for text analysis (pp. 29–32). New York, USA: ACM. http://doi.org/10.1145/2002353.2002364

Yaginuma, T., Pereira, T., & Baptista, A. A. (2003a). Design of metadata elements for digital news articles En the omnipaper project. En S. M. de Souza Costa, J. A. Carvalho, A. A. Baptista, & A. C. Santos Moreira (Eds.), From information to knowledge: 7th ICCC/IFIP International Confer-ence on Electronic Publishing (pp. 132–139). Minho, Portugal: Universidade do Minho. Recuperado de http://repositorium.sdum.uminho.pt/handle/1822/170

Yaginuma, T., Pereira, T., & Baptista, A. A. (2003b). Metadata elements for digital news resource de-scription. En Proceedings CLME’2003 - 3o Con-gresso Luso-Moçambicano de Engenharia (pp. 1317–1326). Maputo. Recuperado de http://repositorium.sdum.uminho.pt/handle/1822/279


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item