Desarrollo tecnológico y documental del webcrawler Mbot: prueba de análisis web de la universidad española

Blázquez Ochando, Manuel Desarrollo tecnológico y documental del webcrawler Mbot: prueba de análisis web de la universidad española., 2013 . In XIII Jornadas Españolas de Documentación FESABID, Toledo (Spain), 23-25 May 2013. [Conference paper]

[img]
Preview
Text
fesabid2013-manuel-blazquez-ochando.pdf - Published version

Download (1MB) | Preview

English abstract

Cibermetrical and webometrical researches demand tools expressly designed for information harvesting in the Net. So far webcrawler applications have been used for this purpose, but most of them are very difficult to configure and to adapt for the purpose. Therefore we propose here a new concept of webcrawler, called Mbot, whose goal is to make this technology more adaptable to the work of the information scientist, making it at the same time quicker and more efficient. Here the execution engine of the application is introduced, its characteristics and an analysis trial of the web, starting with a link seed represented by 147 websites of Spanish universities.

Spanish abstract

Las investigaciones webmétricas y cibermétricas exigen el uso de herramientas específicamente diseñadas para la recolección de información en la red. Este planteamiento implica el uso de programas webcrawler que en muchos casos resultan complejos de adaptar y configurar. En consecuencia se propone la innovación y el desarrollo tecnológico de un nuevo concepto de webcrawler, denominado Mbot, cuya finalidad es acercar al documentalista esta tecnología y permitir al investigador implementarlo de forma rápida y efectiva. En la consecución de este objetivo se presenta el mecanismo de ejecución del programa, sus características y una prueba de análisis de la web partiendo de una semilla de enlaces constituida por 147 sedes web de universidades españolas.

Item type: Conference paper
Keywords: Recuperación de información, webcrawler, cibermetría, automatización, tecnologías de la información, herramientas documentales, Information retrieval, webcrawler, cybermetrics, automation, information technology, documentary tools
Subjects: H. Information sources, supports, channels. > HQ. Web pages.
L. Information technology and library technology
L. Information technology and library technology > LM. Automatic text retrieval.
Depositing user: Dr. Manuel Blázquez Ochando
Date deposited: 18 Oct 2013 12:14
Last modified: 02 Oct 2014 12:28
URI: http://hdl.handle.net/10760/20404

References

AGUILLO, I.F., M.B. GRANADINO GOENECHEA, C. RONDA LAÍN et al. 2004. Factor de impacto y visibilidad de 4000 sedes web universitarias españolas. (Proyecto Estudios y Análisis 2004 EA2004-0020).

BLÁZQUEZ OCHANDO, M. 2011. Primeras pruebas del mbot webcrawler. [online]. [Consultado 2 Oct 2012]. Disponible en: http://www.mblazquez.es/documents/articulo-pruebas1-mbot.html

BLÁZQUEZ OCHANDO, M. and E. SERRANO MASCARAQUE. 2011. Análisis de la web y usabilidad: prueba de funcionamiento de Mbot webcrawler. In: X Congreso ISKO Capítulo Español (Ferrol, 30 junio - 1 julio 2011). Ferrol: ISKO.

BUENO LÓPEZ, J. 2010. Nutch: technological wiki. [online]. [Consultado 07 Mar 2011]. Disponible en: http://thewiki4opentech.org/index.php/Nutch

CYBERMETRICS LAB. 2012. Ranking Web of Universities: spain. [online]. [Consultado 2 Oct 2012]. Disponible en: http://www.webometrics.info/en/Europe/Spain

FABA PÉREZ, C., V.P GUERRERO BOTE, and F. MOYA ANEGÓN. 2004. Fundamentos y técnicas cibermétricas. Badajoz: Consejería de Educación, Ciencia y Tecnología. Junta de Extremadura.

GRAELLS, E. and R. BAEZA YATES. 2007. Características de la Web Chilena 2007. Santiago de Chile.

MEDRANO, J.F., J.L. ALONSO BERROCAL, and C.G. FIGUEROLA. 2011. Visualización de Grafos Web. [online]. [Consultado 2 Oct 2012]. Disponible en: http://www.academia.edu/942300/Visualizacion_de_Grafos_Web

ORTEGA, J.L. and I.F. AGUILLO. 2007. Análisis de co-enlaces: una aproximación teórica. El Profesional de la Información. 15(4), pp.270-277.

PHP GROUP. 2012. cURL installation. [online]. [Consultado 28 Oct 2012]. Disponible en: http://php.net/manual/es/book.curl.php

PHP GROUP. 2012. SimpleXMLElement:xpath. [online]. [Consultado 28 Oct 2012]. Disponible en: http://php.net/manual/es/simplexmlelement.xpath.php

PHP GROUP. 2012. The DOMElement class. [online]. [Consultado 28 Oct 2012]. Disponible en: http://php.net/manual/en/class.domelement.php

PINTO MOLINA, M., J.L. ALONSO BERROCAL, J.A. CORDÓN GARCÍA et al. 2004. Análisis cualitativo de la visibilidad de la investigación de las universidades españolas a través de sus páginas web. Revista Española de Documentación Científica. 27(3), pp.345-370.

RODRÍGUEZ MIRANDA, A. and J.M. VALLE MELÓN. 2012. Software to generate graphs in DOT format (v. 1.0). [online]. [Consultado 2 Oct 2012]. Disponible en: https://addi.ehu.es/bitstream/10810/6169/6/ldgp_sof007_grafos.pdf

SHKAPENYUK, V. and T. SUEL. 2002. Design and Implementation of a High-Performance Distributed Web Crawler. In: Proceedings. 18th International Conference on Data Engineering. Nueva York, pp.357 368.

SIGURDSSON, K., M. STACK, and I. RANITOVIC. 2007. Heritrix User Manual. [online]. [Consultado 7 Mar 2011]. Disponible en: https://pacer.ischool.utexas.edu/bitstream/2081/1708/1/user_manual.html

SUNIL KUMAR, M. and P. NEELIMA. 2011. Design and Implementation of Scalable, Fully Distributed Web Crawler for a Web Search Engine. International Journal of Computer Applications. 15(7), pp.8-13.

THELWALL, M. 2001. A web crawler design for data mining. Journal of Information Science. 27(5), pp.319-325.

THELWALL, M. and I.F. AGUILLO. 2003. La salud de las web universitarias españolas. Revista Española de Documentación Científica. 26(3), pp.291-305.


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item