Diseño de Spiders

G.-Figuerola, Carlos and Alonso-Berrocal, José-Luis and Zazo, Ángel F. and Rodríguez-Vázquez-de-Aldana, Emilio Diseño de Spiders., 2006 (Unpublished) [Report]

[img]
Preview
PDF
figuerola2006diseno.pdf

Download (355kB) | Preview

English abstract

This paper aims to show the authors’s experience in developping software that automatically explore cyber-space. The basic structure of a spider is showed, as well as the major tools to build this software. Several performance issues of this kind of software are revised, besides the standards and conventions used in automatic exploration of the web. Also are showed the more frequent troubles found in the work of this software, and several issues to resolve them.

Spanish abstract

Este trabajo pretende recoger la experiencia de sus autores en el diseñoo de programas que recorren automáticamente eso que se ha dado en llamar ciberespacio. Se muestra la estructura básica de un spider, así como algunas de las herramientas básicas de programación para la construcción de éstos. Se examinan diversas opciones de rendimiento de estos programas y convenciones utilizadas en la exploración automática del web. Se muestran también los problemas más frecuentes en el funcionamiento de estos programas, y diversas opciones para abordar dichos problemas.

Item type: Report
Keywords: Spiders, Arañas, Internet, Páginas web, Indización, buscadores
Subjects: L. Information technology and library technology > LC. Internet, including WWW.
Depositing user: R. Gómez-Díaz
Date deposited: 09 Dec 2009
Last modified: 02 Oct 2014 12:16
URI: http://hdl.handle.net/10760/13993

References

J. L. Alonso Berrocal, C. G. Figuerola, ´A. F. Zazo, and E. Rodríguez. Agentes inteligentes: Recuperación autónoma de información en la Web. Revista Española de Documentación Científica, 26(1):11–20, 2003.

R. Baeza-Yates. The web of spain. UPGRADE, 3(3):82–84, 2003.

S. Beitzel, E. Jensen, R. Cathey, L. Ma, D. Grossman, O. Frieder, A. Chowdury, G. Pass, and H. Vandermolen. Task classification and document structure for known-item search. In The Twelfth Text REtrieval Conference (TREC 2003). NIST Special Publication 500-255, 2003.

C. Castillo. Effective Web Crawling. PhD thesis, Departament of Computer Science. University of Chile., november 2004.

S. Chakrabarti. Mining the Web : discovering knowledge from hypertext data. Morgan Kaufmann, San Francisco, CA, 2003. ISBN: 1558607544. M. Koster. A standard for robot exclusion, 1994.

M. Koster. Robots in the web: threat or treat? ConneXions, 9(4), 1995. M. Mauldin. Spidering bof report. In W3C Workshop on Distributed Indexing/Searching, Cambridge, MA, 1996.

J. Palmero Esteban. Sistemas operativos multiproceso y multithread. Login, (15):19–221, 1996.

V. Shkapenyuk and T. Suel. Design and implementation of a high-performance distributed web crawler. In IEEE International Conference on Data Engineering (ICDE), 2002.

M. Thelwall. A web crawler design for data mining. Journal of Information Science, 27(5):319–325, 2001.


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item