Proyecto 7: un motor de recuperación de información web colaborativo

Figuerola, Carlos G., Gómez Díaz, Raquel, Alonso-Berrocal, José-Luis and Zazo Rodríguez, Angel Francisco Proyecto 7: un motor de recuperación de información web colaborativo. SCIRE : Representación y Organización del Conocimiento, 2010, vol. 16, n. 2, pp. 53-59. [Journal article (Paginated)]

This is the latest version of this item.

[thumbnail of 4016-4586-1-PB.pdf]
Preview
Text
4016-4586-1-PB.pdf - Submitted version

Download (365kB) | Preview

English abstract

With the rise of the Internet as a means of disseminating information is revealed the need for retrieval tools that provide access to desired information quickly and easily. Generalist search engines, and even thematically specialized ones, seek, with more or less success, to cover the entire web space. This type of search engines have proved effective and are used daily by millions of people. Sometimes, however, organizations with web presence need search tools within their own network space, whether it is open to the public, only internal, or a mixture of both. Many of these organizations what they want is to have search engines that focus on your web space, which the organization can precisely control, allowing greater control over indexed web space, on the forms of access and visualizing the retrieved documents; and even the possibility of studying habits of search with the aim of organize this web space and his navigability in a more efficient way. We present the Project 7, a web retrieval engine designed for use by those organizations with a documentary presence in Internet and for which, although having the information stored in any way exclusively local, want to make it accessible via the Internet. The theoretical basis on which this web retrieval engine is based is reviewed, outlining its main features.

Spanish abstract

Con la expansión de Internet como medio de difusión de información se hace patente la necesidad de contar con medios de recuperación que permitan acceder a la información deseada de manera fácil y rápida. Los motores de tipo generalista y los especializados temáticamente pretenden, con mayor o menor fortuna, cubrir todo el espacio web. Este tipo de motores de búsqueda han demostrado su eficacia, y son utilizados a diario por millones de personas. En ocasiones, sin embargo, las organizaciones con presencia en la red desean disponer de herramientas de búsqueda dentro de su propio espacio de red, ya sea éste abierto al público, solamente interno, o una mezcla de ambas cosas. Muchas de estas organizaciones lo que desean es disponer de motores de búsqueda centrados en su espacio web, que la propia organización pueda controlar con precisión, permitiendo un mayor control sobre el espacio web indizado, sobre las formas de acceso, la presentación de la información recuperada e, incluso, la posibilidad de estudiar hábitos de búsqueda a fin de de organizar dicho espacio web y su navegabilidad de una forma más eficiente. En este trabajo presentamos el Proyecto 7, un motor de recuperación web pensado para su aplicación por parte de esas organizaciones con presencia documental en Internet y también para las que, aún teniendo la información almacenada en modo exclusivamente local, quieren hacerla accesible a través de Internet. Se repasan los fundamentos teóricos que en los que se apoya este motor de recuperación web y se exponen sus principales características.

Item type: Journal article (Paginated)
Keywords: information retrieval; search engine; web retrieval; project 7; web crawling; probalistic retrieval; Recuperación de información; motor de búsqueda; recuperación web; proyecto 7; web crawling; modelo probabilístico.
Subjects: I. Information treatment for information services > II. Filtering.
I. Information treatment for information services > IZ. None of these, but in this section.
L. Information technology and library technology > LC. Internet, including WWW.
Depositing user: Carlos G. Figuerola
Date deposited: 16 Jan 2013 15:11
Last modified: 02 Oct 2014 12:24
URI: http://hdl.handle.net/10760/18150

Available Versions of this Item

References

Allan, J.; Callan, J.; Collins-Thompson, K. y Otros (2003). The lemur toolkit for language modeling and information retrieval. (2008-01-03).

Beigbeder, M.; Buntine, W.; Yee, W.G. (2006). Open source search and research. // Proceedings of the 2006 international workshop on Research issues in digital libraries. (2006) 5 y ss.

Broder, A. (2002). A taxonomy of web search. // ACM SigirForum. 36:2 (2002) 3-10.

Cafarella, Michael J.; Etzioni, Oren (2005). A Search Engine for Natural Language Applications. // Proceedings of the 14th International World Wide Web Conference (WWW 2005).

Chi, E.H.; Pirolli, p. ; Chen, K.; Pitkow, J. (2001). Using information scent to model user information needs and actions and the Web. // Proceedings of the SIGCHI conference on Human factors in computing systems. (2001) 497 y ss.

Figuerola, Carlos G.; Alonso Berrocal, José Luis; Zazo Rodríguez, Ángel F.; Rodríguez Vázquez de Aldana, Emilio (2006). Diseño de Spiders. Departamento de Informática y Automática - Universidad de Salamanca. Informe Técnico DPTOIA-IT-2006-002 (2006). http://reina. usal.es/papers/figuerola2006diseno.pdf (2010-04-01).

Girardi, C.; Ricca, F.; Tonella, p. (2006). Web crawlers compared. // International Journal of Web Information Systems. 2:2 (2006) 85-94.

Google Inc. (2010). Tecnología de Google para la empresa. http://www.google.es/enterprise (2010-04-01).

Internet Workshop (2010). WebGlimpse and Glimpse: advanced site search software for Unix: index web-sites or intranets. http://webglimpse.net/ (2010-04-01).

Jones, K.S.; Walker, S.; Robertson, S.E.(1998). A probabilistic model of information retrieval: development and status. // Information Processing and Management. 36:6 (1998) 809-840.

Kaunder, Maurice de (2010). WorlWideWebsize.com: The size of the World Wide Web. http://wolrdwidesize.com (2010-04-01).

Koster, M. (1994). A standard for robot exclusion, 1994. http://info.webcrawler.com/mak/projects/robots/norobots.html (2010-04-01).

LavTech.com Corp. (2010). mnoGoSearch - Internet Search Engine Software. http://www.mnogosearch.net (2010-04-01).

Manber, U.; Smith, M.; Gopal, B. (1997). Webglimpse: Combining browsing and searching. // Proceedings of the annual conference on USENIX Annual Technical Conference (1997) 15 y ss.

Mateos Sánchez, Montserrat; G. Figuerola, Carlos (2009). Aplicación de técnicas de clustering en la recuperación de información web. Gijón: Ediciones TREA, 2009.

Olston, C.; Najork, M. (2010). Web Crawling. // Information Retrieval. 4:3 (2010) 175-246 .

Ounis, I.; Amati, G.; Plachouras V.; He, B.; Macdonald, C.; Johnson, J. (2005). Terrier Information Retrieval Platform. // Proceedings of the 27th European Conference on IR Research (ECIR 2005). Lecture Notes in Computer Science. 3408 (2005) 517-519.

Paz-Madrid Gorelov, Vadim; Zazo, Ángel F.; Figuerola, Carlos G.; Alonso Berrocal, José Luis (2007). Librerías Lucene y dotLucene para Recuperación de Información. Estudio y desarrollo de casos prácticos. Departamento de Informática y Automática - Universidad de Salamanca. Informe Técnico DPTOIA-IT-2007-003 (2007) http://reina.usal.es/papers/pazmadrid2007librerias.pdf.

Pulido, J.R.V. (1997). Recuperación de la información en Internet: motores y otros agentes de búsqueda. // Scire. 3:2 (1997) 85 y ss.

Rabinovitz, Josh (2003). How to Index Anything. // Linux Journal. July 2003, 82-88.

Rato González, C. (2003). HTDIG, el detective en la red. // Solo Programadores Linux. 53 (2003) 34-38.

Robertson, S. (2004). Understanding inverse document frequency: on theoretical arguments for IDF. // Journal of Documentation. 60 (2004) 503-520.

Smiley, David; Pugh, Eric (2009). Solr 1.4. Enterprise Search Server. Birmingham UK: Packt Publishing, 2009.

Swish-e (2007). Simple Web Indexing System for Humans - Enhanced. http://swish-e.org (2010-04-01).

The Apache Software Foundation (2010). Welcome to Nutch. http://http://lucene.apache.org/nutch (2010-04-01)

The Apache Software Foundation (2010). Welcome to Solr. http://lucene.apache.org/solr/ (2010-04-01).

The ht://Dig Group (2007). WWW Seasrch Engine Software. http://www.htdig.org (2010-04-01).

The Lemur Project (2009). The Lemur Toolkit for Language Modeling and Information Retrieval. http://www.lemurproject.org/ (2010-04-01).

University of Glasgow, Terrier Team (2010). Terrier IR Platform. http://terrier.org (2010-04-01).

Vilares, J. (2008). El modelo probabilístico: características y modelos derivados. // Revista General de Información y Documentación. 18 (2008) 343-363.

Wikipedia (2010). Sistema de gestión de contenidos. http://es.wikipedia.org/wiki/Sistema_de_gesti%C3%B3n_de_contenidos (2010-04-01).

Xapian (2010). The Xapian Project. http://xapian.org (01-04-2010).

Zazo, Ángel F.; G. Figuerola, Carlos; Alonso Berrocal, José Luis; Rodríguez, Emilio (2005). Reformulation of Queries Using Similarity Thesauri // Information Processing & Management. 41:5 (2005) 1163-1173.

Zazo, Ángel F.; G. Figuerola, Carlos; Alonso Berrocal, José Luis; Rodríguez, Emilio (2004). El Sistema de Recuperación {K}arpanta: Estudio de Usuarios a Través del Archivo de Registro. // Scire.10:2 (2004) 63-76.


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item