Estudio de la similitud de la respuesta de los principales motores de búsqueda en la web

Rodríguez-Cáceres, José and Martínez-Méndez, Francisco-Javier and Rodríguez-Muñoz, José-Vicente Estudio de la similitud de la respuesta de los principales motores de búsqueda en la web. Anales de Documentación, 2008, vol. 11, pp. 197-218. [Journal article (Paginated)]

[img]
Preview
PDF
ad1111.pdf

Download (434kB) | Preview

English abstract

The huge increment of the available information on the web added to a progressive augment of its use as main source of data has caused that the utilization of information retrieval systems -IRS- in the web (also known as search engines), takes on a higher relevance. Even though these tools carry out an essential work, no less necessary is the task of evaluating them and studying the data that they provide us. This research proposes to analyze the main search engines of the market through a direct comparison of the URLs returned from a heterogeneous set of queries to in-tend to find out the current degree of similarity of the responses. For this purpose we have developed a metasearch engine which will let us make our search experiment and calculate the distances in a quick and interactive way. Finally, we will try to get valid conclusions of the results contrasting them with data from other researches and from our own experiment, what will demonstrate the high degree of divergence in the responses of the IRS.

Spanish abstract

Resumen: El aumento de la información en la web y su empleo como fuente princi-pal para la recuperación de información en Internet propicia que el uso de los siste-mas de recuperación de información en la web (los motores de búsqueda), cobre mayor auge. Si bien estas herramientas realizan una labor encomiable, no resulta menos necesaria la tarea de evaluar su rendimiento y analizar la información que proporcionan. Nuestro estudio propone llevar a cabo un análisis de la similitud de los resultados ofrecidos por los principales motores de búsqueda. Para ello se ha construido un metabuscador que nos va a permitir realizar los experimentos de bús-queda y los cálculos de estos valores de una manera rápida e interactiva. Finalmente se intentará extraer un conjunto de conclusiones válidas de estos resultados, contras-tándolas con datos obtenidos en otros trabajos y entre los mismos ofrecidos por nuestro experimento, que viene a demostrar el amplio grado de divergencia entre las respuestas de estos sistemas de recuperación de información, tratándose éste de un tema de relevante interés a la par que no definitivamente consensuado en su solución.

Item type: Journal article (Paginated)
Keywords: Buscadores web; evaluación de la recuperación de información; sistemas de recuperación de información; Web search engines; information retrieval evaluation; information retrieval systems;
Subjects: L. Information technology and library technology > LM. Automatic text retrieval.
Depositing user: Anales de Documentación Revista
Date deposited: 04 Mar 2010
Last modified: 02 Oct 2014 12:16
URI: http://hdl.handle.net/10760/14255

References

BRIN, S. y PAGE, L. The PageRank Citation Ranking: Bringing Order to the Web. [En línea]. Computer Science Department, Stanford University, 1999 <http://dbpubs.stanford.edu/pub/1999-66>. [Consulta: 3 de agosto de 2007].

BURNS, E. Top 10 Search Providers. [En línea]. The Clicz Network, 2007. <http://searchenginewatch.com/showPage.html?page=3626903>. [Consulta: 3 de sep-tiembre de 2007].

BURNS, E. U. S. Search Engine Rankings, December 2007. [En línea] searchengine-watch.com: 2007. <http://searchenginewatch.com/showPage.html?page=3628341>. [Consulta: 12 de febrero de 2008].

CHU, H. y ROSENTHAL, M. Search engines for the World Wide Web: a comparative study and evaluation methodology. ASIS 1996 Annual Conference, October 19-24, 1996. <http://www.asis.org/annual-96/ElectronicProceedings/chu.html>. [Consulta: 12 de enero de 2008].

GOOGLE. Our Search: Google Technology [En línea] Google: Moutain View, CA, 2007. <http://web.google.com/technology/>. [Consulta: 29 de septiembre de 2007].

GORDON, M. y PATHAK, P. Finding information on the World Wide Web: the retrieval effectiveness of search engines. Information Processing and Management 35, 1999. p. 141-180

HUNT, B. What, Exactly, is Search Engine Spam? [En línea] searchenginewatch.com: 2005. <http://searchenginewatch.com/showPage.html?page=3483601>. [Consulta: 30 de septiembre de 2007].

KOPYTOFF, V. Year's top search terms [En línea] San Francisco: Chronicle, 2007. <http://sfgate.com/cgi-bin/article.cgi?f=/c/a/2006/12/25/BUGOBN387R1.DTL>. [Consulta: 4 de agosto de 2007].

LEIGHTON, H. V. y SRIVASTAVA, J. First 20 precision among World Wide Web search services (search engines). Journal of the American Society for Information Sci-ence 50 (10), 1999, p. 870-881.

LJOSLAND, M. (2000b) Evaluation of twenty Web search engines on ten rare words ranking algorithms. Trondheim and Sør-Trøndelag: University, 2000. [En línea] <http://www.aitel.hist.no/~mildrid/dring/paper/Comp20.doc>. [Consulta: 11 de enero de 2008].

LJOSLAND, M. Evaluation of Web search engines and the search for better ranking algo-rithms. SIGIR99 Workshop on Evaluation of Web Retrieval August 19, 1999. [En lí-nea] Trondheim and Sør-Trøndelag: University, 2000. <http://www.aitel.hist.no/~mildrid/dring/paper/SIGIR.html>. [Consulta: 18 de enero de 2008].

MARTÍNEZ MÉNDEZ, F. J. Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet. [Tesis Doctoral] [En línea] Alicante: Bi-blioteca Virtual Miguel de Cervantes, 2002. <http://web.cervantesvirtual.com/FichaObra.html?Ref=10010>. [Consulta: 8 de julio de 2007].

MARTÍNEZ MÉNDEZ, F. J. y RODRÍGUEZ MUÑOZ, J. V. Síntesis y crítica de las evaluaciones de la efectividad de los motores de búsqueda en la web. Information Re-search, 8(2), paper no. 148, 2003. <http://InformationR.net/ir/8-2/paper148.html>. [Consulta: 18 de noviembre de 2007].

NIELSEN/NETRATINGS. Nielsen Online Reports Topline U.S. Data for November 2007. [En línea] Nielsen: 2007. <http://www.nielsen-netratings.com/press.jsp>. [Con-sulta: 21 de octubre de 2007].

NOTESS, G. R. Search engine statistics. [En línea] Nottes.com: 2007 <http://www.searchengineshowdown.com/stats/>. [Consulta: 11 de enero de 2008].

OPPENHEIM, C., MORRIS, A., MCKNIGHT, C. y LOWLEY, S. The evaluation of WWW search engines. Journal of Documentation, 56(2), 2000, p. 190-211.

PAGE, L.; BRIN, S.; MOTWANI, R. y WINOGRAD, T. The PageRank Citation Rank-ing: Bringing Order to the Web. Manuscript in progress. [En línea] Stanford: Univer-sity, 1998. <http://google.stanford.edu/~backrub/pageranksub.ps>. [Consulta: 18 de octubre de 2007].

PALFREY, D. Experiments with Search Engine Distance Measures. [En línea] Digital History at Western wiki. digitalhistory.uwo.ca/wiki: 2006. <http://digitalhistory.uwo.ca/wiki/index.php/Experiments_with_Search_Engine_Distance_Measures>. [Consulta: 8 de enero de 2008].

SALTON, G.; WONG, A. y YANG, C. A vector space model for automatic indexing. Communications of the ACM, Volume 18, Issue 11, Nov. 1975, p. 613-620.

SPERTUS, E.; SAHAMI, M. y BUYUKKOKTEN, O. Evaluating similarity measures: a large-scale study in the orkut social network Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2005), p. 678-684.


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item