Mejoras en la recuperación web combinando campos

G.-Figuerola, Carlos and Alonso-Berrocal, José-Luis and Zazo, Ángel F. Mejoras en la recuperación web combinando campos. Actas de los Talleres de las Jornadas de Ingeniería del Software y Bases de Datos, 2009, vol. 3, n. 6, pp. 30-35. [Journal article (Paginated)]

[img]
Preview
PDF
zoco-09-figuerola-recuperacion.pdf

Download (207kB) | Preview

English abstract

This article describes some of the activities of the REINA research group about Web information retrieval. These activities have focused on proving the retrieval that can be expected from diverse informative present in the elements of web pages, besides the text that the user visualizes normally in the browser. Our aim was to try to the performance when mixing or combining these elements. Combining terms from diverse elements in one unique index can be obtained using the frequency of the terms in the vector space model, when uses a TFxIDF scheme. The BODY field is obviously the most powerful, but the text of the ANCHORs of the backlinks that receive the pages add a considerable improvement retrieval performance. The content of the METa tags, nevertheless, pay little to the improvement in the retrieval performance.

Spanish abstract

Este artículo describe algunas de las actividades del grupo de investigación REINA en torno a la recuperación de información web. Estas actividades se han centrado en probar la capacidad de recuperación que puede esperarse de diversos elementos informativos presentes en las páginas web, además del texto que el usuario visualiza normalmente en su navegador. Nuestro objetivo ha sido probar estrategias pre-recuperación de mezclar o combinar esos campos o elementos de información. Combinar términos de diversa procedencia en un único índice puede conseguirse, en sistemas basados en el modelo del espacio vectorial, operando sobre la frecuencia del término en el documento, si se aplica un esquema de pesado basado en tfxidf. El campo BODY es, obviamente, el más potente desde el punto de vista de la recuperación; pero los ANCHORs de los backlinks que reciben las páginas indizadas añaden una mejora considerable a los resultados de la recuperación. El contenido de las etiquetas META, sin embargo, contribuyen poco a la mejora en la recuperación.

Item type: Journal article (Paginated)
Keywords: Recuperación de información en el Web, HTML, metadatos
Subjects: L. Information technology and library technology > LM. Automatic text retrieval.
L. Information technology and library technology > LC. Internet, including WWW.
L. Information technology and library technology > LL. Automated language processing.
Depositing user: Ángel F. Zazo Rodríguez
Date deposited: 15 Feb 2010
Last modified: 02 Oct 2014 11:56
URI: http://hdl.handle.net/10760/3909

References

1. Steven M. Beitzel, Eric C. Jensen, Abdur Chowdhury, David Grossman, Ophir Frieder, and Nazli Goharian. On fusion of eective retrieval strategies in the same information retrieval system. Journal of the American Society for Information Science and Technology (JASIST), 55(10):859-868, 2004.

2. William B. Cavnar and John M. Trenkle. N-gram-based text categorization. In Third Annual Symposium on Document Analysis and Information Retrieval. April 11-13, 1994, Las Vegas, Nevada, pages 161-175, 1994.

3. Carlos G. Figuerola, José L. Alonso Berrocal, Ángel F. Zazo Rodríguez, and Emilio Rodríguez. REINA at the WebCLEF task: Combining evidences and link analysis. In Peters [8].

4. Carlos G. Figuerola, José Luis A. Alonso Berrocal, Ángel F. Zazo Rodríguez, and Emilio Rodríguez. Herramientas para la investigación en recuperación de informacióon: Karpanta, un motor de búsqueda experimental. Scire, 10(2):51-62, 2004.

5. Carlos G. Figuerola, Ángel F. Zazo, Emilio Rodríguez, and José Luis

Alonso Berrocal. La recuperación de información en español y la normalización de términos. Inteligencia Articial. Revista Iberoamericana de Inteligencia Artifal, 8(22):135-145, 2004.

6. Edward A. Fox and Joseph A. Shaw. Combination of multiple searches. In The Second Text REtrieval Conference (TREC-2). NIST Special Publication 500-215, 1993.

7. Gertjan van Noord. Texcat language guesser.

8. Carol Peters, editor. Results of the CLEF 2005 Cross-Language System Evaluation Campaign. Working notes for the CLEF 2005 Workshop, 21-23 September, Vienna, Austria, 2005.

9. Gerard Salton, A. Wong, and C. S. Yang. A vector space model for automatic indexing. Communication of the ACM, 18:613-620, 1975.

10. B. Sigurbjornsson, J. Kamps, and M. De Rijke. EuroGOV: Engineering a multilingual Web corpus. Lecture Notes in Computer Science, 4022:825, 2006.

11. Börkur Sigurbjörnsson, Jaap Kamps, and Maarten de Rijke. Overview of webclef 2005. In Peters [8].

12. Amit Singhal, Chris Buckley, and Mandar Mitra. Pivoted document length normalization. In Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, August 18{22, 1996, Zurich, Switzerland (Special Issue of the SIGIR Forum), pages 21-29. ACM, 1996.


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item