G.-Figuerola, Carlos and Alonso-Berrocal, José-Luis and Zazo, Ángel F. Mejoras en la recuperación web combinando campos. Actas de los Talleres de las Jornadas de Ingeniería del Software y Bases de Datos, 2009, vol. 3, n. 6, pp. 30-35. [Journal article (Paginated)]
|
PDF
zoco-09-figuerola-recuperacion.pdf Download (207kB) | Preview |
English abstract
This article describes some of the activities of the REINA research group about Web information retrieval. These activities have focused on proving the retrieval that can be expected from diverse informative present in the elements of web pages, besides the text that the user visualizes normally in the browser. Our aim was to try to the performance when mixing or combining these elements. Combining terms from diverse elements in one unique index can be obtained using the frequency of the terms in the vector space model, when uses a TFxIDF scheme. The BODY field is obviously the most powerful, but the text of the ANCHORs of the backlinks that receive the pages add a considerable improvement retrieval performance. The content of the METa tags, nevertheless, pay little to the improvement in the retrieval performance.
Spanish abstract
Este artículo describe algunas de las actividades del grupo de investigación REINA en torno a la recuperación de información web. Estas actividades se han centrado en probar la capacidad de recuperación que puede esperarse de diversos elementos informativos presentes en las páginas web, además del texto que el usuario visualiza normalmente en su navegador. Nuestro objetivo ha sido probar estrategias pre-recuperación de mezclar o combinar esos campos o elementos de información. Combinar términos de diversa procedencia en un único índice puede conseguirse, en sistemas basados en el modelo del espacio vectorial, operando sobre la frecuencia del término en el documento, si se aplica un esquema de pesado basado en tfxidf. El campo BODY es, obviamente, el más potente desde el punto de vista de la recuperación; pero los ANCHORs de los backlinks que reciben las páginas indizadas añaden una mejora considerable a los resultados de la recuperación. El contenido de las etiquetas META, sin embargo, contribuyen poco a la mejora en la recuperación.
Item type: | Journal article (Paginated) |
---|---|
Keywords: | Recuperación de información en el Web, HTML, metadatos |
Subjects: | L. Information technology and library technology > LM. Automatic text retrieval. L. Information technology and library technology > LC. Internet, including WWW. L. Information technology and library technology > LL. Automated language processing. |
Depositing user: | Ángel F. Zazo Rodríguez |
Date deposited: | 15 Feb 2010 |
Last modified: | 02 Oct 2014 11:56 |
URI: | http://hdl.handle.net/10760/3909 |
References
Downloads
Downloads per month over past year
Actions (login required)
View Item |