Documentos duplicados y casi-duplicados en el Web : detección con técnicas de hashing borroso

García-Figuerola, Carlos and Gómez Díaz, Raquel and Alonso-Berrocal, José-Luis and Zazo Rodríguez, Ángel F. Documentos duplicados y casi-duplicados en el Web : detección con técnicas de hashing borroso. SCIRE : Representación y Organización del Conocimiento, 2011, vol. 17, n. 1, pp. 49-54. [Journal article (Paginated)]

Preview

PDF
figuerola2011fuzzy.pdf
Download (288kB) | Preview

English abstract

The web is the largest repository of documents available and, for retrieval for various purposes, we must use crawlers to navigate autonomously, to select documents and processing them according to the objectives pursued. However, we can see, even intuitively, that are obtained more or less abundant replications of a significant number of documents. The detection of these duplicates is important because it allows to lighten databases and improve the efficiency of information retrieval engines, but also improve the precision of cybermetric analysis, web mining studies, etc. Hash standard techniques used to detect these duplicates only detect exact duplicates, at the bit level. However, many of the duplicates found in the real world are not exactly alike. For example, we can find web pages with the same content, but with different headers or meta tags, or viewed with style sheets different. A frequent case is that of the same document but in different formats; in these cases we will have completely different documents at binary level. The obvious solution is to compare plain text conversions of all these formats, but these conversions are never identical, because of the different treatments of the converters on various formatting elements (treatment of textual characters, diacritics, spacing, paragraphs ...). In this work we introduce the possibility of using what is known as fuzzy-hashing. The idea is to produce fingerprints of files (or documents, etc..). This way, a comparison between two fingerprints could give us an estimate of the closeness or distance between two files, documents, etc. Based on the concept of "rolling hash", the fuzzy hashing has been used successfully in computer security tasks, such as identifying malware, spam, virus scanning, etc. We have added capabilities of fuzzy hashing to a slight crawler and have made several tests in a heterogeneous network domain, consisting of multiple servers with different software, static and dynamic pages, etc.. These tests allowed us to measure similarity thresholds and to obtain useful data about the quantity and distribution of duplicate documents on web servers.

Spanish abstract

El web es el repositorio más grande disponible de documentos, y nos obliga (para Recuperación y otros usos diversos) a utilizar crawlers que naveguen de forma autónoma y selecciones documentos y los procesen de acuerdo a los objetivos perseguidos. Sin embargo, incluso de forma intuitiva, podemos ver que existen abundantes réplicas de una cantidad importante de documentos. La detección de esos duplicados es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda, aunque también mejorar la precisión de loas análisis cibermétricos y los estudios de minería web, etc.. Las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a nivel de bits. Sin embargo, muchos de los duplicados que encontramos en el mundo real no son exactamente iguales. Por ejemplo, podemos encontrar páginas con el mismo contenido pero con diferentes cabeceras o etiquetas META, o visualizadas con diferentes plantillas. Un caso frecuente es el del mismo documento, pero en formatos distintos; en estos casos nos encontramos con documentos completamente diferentes a nivel de bits. La solución obvia es comparar las conversiones a texto plano de todos esos formatos, pero esas conversiones nunca son idénticas, debido al diferente tratamiento que hacen los conversores de los diversos elementos de formato. En este trabajo presentamos la posibilidad de utilizar lo que se conoce como fuzzy-hashing. La idea es producir huellas digitales de dos documentos. De esta forma, una comparación entre dos huellas digitales debería darnos una estimación de la cercanía o distancia entre los dos documentos. Basado en el concepto de rolling-hash, el fuzzy hashing se utiliza con éxito en tareas de seguridad informática como identificación de malware, spam, detección de virus, etc.. Hemos añadido capacidades de fuzzy-hashing a un crawler y hemos llevado a cabo diversas pruebas que nos han permitido estimar umbrales útiles de similitud o parecido entre documentos, así como obtener datos interesantes sobre la cantidad y distribución de documentos duplicados en servidores web.

Item type:	Journal article (Paginated)
Keywords:	web server, web document, duplicate document, fuzzy hashing, documentos web, servidores web, duplicación de documentos
Subjects:	L. Information technology and library technology > LZ. None of these, but in this section.
Depositing user:	Carlos G. Figuerola
Date deposited:	21 Sep 2012
Last modified:	02 Oct 2014 12:23
URI:	http://hdl.handle.net/10760/17591

Check full metadata for this record

References

Downloads

Downloads per month over past year

Actions (login required)

View Item

Facebook

Twitter

RSS