Documentos duplicados y casi-duplicados en el Web : detección con técnicas de hashing borroso

García-Figuerola, Carlos, Gómez Díaz, Raquel, Alonso-Berrocal, José-Luis and Zazo Rodríguez, Ángel F. Documentos duplicados y casi-duplicados en el Web : detección con técnicas de hashing borroso. SCIRE : Representación y Organización del Conocimiento, 2011, vol. 17, n. 1, pp. 49-54. [Journal article (Paginated)]

[thumbnail of figuerola2011fuzzy.pdf]
Preview
PDF
figuerola2011fuzzy.pdf

Download (288kB) | Preview

English abstract

The web is the largest repository of documents available and, for retrieval for various purposes, we must use crawlers to navigate autonomously, to select documents and processing them according to the objectives pursued. However, we can see, even intuitively, that are obtained more or less abundant replications of a significant number of documents. The detection of these duplicates is important because it allows to lighten databases and improve the efficiency of information retrieval engines, but also improve the precision of cybermetric analysis, web mining studies, etc. Hash standard techniques used to detect these duplicates only detect exact duplicates, at the bit level. However, many of the duplicates found in the real world are not exactly alike. For example, we can find web pages with the same content, but with different headers or meta tags, or viewed with style sheets different. A frequent case is that of the same document but in different formats; in these cases we will have completely different documents at binary level. The obvious solution is to compare plain text conversions of all these formats, but these conversions are never identical, because of the different treatments of the converters on various formatting elements (treatment of textual characters, diacritics, spacing, paragraphs ...). In this work we introduce the possibility of using what is known as fuzzy-hashing. The idea is to produce fingerprints of files (or documents, etc..). This way, a comparison between two fingerprints could give us an estimate of the closeness or distance between two files, documents, etc. Based on the concept of "rolling hash", the fuzzy hashing has been used successfully in computer security tasks, such as identifying malware, spam, virus scanning, etc. We have added capabilities of fuzzy hashing to a slight crawler and have made several tests in a heterogeneous network domain, consisting of multiple servers with different software, static and dynamic pages, etc.. These tests allowed us to measure similarity thresholds and to obtain useful data about the quantity and distribution of duplicate documents on web servers.

Spanish abstract

El web es el repositorio más grande disponible de documentos, y nos obliga (para Recuperación y otros usos diversos) a utilizar crawlers que naveguen de forma autónoma y selecciones documentos y los procesen de acuerdo a los objetivos perseguidos. Sin embargo, incluso de forma intuitiva, podemos ver que existen abundantes réplicas de una cantidad importante de documentos. La detección de esos duplicados es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda, aunque también mejorar la precisión de loas análisis cibermétricos y los estudios de minería web, etc.. Las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a nivel de bits. Sin embargo, muchos de los duplicados que encontramos en el mundo real no son exactamente iguales. Por ejemplo, podemos encontrar páginas con el mismo contenido pero con diferentes cabeceras o etiquetas META, o visualizadas con diferentes plantillas. Un caso frecuente es el del mismo documento, pero en formatos distintos; en estos casos nos encontramos con documentos completamente diferentes a nivel de bits. La solución obvia es comparar las conversiones a texto plano de todos esos formatos, pero esas conversiones nunca son idénticas, debido al diferente tratamiento que hacen los conversores de los diversos elementos de formato. En este trabajo presentamos la posibilidad de utilizar lo que se conoce como fuzzy-hashing. La idea es producir huellas digitales de dos documentos. De esta forma, una comparación entre dos huellas digitales debería darnos una estimación de la cercanía o distancia entre los dos documentos. Basado en el concepto de rolling-hash, el fuzzy hashing se utiliza con éxito en tareas de seguridad informática como identificación de malware, spam, detección de virus, etc.. Hemos añadido capacidades de fuzzy-hashing a un crawler y hemos llevado a cabo diversas pruebas que nos han permitido estimar umbrales útiles de similitud o parecido entre documentos, así como obtener datos interesantes sobre la cantidad y distribución de documentos duplicados en servidores web.

Item type: Journal article (Paginated)
Keywords: web server, web document, duplicate document, fuzzy hashing, documentos web, servidores web, duplicación de documentos
Subjects: L. Information technology and library technology > LZ. None of these, but in this section.
Depositing user: Carlos G. Figuerola
Date deposited: 21 Sep 2012
Last modified: 02 Oct 2014 12:23
URI: http://hdl.handle.net/10760/17591

References

Bar-Ilan, J.(2005). Expectations versus reality sarch engine features needed for web research at mid 2005.// Cybermetrics 9:1 (2005).

Bharat, K., Broder, A. (1999). Mirror, mirror on the web: A study of host pairs with replicated content. // Computer Networks 31:11-16 (1999), 1579—1590.

Chowdhury, A.(2004). Duplicate data detection. http://gogamza.mireene.co.kr/wpcontent/uploads/1/XbsrPeUgh6.pdf [consultado en 13/01/2011].

Chowdhury, A., Frieder, O., Grossman, D., McCabe, M.(2002). Collection statistics for fast duplicate document detection.// ACM Transactions on Information Systems (TOIS) 20:2, 171--191 (2002) http://citeseerx.ist.psu.edu/viewdoc/download/doi=10.1.1.5.373&rep=rep1\&type=pdf [consultado el 13/01/2011]

Clarke C.L., Crasswell, N, y Soboroff, I. (2009). Overview of the TREC 2009 Web Track // Proceedings of the 18th Text REtrieval Conference, Gaithersburg, Maryland, 2009, 1-9

Damerau, F. (1964). A technique for computer detection and correction of spelling errors. // Communications of the ACM. 3, 171--176 (1964).

Figuerola, C.G., Alonso Berrocal, J.L., Zazo Rodríguez, A. F., Rodriguez Vázquez de Aldana, E. (2006). Diseño de spiders. Tech. Rep. DPTOIA-IT-2006-002 (2006)

Figuerola, C.G., Gómez Díaz, R., Alonso Berrocal, J.L., Zazo Rodríguez, A.F. (2010). Proyecto 7: un motor de recuperación web colaborativo. // Scire. Representación y Organización del Conocimiento, 16, 53--60 (2010).

Hamming, R. (1950). Error detecting and error correcting codes. // Bell System Technical Journal, 29:2, 147--160 (1950).

Kornblum, J. (2006). Identifying almost identical files using context triggered piecewise hashing. //Digital investigation, 3, 91--97 (2006).

Kornblum, J. (2010). Beyond fuzzy hash.// US Digital Forensic and Incident Response Summit 2010 (2010).http://computerforensics.sans.org/community/summits/2010/files/19-beyond-fuzzy-hashing-kornblum.pdf [consultado el 13/01/2011].

Kornblum, J.(2010). Fuzzy hashing and sseep.http://ssdeep.sourceforge.net/ [consultado el 13/01/2011].

Levenshtein, V.(1966). Binary codes capable of correcting deletions, insertions, and reversals.// Soviet Physics Doklady, 10:8, 707--710 (1966).

Milenko, D. (2010). ssdeep 2.5. python wrapper for ssdeep library // http://pypi.python.org/pypi/ssdeep [consultado el 13/01/2010].

Navarro, G.(2001). A guided tour to approximate string matching. // ACM computing surveys (CSUR), 33:1, 31--88 (2001).

Pugh, W. Y Henzinger, M.H. (2003). Detecting Duplicate and Near Duplicate Files // United Sates Patent 6.658.423

Soukoreff, R., MacKenzie, I. (2001): Measuring errors in text entry tasks: an application of the levenshtein string distance statistic. // CHI'01 extended abstracts on Human factors in computing systems, 319--320. ACM (2001).

Tan, P., Steinbach, M., Kumar, V., et al. (2006). Introduction to data mining. Pearson Addison Wesley :Boston (2006).

Tridgell, A.(2002). Spamsum overview and code. // http://samba.org/ftp/unpacked/junkcode/spamsum [consultado el 13/01/2011].

Tridgell, A., Mackerras, P.(2004). The rsync algorithm // http://dspace-prod1.anu.edu.au/bitstream/1885/40765/2/TR-CS-96-05.pdf [consultado el 13/01/2011].

Yahoo! (2011). Yahoo Developer Network, http://developer.yahoo.com [consultado el 13/01/2011]

Yerra, R., Ng, Y. (2005). Detecting similar html documents using a fuzzy set information retrieval

approach.// 2005 IEEE International Conference on Granular Computing, 2, 693--699. IEEE (2005).


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item