Aplicación de dos nuevos algoritmos para agrupar resultados de búsquedas en sistemas de catálogos públicos en línea (OPAC)

Marín, Andrés and Branch, John W. Aplicación de dos nuevos algoritmos para agrupar resultados de búsquedas en sistemas de catálogos públicos en línea (OPAC). Revista Interamericana de Bibliotecología, 2008, vol. 31, n. 1, pp. 47-65. [Journal article (Paginated)]

[img]
Preview
PDF
ARTICULO2.pdf

Download (380kB) | Preview

English abstract

With the ease of Internet use, and particularly the Web, today it is easier to gain access to new information sources available in anywhere in the world. Through the web, users search for specific information according to their own necessities. They may search either by means of search machines,such as Google and Yahoo, or specific library data bases or information systems. However, information seeking results on searching machines, online public access catalog systems, and in general, on the web search system can saturate a user because of the abundance of results, which leads to a loss of effectiveness. To solve this problem, the research "Agrupamiento de resultados obtenidos de consultas distribuidas en sistemas de catálogos públicos en línea (OPAC)", from which this paper derives, proposes two results clustering algorithms focused on concurrent online systems characterized by low consume of processor and memory cycles, which are used in a prototype of software.

Spanish abstract

Con la facilidad que da la Internet y, en particular la Web, cada día es más fácil acceder a nuevas fuentes de información puestas a disposición en cualquier lugar del mundo. Los usuarios buscan información específica de acuerdo a sus necesidades particulares, a través de la Web. Ellos pueden hacer búsquedas ya sea mediante motores de búsqueda tales como Google o Yahoo!, o también mediante bases de datos particulares de bibliotecas o sistemas de información. Sin embargo, los resultados de consultas en motores de búsqueda, sistemas de catálogos de acceso público en línea, y en general sistemas de consulta en la Web, pueden saturar a un usuario por la abundancia de resultados, causando pérdida de efectividad del sistema de búsqueda. Para resolver este problema, la investigación "Agrupamiento de resultados obtenidos de consultas distribuidas en sistemas de catálogos públicos en línea (OPAC)", de la que se deriva este artículo, propone dos algoritmos de agrupamiento de resultados orientados a sistemas en línea concurrentes, con características de bajo consumo de ciclos de procesador y memoria, los cuales se usan en un prototipo de software.

Item type: Journal article (Paginated)
Keywords: k-means, clustering, OPACS, data mining, information retrieval k-means, clustering algorithm, OPACS, data mining, information retrieval
Subjects: H. Information sources, supports, channels. > HM. OPACs.
Depositing user: Luis Carlos Toro Tamayo
Date deposited: 03 Oct 2008
Last modified: 02 Oct 2014 12:12
URI: http://hdl.handle.net/10760/12323

References

BORGMAN, C. L. Why are online catalogs still hard to use?. Journal of the American Society for Information Sciences. 1996, no. 47, p. 493–503.

CUTTING, Douglass R.; PEDERSEN, Jan O.; KARGER, David and TUKEY, John W. Scatter/ gather: A cluster-based approach to browsing large document collections. En: Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, p. 318–329.

FREITAS,Alex A. Data Mining and Knowledge Discovery with Evolutionary Algorithms. Estados Unidos: Springer Verlag , 2002.

HAN, Eui-Hong; BOLEY, Daniel; GINI, Maria; GROSS, Robert; HASHING, Kyle; KARYPIS, George; KUMAR, Vipin; MOBASHER, B. and MOORE, Jerry. Webace: A web agent for document categorization and exploration. En: Proceedings of the 2nd Internationl conference on Autonomous Agents, 1998.

HEARST, Marti A. y PEDERSEN, Jan O. Reexamining the cluster hypothesis: Scatter/gather on retrieval results. En:Proceedings of SIGIR-96, 19th ACM Internacional Conference on Research and Development in Information Retrieval, pages (76–84, Zurich, CH, 1996)

KARYPIS, George. Cluto a clustering toolkit. [En línea]. 2003. Disponible en: http://www.cs.umn.edu/˜karypis.[Consulta: enero 12 de 2005]

LEWIS, D. Reuters-21578 text categorization text collection 1.0. [En línea] Disponible en: http://www.research.att.com/˜lewis [Consulta: enero 12 de 2005]

MAAREK, Yoelle S.; FAGIN, Ronald; BEN-SHAUL, Israel Z. and PELLEG, Dan. Ephemeral document clustering for web applications. Technical Report RJ 10186, IBM Research, 2000.

MARCOS, Mari Carmen. Mejoras en la consulta y presentación de los resultados en catálogos de bibliotecas. En: IV Congreso de Interacción Persona-Ordenador IPO ’03 (Vigo), (Junio 2003)

MATTHEWS, Joseph R. Time for new opac initiatives: An overview of landmarks in the literature and introduction to wordfocus. Library Hi Tech. 1997, vol. 57-58, no. 5, p 111– 122.

MURAMATSU, J. y PRATT, W. Transparent queries: Investigating user´s mental models of search engines. In SIGIR-01. Proc of the Twenty fourth Internacional ACM Conference on Research and Depelopment in Information Retrieval. September 2001. New Orleans, LA. ACM.

NESCHEN, Martin. Hierarchical binary vector quantisation classifiers for handwritten character recognition. In Sagerer, Gerhard; Posch, Stefan and Kummert, Franz, editors, DAGM-Symposium. Estados unidos: Springer,1995. p. 419–427.

RIEKERT, Wolf-Fritz. The design of a multicatalog system for a public environmental information network. Technical report, GEIN: German Environmental Information Network, 1999.

SALTON, G.; YANG, C. S.; and YU, C. T. A theory of term importance in automatic text analysis. Journal of the American Society for Information Science, 1975, vol. 26, no.1, p.33–44.

SALTON, Gerald. Automatic Text Processing. New York: Addison-Wesley, 1989.

SHANNON, C.E. A mathematical theory of communication. The Bell System Technical Journal, 1948, vol 27, pp 379–423,623–656.

STEINBACH, Michael; KARYPIS, George and KUMAR, Vipin. A comparison od document clusterind techniques. Technical Report 00-034, Department of Computer Science and Engineering. University of Minesota, 2000.

Trec. Text retrieva conference relevance judgments. [En línea]. Disponible en: http://trec.nist.gov/data/qrels-eng/index.html .[Consulta: enero 12 de 2005]

Trec. Text retrieval conference. [En línea]. Disponible en: http://trec.nist.gov [Consulta: enero 12 de 2005]

WARREN, P. Why thy still cannot use their library catalogues? In Conference on Information Technology in Tertiary Education. June 2000. CITTE 2000 Conference, Organising Committee,Attention: CJ Nel,IT Services,University of Port Elizabeth, PO Box 1600,Port Elizabeth, 6000. University of Port Elizabeth.

WEISS, Dawid. Introduction to search results clustering. In Proceedings of the 6th International Conference on Soft Computing and Distributed Processing, Rzeszów. 2002. Poland.

Zamir. ClusteringWeb Documents: A Phrase-Based Method for Grouping Search Engine Results. 1999. (PhD thesis, University of Washington).


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item