Librerías Lucene y dotLucene para Recuperación de Información. Estudio y desarrollo de casos prácticos

Paz-Madrid-Gorelov, Vadim, Zazo, Ángel F., G.-Figuerola, Carlos and Alonso-Berrocal, José-Luis Librerías Lucene y dotLucene para Recuperación de Información. Estudio y desarrollo de casos prácticos., 2007 [Report]

[thumbnail of pazmadrid2007librerias.pdf]

Download (1MB) | Preview

English abstract

This technical report describes two libraries for Information Retrieval: Lucene and dotLucene. Lucene is a library developed for the Java program language. DotLucene is a port for Lucene in .Net. Our purpose is to make a basic tutorial to use both libraries. So, rst we describe Lucene, its class model and the most important objects for the process of information indexing and searching. Next, we study dotLucene, in this case, using two examples for the description of this library. The former nds les in a folder containing the text of the search. The later can to index elds of XML les using diferent criteria. In this example, some searches can be done using one or more elds of the XML les.

Spanish abstract

En este informe técnico se describe la utilización de dos librerías1 para Recuperación de Información. Después de una introducción a esta disciplina, se realiza un tutorial básico de utilización de la librería Lucene, bajo el lenguaje de programación Java, explicando en qué consiste, qué se puede hacer con ella, y poniendo ejemplo prácticos de su utilización. Se estudia el modelo de clases de Lucene, y se exploran los principales objetos para la indexación y búsqueda de información. Además del estudio e implementación de la librería Lucene, se describe la utilización de dotLucene, un puerto adicional de Lucene en .Net, con el que probar la versatilidad de Lucene en otras plataformas. Para ello se han elaborado y documentado dos ejemplos de búsqueda de información. En el primero se lleva a cabo una búsqueda de información en documentos almacenados en un árbol de directorios. Se pueden realizar búsquedas de información sobre cualquier fichero convertible a texto plano. El segundo va más allá y realiza la indexación, delimitación y búsqueda de información en documentos XML, permitiendo la búsqueda por campos concretos en este tipo de documentos

Item type: Report
Keywords: Information retrieval ; Lucence Library ; Recuperación de la información ; Biblioteca Lucence
Subjects: L. Information technology and library technology > LM. Automatic text retrieval.
Depositing user: R. Gómez-Díaz
Date deposited: 10 Dec 2009
Last modified: 02 Oct 2014 12:16


AENOR, editor. _Documentación. Tomo 2. Normas Fundamentales_, tomo 56 de _Recopilación de normas UNE_.

AENOR, Madrid, Segunda edición (1997).

Doug Cutting Apache Foundation's Jakarta. Apache Lucene: Overview [on-line]. (mayo 2006). [visit. 15/12/2006] URL:

George Aroush. George Aroush's World [on-line]. [visit. 31/03/2007] URL:

Ricardo Baeza-Yates y Berthier Ribeiro-Neto. _Modern Information Retrieval_.

Addison-Wesley, Harlow, England (1999). Microsoft Corporation. Encoding Class MSDN Library [on-line]. URL:

Microsoft Corporation. MSDN Library Online System.Xml Namespace [on-line]. [visit. 20/02/2007] URL:

Carlos G. Figuerola, José Luis Alonso Berrocal, Ángel F. Zazo Rodríguez y Emilio Rodríguez Vázquez de Aldana. Diseño de spiders. Informe técnico DPTOIAIT-2006-002, Departamento de Informática y Automática - Universidad de Salamanca (marzo 2006). The Apache Software Foundation. DotLucene 1.9 API documentation [on-line]. [visit.20/02/2007] URL:

Brian Goetz. The Lucene search engine: Powerful, _exible, and free [online]. (september 2000). [visit. 06/01/2007] URL:

Otis Gospodnetic. Parsing, indexing, and searching XML with Digester and Lucene [online]. developerWorks (June 2003). [visit. 12/02/2007] URL:

Otis Gospodnetic y Erik Hatcher. _Lucene in Action_. Manning Publications (2004). GOS o 05:1 1.Ex. Gregory Grefenstette y Pasi Tapanainen. What is a word, What is a sentence? Problems of tokenization. En _Proceedings of the 3rd Conference on Computational Lexicography and Text Research (COMPLEX'94), Budapest_, páginas 79_87 (1994).

Gerald Kowalski. _Information Retrieval Systems. Theory and Implementation_. Kluwer Academic Publishers, Boston (1997).

Robert Krovetz. Homonymy and polysemy in information retrieval. En _36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, August 10-14, 1998, Université de Montréal, Montreal, Quebec, Canada_, páginas 72_79. ACL /

Morgan Kaufmann (1997). Joe Mayo. C# station tutorial [on-line]. (2005). visit. 10/01/2007] URL:

José Antonio Moreiro González. Aplicaciones al análisis automático del contenido provenientes de la teoría matemática de la información. Anales de Documentación 5, 273_286 (2002).

Steven J. Owens. Lucene Tutorial [on-line]. (2001). URL:

Tefko Saracevic. Relevance: A review of and a framework for the thinking on the notion in information science. Journal of the American Society for Information Science 26(6), 321_343 (1975). SourceForge. Lucene.Net (formerly dotLucene) is the fastest open-source search engine for .NET [on-line] (May 2006). [visit. 20/02/2007] URL:

Karen Sparck Jones. _Information Retrieval Experiments_. Butterworth, London (1981). C. J. van Rijsbergen. _Information Retrieval_. Dept. of Computer Science, University of Glasgow, Segunda edición (1979).

Nivio Ziviani. Text operations. En _Modern Information Retrieval_, capítulo 7, páginas 163_190. Addison-Wesley, Harlow, England (1999).


Downloads per month over past year

Actions (login required)

View Item View Item