La recuperación de información en español y la normalización de términos

G.-Figuerola, Carlos and Zazo, Ángel F. and Rodríguez-Vázquez-de-Aldana, Emilio and Alonso-Berrocal, José-Luis La recuperación de información en español y la normalización de términos. Inteligencia Artificial. Revista Iberoamericana de Inteligencia Artificial, 2004, vol. 8, n. 22, pp. 135-145. [Journal article (Paginated)]


English abstract

Most of the Information Retrieval Systems uses counts of frequencies of the words that occur in documents. Such counts entail the need of normalizing these terms. A simple normalization of characters (upper/ lowercase, accents and other diacritical ones) seems insucient, since many words, by morphologic inection or derivation, could be grouped under an only form, when having very near semantic mean. Several algorithms of normalization are analyzed and tested experimentally to evaluate their efectiveness.

Spanish abstract

La mayor parte de los Sistemas de Recuperación de Información utilizan, de una forma u otra, recuentos de frecuencias de las palabras que aparecen en los documentos.Tales recuentos conllevan la necesidad de normalización de caracteres (mayúsculas/minísculas, acentos y otros diacríticos) parece insuciente, ya que muchas palabras, por flexión morfológica o derivación, podrían ser agrupadas bajo una úunica forma, al tener contenidos semánticos muy cercanos. Se analizan diversos algoritmos de normalización y se muestran los experimentos llevados a cabo para evaluar su eficacia.

Keywords: Information Retrieval, stemming, n-grams, in flectional stemming, derivational stemming, recuperación de la información, Español. Lenguaje natural, Normalización
Subjects: L. Information technology and library technology > LM. Automatic text retrieval.
I. Information treatment for information services > II. Filtering.
