Categorización automática de documentos en español: algunos resultados experimentales

G.-Figuerola, Carlos and Zazo, Ángel F. and Alonso-Berrocal, José-Luis Categorización automática de documentos en español: algunos resultados experimentales., 2000 . In Primeras Jornadas de Bibliotecas Digitales. JBIDI'2000, Valladolid (España), 6 y 7 de Noviembre. [Conference paper]

[img]
Preview
PDF
figuerola2000retrieval.pdf

Download (16kB) | Preview

English abstract

The automatic categorization can be viewed as a learning process, during which a program captures the characteristics that distinguish each category or class from others, ie those who must have documents to belong to that category. On the other hand, few experiments have been carried out yet with documents in Spanish. It shows the possibilities of elaborating pattern vectors which collect the characteristics of different classes or categories of documents by techniques based on those applied in the expansion of queries by relevance. At the same time, describes an experiment involving the application of these techniques to a collection of press releases in Spanish, for categorization. The results are, overall, qualified, or even better than those obtained in similar experiments, for some categories, these results improve

Spanish abstract

La categorización automática puede contemplarse como un proceso de aprendizaje, durante el cual un programa capta las características que distinguen cada categoría o clase de las demás, es decir, aquéllas que deben poseer los documentos para pertenecer a esa categoría. De otro lado, pocos experimentos se han efectuado todavía con documentos en español. Se muestran las posibilidades de elaborar vectores patrón que recojan las características de distintas clases o categorías de documentos, utilizando técnicas basadas en aquéllas aplicadas en la expansión de consultas por relevancia. Al mismo tiempo, se describe un experimento consistente en la aplicación de esas técnicas a una colección de noticias de prensa en español, para su categorización. Los resultados obtenidos son, en conjunto, homologables o incluso mejores que los obtenidos en experimentos similares; para algunas de las categorías, estos resultados han sido muy favorables

Item type: Conference paper
Keywords: Categorización automática ; expansión de consultas, español, lenguaje natural, recuperación de la información
Subjects: L. Information technology and library technology > LZ. None of these, but in this section.
I. Information treatment for information services > IZ. None of these, but in this section.
Depositing user: R. Gómez-Díaz
Date deposited: 15 Dec 2009
Last modified: 02 Oct 2014 12:16
URI: http://hdl.handle.net/10760/14009

References

FAIRTHORNE, R.A.(1961):“The mathematics of the classification”, Towards Information Retrieval, Butterwoths, London (1961), 1-10.

HAYES, R.M. (1963): “Mathematical models in information retrieval”, Natural Language and the Computers (P,L, Garvin, Ed,), McGraw-Hill, N,Y, (1963), 287.

SALTON, G. (1968): Automatic Information Organization and Retrieval, McGraw-Hill, N,Y, (1968).

RIJSBERGEN, K. VAN (1979): Information Retrieval, Butterworths, London, 1979,

HARMAN, D. (1992): Ranking Algorithms, en Frakes, W,B, & Baeza-Yates, R,: Information retrieval: Data Structures and Algorithms, Prentice-Hall, Englewood Cliffs (NJ), 1992, pp, 363-392.

SALTON, G. & BUCKLEY, C. (1988): Term-Witghting Approaches in Automatic Text Retrieval, Information Processing and Management, 24(5), 1988, 513-523.

SALTON, G. & MCGILL, M.J. (1983): Introduction to Modern Information Retrieval, McGraw-Hill, New York, 1983.

HARMAN, D. (1992): Relevance feedback and other query modification techniques, en Frakes, W,B, & Baeza-Yates, R,: Information retrieval: Data Structures and Algorithms, Prentice-Hall, Englewood Cliffs (NJ), 1992, pp, 241-263.

ROCCHIO, J.J. (1971): Relevance feedback in Information Retrieval, en Salton, G, de,: The SMART Retrieval System: Experiments in Automatic Document Processing, Prentice-Hall, Engelwood Cliffs (NJ), 1971, pp, 313-323.

LEWIS, D.D., SCHAPIRE, R.E., CALLAN, J.P. & R. PAPKA (1996): Training Algorithms for Linear Text Classifiers, SIGIR 96, 298-306.

FIGUEROLA, C.G. (2000): La investigación sobre Recuperación de la Información en español, en Gonzalo García, E, y García Yebra, V, Eds,: Documentación, Terminología y Traducción, Síntesis, Madrid, 2000.

HARMAN, D. (Ed.): 3º Text Retrieval Conference (TREC-3), NIST Special Publicatin 500-225, Gaithersburg, 1995. HARMAN, D. (Ed.): 4º Text Retrieval Conference (TREC-4), NIST Special Publication 500-236, Gaithersburg, 1996.

HARMAN, D. (Ed.): 5º Text Retrieval Conference (TREC-5), NIST Special Publication, 500-238, Gaithersburg, 1997.

PETERS, CAROL (Ed.) (2000). First Results of the CLEF 2000 Cross-Language Text Retrieval System Evaluation Campaign. Working Notes for the CLEF 2000 Workshop. Lisboa, Sept, 2000.

PAICE, C.D. (1996): "Method for Evaluation of Stemming Algorithms Based on Error Counting", JASIS, 47(8), 632-649 17.

GÓMEZ DÍAZ, R. (1998): La Recuperación de Información en español: evaluación del efecto de sus peculiaridades lingüísticas, Universidad de Salamanca, trabajo de Grado(tesina), Salamanca, 1998. EFE, AGENCIA (1991): Manual de español urgente, Madrid, Cátedra, 1991, pp, 18-22 y 36-60.

ELENA GARCIA, P. (1994): “La traducción de textos informativos (noticias)”, en Curso práctico de traducción general alemán - español, Salamanca, Ediciones Universidad de Salamanca, 1994.

BUCKLEY, C., SALTON, G. & ALLAN, J. (1994):The effect of adding relevance information in a relevance feedback environment, SIGIR 94, pp, 292-300.

COHEN, W.W. & SINGER, Y. (1996): Context-sensitive learning methods for text categorization, SIGIR 96, pp, 307-315.

LEWIS, D.D. & GALE, W. (1994): A sequential algorithm for training texts classifiers, SIGIR 94, pp, 3-12


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item