Aplicaciones al análisis automático del contenido provenientes de la teoría matemática de la información

Moreiro González, José Antonio Aplicaciones al análisis automático del contenido provenientes de la teoría matemática de la información. Anales de Documentación, 2002, vol. 5, pp. 273-286. [Journal article (Paginated)]

Preview

PDF
ad0515.pdf
Download (216kB) | Preview

English abstract

This paper analyzes the most important proposals following the Shannon and Weaver's Mathematic Theory of Communication that have influenced in pro-ceedings of automatic content analysis. It's explained the methodological applica-tions of this theory in our discipline, especially about information retrieval. After this, describes the mathematical models applied to automatic content analysis: Laws of Zipf and Goffman, anti-dictionaries to permuted indexes, Statistical Inde-xation of terms by frequencies, n-grams and stemming algorisms. Also studies the methods of relation and classification like clusters by value of discrimination and by relevance of terms: for example, methods of relations based in Graph Theory, mass core, the K-means or incremental K-means, and the ISODATA algorism. Fi-nally, explains the scientometrics indicators as Chen's coowording and methods with learning systems.

Spanish abstract

Reflexión sintética para revisar las propuestas más relevantes que, si-guiendo la teoría matemática de la comunicación de Shannon y Weaver, hayan afectado a los procedimientos del análisis automático del contenido documental. Partiendo del empleo de la teoría matemática en Ciencia de la Información se ex-plican sus aplicaciones metodológicas en nuestra especialidad, en especial respecto a las técnicas de recuperación de la información. Para después describir los mode-los matemáticos aplicados al análisis automático del contenido: leyes de Zipf y Goffman, antidiccionarios para índices permutados, Indización Estadística de Tér-minos por Frecuencias, algoritmos n-grams y de stemming, así como los referidos a los métodos de agrupación y clasificación como clusters por valor de discrimina-ción y por relevancia de los términos como son los métodos de agrupación basados en Grafos Teóricos, los basados en Centros de masas, el algoritmo K-vecinos o K-medias, el K-vecinos axial o incremental, y el algoritmo ISODATA. Para luego exponer los clasificadores cienciométricos como el método de Chen y finalmente los métodos con sistemas de aprendizaje.

Item type:	Journal article (Paginated)
Keywords:	Análisis de contenido textual. Análisis automático. Elementos matemáticos. Métodos estadísticos. Métodos probabilísticos. Redes neuronales. Coocurrencias. Métodos basados en centroides. Clustering. Textual content analysis. Automatic analysis. Statistical methods. Pro-babilistic methods. Neural nets. Co-occurrences. Core methods. Clustering.
Subjects:	I. Information treatment for information services B. Information use and sociology of information
Depositing user:	Anales de Documentación Revista
Date deposited:	28 Jul 2008
Last modified:	02 Oct 2014 12:12
URI:	http://hdl.handle.net/10760/11994

Check full metadata for this record

Downloads

Downloads per month over past year

Actions (login required)

View Item

Facebook

Twitter

RSS