Moreiro González, José Antonio Aplicaciones al análisis automático del contenido provenientes de la teoría matemática de la información. Anales de Documentación, 2002, vol. 5, pp. 273-286. [Journal article (Paginated)]
Preview |
PDF
ad0515.pdf Download (216kB) | Preview |
English abstract
This paper analyzes the most important proposals following the Shannon and Weaver's Mathematic Theory of Communication that have influenced in pro-ceedings of automatic content analysis. It's explained the methodological applica-tions of this theory in our discipline, especially about information retrieval. After this, describes the mathematical models applied to automatic content analysis: Laws of Zipf and Goffman, anti-dictionaries to permuted indexes, Statistical Inde-xation of terms by frequencies, n-grams and stemming algorisms. Also studies the methods of relation and classification like clusters by value of discrimination and by relevance of terms: for example, methods of relations based in Graph Theory, mass core, the K-means or incremental K-means, and the ISODATA algorism. Fi-nally, explains the scientometrics indicators as Chen's coowording and methods with learning systems.
Spanish abstract
Reflexión sintética para revisar las propuestas más relevantes que, si-guiendo la teoría matemática de la comunicación de Shannon y Weaver, hayan afectado a los procedimientos del análisis automático del contenido documental. Partiendo del empleo de la teoría matemática en Ciencia de la Información se ex-plican sus aplicaciones metodológicas en nuestra especialidad, en especial respecto a las técnicas de recuperación de la información. Para después describir los mode-los matemáticos aplicados al análisis automático del contenido: leyes de Zipf y Goffman, antidiccionarios para índices permutados, Indización Estadística de Tér-minos por Frecuencias, algoritmos n-grams y de stemming, así como los referidos a los métodos de agrupación y clasificación como clusters por valor de discrimina-ción y por relevancia de los términos como son los métodos de agrupación basados en Grafos Teóricos, los basados en Centros de masas, el algoritmo K-vecinos o K-medias, el K-vecinos axial o incremental, y el algoritmo ISODATA. Para luego exponer los clasificadores cienciométricos como el método de Chen y finalmente los métodos con sistemas de aprendizaje.
Item type: | Journal article (Paginated) |
---|---|
Keywords: | Análisis de contenido textual. Análisis automático. Elementos matemáticos. Métodos estadísticos. Métodos probabilísticos. Redes neuronales. Coocurrencias. Métodos basados en centroides. Clustering. Textual content analysis. Automatic analysis. Statistical methods. Pro-babilistic methods. Neural nets. Co-occurrences. Core methods. Clustering. |
Subjects: | I. Information treatment for information services B. Information use and sociology of information |
Depositing user: | Anales de Documentación Revista |
Date deposited: | 28 Jul 2008 |
Last modified: | 02 Oct 2014 12:12 |
URI: | http://hdl.handle.net/10760/11994 |
Downloads
Downloads per month over past year
Actions (login required)
View Item |