Aplicación del factor TF-IDF en el análisis semántico de una colección documental

Vuotto, Andrés and Fernandez, Gladys and Bogetti, Celeste Aplicación del factor TF-IDF en el análisis semántico de una colección documental. Biblios, 2015, n. 60. [Journal article (Unpaginated)]

[img] Text
227-1387-3-PB.pdf

Download (504kB)
[img] Text
227-1387-3-PB.pdf

Download (504kB)

English abstract

Objective. This paper describes the application of a tool for the semantic analysis of a document collection based on the use of term frequency–inverse document frequency (TF – IDF). Methodology. A system based on PHP and MySQL database for the management of a thesaurus, the calculation of TF – IDF (as an indicator of semantic weight) and for development a relevance tree (consisting of those concepts is developed most relevant issue analyzed). The tool was tested to the semantic analysis of a documentary collection of Psychology. Results. The system was able to identify the level of track presence: professional ethics, in a collection of documents Psychology program. Conclusions. The experience described confirms the viability of the tool for the semantic analysis of a documentary collection. It underlines the relevance and capacities of information professionals to develop this kind of tools for processing information. The authors suggests a special technical approach for use of scripts and information flows.

Spanish abstract

Objetivo. Describe la aplicación de una herramienta para el análisis semántico de una colección documental, basada en el uso de la frecuencia de término – frecuencia inversa de documento (TF-IDF). Metodología. Se desarrolla un sistema, basado en lenguaje PHP y bases de datos MySQL, para la gestión de un tesauro, del cálculo TF-IDF (como indicador de peso semántico) y para el desarrollo de un árbol de relevancia (conformado por aquellos conceptos más relevantes del tema analizado). Se evaluó la herramienta en el análisis semántico de una colección documental de Psicología. Resultados. El sistema logró identificar el nivel de presencia del tema: deontología profesional, en una colección los documentos del programa de Psicología. Conclusiones. La experiencia descrita confirma la viabilidad de la herramienta para el análisis semántico de una colección documental. Destaca la pertinencia y las capacidades de los profesionales de la información para el desarrollo de herramientas para el tratamiento de información. Los autores sugieren un especial abordaje técnico a partir del uso de scripts y de flujos de la información.

Item type: Journal article (Unpaginated)
Keywords: Análisis semántico; TF-IDF; Recuperación de información; Minería de datos; Extracción de información en bases de datos
Subjects: B. Information use and sociology of information > BH. Information needs and information requirements analysis.
I. Information treatment for information services > IE. Data and metadata structures.
L. Information technology and library technology > LL. Automated language processing.
Depositing user: Lic. Andrés Vuotto
Date deposited: 29 Oct 2016 23:07
Last modified: 29 Oct 2016 23:07
URI: http://hdl.handle.net/10760/30179

References

Baeza-Yates, R., & Ribeiro-Neto, B. (1999). Modern information retrieval. New York: ACM press.

Cabrera Diego, L. A. (2011). TF-IDF para la obtención automática de términos y su validación mediante Wikipedia. Tesis para la obtención del título de Ingeniero en Computación. Facultad de Ingeniería, Universidad Nacional Autónoma de México,

México D. F., México.

Cobo, A.; Rocha, R. & Alonso, M. (2009). Descubrimiento de conocimiento en repositorios documentales mediante técnicas de

minería de texto y swarm intelligence. Revista Electrónica de Comunicaciones y Trabajo de Asepuma, 10, 105-124.

Application of TF-IDF factor in the semant ic analysis of a documentary collection

Liberatore, G; Vuotto, A; Bogetti, C. & Hermosilla, A. (2011). Análisis de las relaciones existentes entre las asignaturas de

grado de ética y deontología de las carreras de psicología de Argentina mediante la técnica del apareo bibliográfico

(bibliographic coupling). Ponencia presentada en el V Congreso Marplatense de Psicología. La Psicología en el porvenir de la

cultura. El semejante: entre el enemigo y el desamparado. Mar del Plata, Argentina.

Pérez-Iglesias, J., Fresno, V., & Pérez-Agüera, J. R. (2008). Funciones de Ranking basadas en Lógica Borrosa para IR

estructurada. Procesamiento del lenguaje Natural, 41, 173-180.

Ropero Montejo, F. T. (2014) Método para la evaluación automática de la organización de textos argumentativos. Tesis para la

obtención del título Magister en Ingeniería de Sistemas y Computación. Facultad de Ingeniería, Departamento de Ingeniería de

Sistemas e Industrial, Universidad Nacional de Colombia, Bogotá, Colombia.

The Futures Group (1999). Arbol de pertinencias y análisis morfológico.

Vallez, M & Pedraza-Jimenez, R (2007). El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y

áreas afines. Hipertext.net, 5. Disponible en: http://www.upf.edu/hipertextnet/numero-5/

Vargas Rosales, A. A. (2015). Desarrollo de una herramienta que permita la extracción de una taxonomía de un conjunto de

documentos de un dominio específico usando CFinder para la extracción de conceptos clave. Tesis para la obtención del título

de Ingeniero Informático. Facultad de Ciencias e Ingeniería, Pontificia Universidad Católica del Perú, Lima, Perú.

Vuotto, A & Bogetti, C (2014, octubre). Diseño de un instrumento de investigación basado en el cálculo de pesos de términos a

partir del factor TF-IDF: resultados preliminares. Ponencia presentada en el X Encuentro de Directores y IX de Docentes de

Bibliotecología y Ciencia de la Información del MERCOSUR, Buenos Aires, Argentina.


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item