Análisis léxico sobre los tweets de Twitter

Bográn, Astrid-Paola and Alonso-Berrocal, José-Luis and G. Figuerola, Carlos Análisis léxico sobre los tweets de Twitter., 2013 . In Avances en Informática y Automática. Séptimo Workshop, Salamanca, 2013. [Conference paper]

[img] Text (Texto en Español)
20132_bogran2013analisis.pdf - Published version
Available under License Creative Commons Attribution Non-commercial Share Alike.

Download (1MB)

English abstract

This paper provides an approach on Lexical analysis, focused on the tweets of Twitter. Shows the development of a web application that can connect to Twitter involving the handling of a classifier text on the web for discover the essential characteristics tweets selected, either individually or in mass, all running in real time or adding content to a database, that allow the user reprocess the tweets. The use of stemming and tokenization techniques help process the tweet cleaner and without noise. For the classification have been proposed the Naïve Bayes algorithm, and created several dictionaries in XML based on the areas of Science and Technology, as well as dictionaries that help identify empty words.

Spanish abstract

Este documento ofrece un acercamiento sobre el Análisis léxico enfocado en los tweets de Twitter ,presentando el desarrollo de una aplicación web que se podrá conectar con Twitter involucrando el manejo de un clasificador de texto sobre la web, y de esta manera poder descubrir las características esenciales de los tweets seleccionados ya sea de forma individual o masiva, todo esto ejecutándose en tiempo real o bien agregando el contenido a la base de datos que ofrece la aplicación para posteriormente tratar los tweets al gusto del usuario. Durante el proceso de investigación se han utilizado técnicas de stemming y tokenización que ayudan a procesar el tweet de forma más limpia y sin ruido; igualmente, para la clasificación se han creado varios diccionarios en formato XML basados en las áreas de ciencia y tecnología, también diccionarios que ayuden a identificar palabras vacías; para realizar la clasificación se propuso el algoritmo Naïve Bayes.

Item type: Conference paper
Keywords: Lexical analysis, Twitter, Naïve Bayes algorithm, Análisis Léxico, Twitter, Algoritmo Naïve Bayes
Subjects: H. Information sources, supports, channels. > HT. Web 2.0, Social networks
L. Information technology and library technology > LL. Automated language processing.
Depositing user: Carlos G. Figuerola
Date deposited: 24 May 2016 09:55
Last modified: 24 May 2016 09:55
URI: http://hdl.handle.net/10760/29304

References

Ronald S Burt, M K, Social Network Analysis Foundations and Frontiers on Advantage. University of Chicago, University College London, University of Cambridge, 2013.

Semiocast, 2012. [Internet; descargado 20-abril-2013: http://semiocast.com].

J. Z. Maggie Johnson, Lexical Analysis. Stanford University, California, 2008.

K. D. Benavides, Procesamiento de Texto. 2008.

linqtotwitter, “2006-2013 microsoft,” 2013. [Internet; descargado 20-abril-2013: http://linqtotwitter.codeplex.com].

OAuth, 2007. [Internet; descargado 20-abril-2013: http://oauth.net].

M. Bramer, “Introduction to classification: Naïve bayes and nearest neighbour,” in Principles of Data Mining, Undergraduate Topics in Computer Science, pp. 21–37, Springer-Verlag, London, 2013.

V. K.-H. XindongWu, “Top 10 algorithms in data mining,” in IEEE International Conference on Data Mining, p. 37, Verlag London Limited, Springer, 2007.

J. Kagström, uClassify Classification Server Manual. Spring, SMid Sweden: Mid Sweden University, 2005.

M. Porter, Strategy and the Internet. Harvard Business Review, 2001.

García, C., Alonso J. L, “Clasificación automática de documentos. un caso práctico,” tech. rep., Instituto Universitario de estudios en Ciencia y Tecnología. España: Universidad de Salamanca, 2012.

G. A. Miller, 2012. [Internet; descargado 16-mayo-2013: http://wordnet.princeton.edu].


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item