Bográn, Astrid-Paola, Alonso-Berrocal, José-Luis and G. Figuerola, Carlos Análisis léxico sobre los tweets de Twitter., 2013 . In Avances en Informática y Automática. Séptimo Workshop, Salamanca, 2013. [Conference paper]
Text (Texto en Español)
20132_bogran2013analisis.pdf - Published version Available under License Creative Commons Attribution Non-commercial Share Alike. Download (1MB) |
English abstract
This paper provides an approach on Lexical analysis, focused on the tweets of Twitter. Shows the development of a web application that can connect to Twitter involving the handling of a classifier text on the web for discover the essential characteristics tweets selected, either individually or in mass, all running in real time or adding content to a database, that allow the user reprocess the tweets. The use of stemming and tokenization techniques help process the tweet cleaner and without noise. For the classification have been proposed the Naïve Bayes algorithm, and created several dictionaries in XML based on the areas of Science and Technology, as well as dictionaries that help identify empty words.
Spanish abstract
Este documento ofrece un acercamiento sobre el Análisis léxico enfocado en los tweets de Twitter ,presentando el desarrollo de una aplicación web que se podrá conectar con Twitter involucrando el manejo de un clasificador de texto sobre la web, y de esta manera poder descubrir las características esenciales de los tweets seleccionados ya sea de forma individual o masiva, todo esto ejecutándose en tiempo real o bien agregando el contenido a la base de datos que ofrece la aplicación para posteriormente tratar los tweets al gusto del usuario. Durante el proceso de investigación se han utilizado técnicas de stemming y tokenización que ayudan a procesar el tweet de forma más limpia y sin ruido; igualmente, para la clasificación se han creado varios diccionarios en formato XML basados en las áreas de ciencia y tecnología, también diccionarios que ayuden a identificar palabras vacías; para realizar la clasificación se propuso el algoritmo Naïve Bayes.
Item type: | Conference paper |
---|---|
Keywords: | Lexical analysis, Twitter, Naïve Bayes algorithm, Análisis Léxico, Twitter, Algoritmo Naïve Bayes |
Subjects: | H. Information sources, supports, channels. > HT. Web 2.0, Social networks L. Information technology and library technology > LL. Automated language processing. |
Depositing user: | Carlos G. Figuerola |
Date deposited: | 24 May 2016 09:55 |
Last modified: | 24 May 2016 09:55 |
URI: | http://hdl.handle.net/10760/29304 |
References
Downloads
Downloads per month over past year
Actions (login required)
View Item |