Minería de datos sobre streams de redes sociales, una herramienta al servicio de la Bibliotecología

Jaramillo Valvuena, Sonia and Cardona, Sergio Augusto and Fernandes, Alejandro Minería de datos sobre streams de redes sociales, una herramienta al servicio de la Bibliotecología. Información, Cultura y Sociedad, 2015, n. 33, pp. 63-74. [Journal article (Paginated)]

[img] Text
1182-3895-1-PB.pdf - Published version

Download (177kB)

English abstract

The Groupware systems are a valuable source for disseminating information in contexts in which the participation of a group of people is required to perform a task. One such context is the Library, Archives and Documentation. The interactions among users and professionals in this area, who use tools such as Twitter, Facebook, RSS feeds and blogs, generate a large amount of unstructured data streams. They can be used to the problem of mining topic-specific influence, graph mining, opinion mining and recommender systems, thus achieving that libraries can obtain maximum benefit from the use of Information and Communication Technologies. From the perspective of data stream mining, the processing of these streams poses significant challenges. The algorithms must be adapted to problems such as: high arrival rate, memory requirements without restrictions, diverse sources of data and concept-drift. In this work, we explore the current state-of-the-art solutions of data stream mining originating from social networks, specifically, Facebook and Twitter. We present a review of the most representative algorithms and how they contribute to knowledge discovery in the area of librarianship. We conclude by presenting some of the problems that are the subject of active research.

Spanish abstract

Los sistemas de soporte al trabajo colaborativo son herramientas valiosas en contextos en los cuales se requiere la participación de un grupo de personas para llevar a cabo una determinada tarea. Uno de estos contextos es la Bibliotecología, Archivística y Documentación. Las interacciones entre los usuarios y profesionales de esta área, mediante el uso de herramientas tales como Twitter, Facebook, fuentes RSS y blogs, generan grandes flujos de datos (streams) no estructurados. Estos streams pueden ser estudiados para analizar aspectos tales como influencia, relaciones de cercanía, opinión y generación de recomendaciones, logrando de esta forma que las bibliotecas obtengan otros beneficios del uso de las tecnologías de información y comunicación. Desde la perspectiva de la minería de datos, el procesamiento de estos streams plantea importantes desafíos. El uso de algoritmos de minería en este contexto, implica que en estos se deban considerar aspectos como la adaptación a la alta velocidad en que llegan los datos, la diversidad de las fuentes de datos y su estructura, la variabilidad de los datos en el tiempo y el trabajo sin restricciones de memoria. Este artículo revisa el estado del arte en lo referente a algoritmos de minería de datos sobre streams originados en redes sociales, específicamente, Facebook y Twitter. Se presenta una revisión de las técnicas más representativas de clasificación y agrupamiento, y de cómo cada una de ellas aporta al descubrimiento de conocimiento en el área de la Bibliotecología. Para concluir se presentan algunos de los problemas que son objeto de investigación activa.

Item type: Journal article (Paginated)
Keywords: Minería de flujos de datos, Clasificación, Clustering, Cambio de concepto, Sistemas de soporte al trabajo colaborativo, Data stream mining, Classification, Clustering, Concept-drift
Subjects: I. Information treatment for information services
Depositing user: Graciela Giunti
Date deposited: 28 Jun 2016 12:01
Last modified: 28 Jun 2016 12:01
URI: http://hdl.handle.net/10760/29540

References

Anguiano Hernández, E. 2011. Introducción a la Minería de Información en Redes Sociales <http://ccc.inaoep.mx/labtl/uploads/Main/intro-mineria-redes-sociales.pdf>. [Consulta: 20 abril 2015].

Apache Software Foundation. 2013. S4 distributed stream computing platfom. <http://incubator.apache.org/s4/>. [Consulta: 20 abril 2015].

Apache Software Foundation. 2014. Storm, distributed and fault-tolerant realtime computation. <https://storm.incubator.apache.org/>. [Consulta: 20 abril 2015].

Aston, N.; T. Munson; J. Liddle; G. Hartshaw y D. Livingston. 2014. Sentiment Analysis on the Social Networks Using Stream Algorithms. En Journal of Data Analysis and Information Processing. Vol. 2, 60-66.

ATξT Labs. 2013. An Online Visual Search Engine for Mining Streaming Text Data in Real-Time. <http://www.research.att.com/techdocs/TD_101174.pdf> [Consulta: 20 abril 2015].

Balasubramanyan, Ramnath; Brendan O’Connor; Bryan R. Routledge y Noah A. Smith. 2010. From Tweets to Polls : Linking Text Sentiment to Public Opinion Time Series. En Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Association for the Advancement of Artificial Intelligence. <https://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1536/1842> [Consulta: 20 abril 2015].

BiblioInstruccion. 2010. Tweeter, las bibliotecas y el almacenaje del conocimiento de la Web 2.0. <http://biblioinstruccion.blogspot.com/2010/10/tweeter-las-bibliotecas-y-el-almacenaje.html> [Consulta: 20 abril 2015].

Bifet, A. y R. Kirkby, 2009. Massive Online Analysis Manual. <http://www.cs.waikato.ac.nz/~abifet/MOA/Manual.pdf>. [Consulta: 20 abril 2015].

Bifet, A.; G. Holmes; B. Pfahringer; R. Kirkby y R. Gavalda. 2009. New Ensemble Methods for Evolving Data Streams. En Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM. p. 139-148.

Bifet, Albert y E. Frank. 2010. Sentiment Knowledge Discovery in Twitter Streaming Data. <http://www.cs.waikato.ac.nz/~ml/publications/2010/Twitter-crc.pdf>. [Consulta: 20 abril 2015].

Bifet, Albert; Geoffrey Holmes; Bernhard Pfahringer y Ricard Gavaldà. 2011. Detecting Sentiment Change in Twitter Streaming Data. En Diethe, Tom; José L. Balcázar; John Shawe-Taylor y Cristina Tîrnauca, ed. Proceedings of the Second Workshop on Applications of Pattern Analysis (2º: 19-21 Octubre 2011: Castro Urdiales, España,) WAPA. JMLR Proceedings 17, p. 5-11. JMLR.org. <http://dblp.uni-trier.de/db/journals/jmlr/jmlrp17.html#BifetHPG11>. [Consulta: 20 abril 2015].

Callau Zori, M. 2013. Algoritmos de agrupación para flujos de datos en entornos centralizados y distribuidos. <http://oa.upm.es/22467/>. [Consulta: 20 abril 2015].

Candás Romero, J. 2006. Minería de datos en bibliotecas: bibliominería. <http://bid.ub.edu/17canda2.htm>. [Consulta: 20 abril 2015].

Chau, M. 2000. Mediating off-site electronic reference services : human-computer interactions between librarians and web mining technology. <http://osulibrary.oregonstate.edu/mediating-site-electronic-reference-services-human-computer interactions-between-librarians-and-web>. [Consulta: 20 abril 2015].

Chaudhry, Nauman; Kevin Shaw y Mahdi Abdelguerfi. 2005. Stream data management. Nueva York: Springer. Kluwer international series on advances in database system. Vol. 30.

Domingos, Pedro y Geoff Hulten. 2001. Catching up with the data: Research issues in mining data streams. Trabajo presentado en Workshop on Research Issues in Data Mining and Knowledge Discovery, Santa Barbara, CA el 20 de mayo de 2001.

Dorsey, J.; N. Glass; E. Williams y B. Stone. 2006. Twitter. <http://twitter.com>. [Consulta: 20 abril 2015].

Doszkocs, T. 1991. Neural networks in libraries. <http://web.simmons.edu/~chen/nit/NIT%2791/027-dos.htm>. [Consulta: 20 abril 2015].

Ellis, Clarence A.; Simon J. Gibbs y Gail Rein. 1991. Groupware: some issues and experiences. En: Communications of the ACM. Vol. 34, no. 1, 39-58. <http://doi.acm.org/10.1145/99977.99987>. [Consulta: 20 abril 2015].

Fayyad, Usama; Gregory Piatetsky Shapiro y Padhraic Smyth. 1996. From Data Mining to Knowledge Discovery in Databases. En AI Magazine. Vol. 17, no. 3, 37-54. <http://www.aaai.org/ojs/index.php/aimagazine/article/view/1230> [Consulta: 20 abril 2015].

Finlay, J.; R. Pears y A. M. Connor. 2014. Data stream mining for predicting software build outcomes. <http://aut.researchgateway.ac.nz/bitstream/handle/10292/7086/IST_DataStreamMining.pdf?sequence=5>. [Consulta: 20 abril 2015].

Henríquez, P.; M. Fandos, y M. Gisbert. 2000. La comunicación asíncrona en un curso del Proyecto Intercampus. En Pérez, R., coord. Redes, multimedia y diseños virtuales. Oviedo: Departamento de Ciencias de la Educación, p. 269-276.

Herrera Varela, R. 2006. Bibliomining: minería de datos y descubrimiento de conocimiento en bases de datos aplicados al ámbito bibliotecario. <http://bibliotecarios.cl/conferencia_2006/C2006_019.pdf>. [Consulta: 20 abril 2015].

Jiang, Nan y Le Gruenwald. 2006. Research issues in data stream association rule mining. En SIGMOD Record. Vol. 35, no. 1, 14-19.

Margaix-Arnal, D. 2008. Las bibliotecas universitarias y Facebook: cómo y por qué estar presentes. En El profesional de la información. Vol. 17, no. 6, 589-601.

Nicholson, S. 2005. The Basis for Bibliomining: Frameworks for Bringing Together Usage-Based Data Mining and Bibliometrics through Data Warehousing in Digital. <http://bibliomining.com/nicholson/nicholsonbibliointro.html>. [Consulta: 20 abril 2015].

Peña, L. M. 2013. El bibliotecario web 2.0. <http://bibliotecahoy.blogspot.com/2013/10/el-bibliotecario-web-20.html>. [Consulta: 20 abril 2015].

Popovici, Robert; Andreas Weiler y Michael Grossniklaus. 2014. On-line Clustering for Real-Time Topic Detection in Social Media Streaming Data. En Papadopoulos, S.; D. Corney y L. Aiello, eds. Proceedings of the SNOW 2014 Data Challenge, (8 abril 2014: Seoul, Korea). <http://ceur-ws.org/Vol-1150/popovici.pdf> [Consulta: 20 abril 2015].

Seven, G. 2015. Significado de Tweet. <http://www.significados.com/tweet/>. [Consulta: 20 abril 2015].

Twitter, Inc. 2014. About Twitter. <https://twitter.com/>. [Consulta: 20 abril 2015].

University of Waikato. 2014. MOA Massive Online Analysis. <http://moa.cms.waikato.ac.nz/>. [Consulta: 20 abril 2015].

Uribe Tirado, Alejandro y Andrés Felipe Echavarría Ramírez. 2008. Facebook como red de profesionales de bibliotecología documentación y archivística en Iberoamérica. En El profesional de la información. Vol. 17, no. 6, 670-676. <http://www.elprofesionaldelainformacion.com/contenidos/2008/noviembre/11.pdf> [Consulta: 20 abril 2015].

Wood, R.; I. Zheludev y P. Treleaven. 2014. Mining Social Data with UCL’s SocialSTORM Platform. <https://www.academia.edu/4144373/Mining_Social_Data_with_UCLs_Social_STORM_Platform>. [Consulta: 20 abril 2015].

Zuckerberg, M. 2004. Facebook. <https://www.facebook.com/?_rdr>. [Consulta: 20 abril 2015].


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item