Uma Plataforma para a Extração, Integração e Análises de Dados Científicos em Acesso Aberto

Dias, Patricia Mascarenhas and Rodrigues Dias, Thiago Magela Uma Plataforma para a Extração, Integração e Análises de Dados Científicos em Acesso Aberto., 2019 [Preprint]

[thumbnail of Thiago_Plataforma_EDICIC2019Barcelona.pdf]
Preview
Text
Thiago_Plataforma_EDICIC2019Barcelona.pdf

Download (171kB) | Preview

English abstract

A new generation of services available mainly on the Web is changing the way of disseminating and making scientific and technological production available. There is now a trend that reinforces the exchange of information and collaboration between people. With the increasingly intense competition among research institutions, it is important for its members to determine the scope of their publications and the quality of their work compared to those of other groups, as well as to identify potential collaborators with the intention of doing work in collaboration with a view to boosting their scientific production and obtaining better results in their research. However, the large volume of scientific production data available in different formats and in different repositories makes it difficult to carry out studies and queries by users who need a unified view of this data, for example, to enable the identification of groups of individuals who are working with a particular theme in different institutions or regions. In addition, the growth and evolution of the Web gave rise to a large amount of unstructured, heterogeneous and stored textual data, with no concern for standardization in different repositories. Bibliometric studies, especially in large bibliographic repositories, are not trivial tasks considering the amount of data to be analyzed and the characteristics of the repositories, which, for the most part, do not have a defined standard. Therefore, it is evident the difficulty that exists to carry out comprehensive studies that can present in a comprehensive way analyzes on all the scientific production of a large group of individuals that are linked to different institutions or who work in different areas, such as the of all researchers in a given country. In this way, this work presents a study about the scientific production registered in the curricula registered in the Lattes Platform, thus enabling the framework proposed in this work, can also be used in different sources of data in open access for bibliometric studies based on scientific collaborations.

Portuguese abstract

Uma nova geração de serviços disponíveis principalmente na Web está mudando a forma de divulgar e disponibilizar a produção científica e tecnológica. Existe, atualmente, uma tendência que reforça a troca de informações e a colaboração entre as pessoas. Com a competição cada vez mais acirrada entre as instituições de pesquisa, torna-se importante para seus integrantes determinar a abrangência de suas publicações e a qualidade de seus trabalhos quando comparados aos de outros grupos, bem como identificar potenciais colaboradores com o intuito de realizar trabalhos em colaboração visando impulsionar a sua produção científica e obter melhores resultados em suas pesquisas. No entanto, o grande volume de dados sobre produção científica disponível em diferentes formatos e em diferentes repositórios dificulta a realização de estudos e consultas por parte de usuários que necessitam de uma visão unificada desses dados para, por exemplo, possibilitar a identificação de grupos de indivíduos que estejam trabalhando com determinado tema em diferentes instituições ou regiões. Além disso, o crescimento e a evolução da Web deram origem a uma grande quantidade de dados textuais pouco estruturados, heterogêneos e armazenados, sem nenhuma preocupação com padronização em diferentes repositórios. Estudos bibliométricos, principalmente em grandes repositórios bibliográficos, não são tarefas triviais tendo em vista a quantidade de dados a serem analisados e as características dos repositórios, que, em sua maioria, não possuem um padrão definido. Logo, fica evidente a dificuldade que existe para se realizar estudos abrangentes que possam apresentar de forma ampla análises sobre toda a produção científica de um grande conjunto de indivíduos que estejam vinculados a diferentes instituições ou que atuam em áreas distintas, como, por exemplo, o conjunto de todos os pesquisadores de um determinado país. Diante disso, este trabalho apresenta um estudo sobre a produção científica registrada nos currículos cadastrados na Plataforma Lattes, possibilitando, desta forma, que o framework proposto neste trabalho, possa também ser utilizado em fontes distintas de dados em acesso aberto para estudos bibliométricos e baseados em colaborações científicas.

Item type: Preprint
Keywords: Open Access, Lattes Platform, Data Extraction.
Subjects: H. Information sources, supports, channels. > HS. Repositories.
I. Information treatment for information services > IM. Open data
Depositing user: Prof. Thiago Magela Rodrigues Dias
Date deposited: 20 Jun 2019 21:32
Last modified: 20 Jun 2019 21:32
URI: http://hdl.handle.net/10760/38672

References

BRANDÃO, M. A. et al. Using link semantics to recommend collaborations in academic social networks. In: PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON WORLD WIDE WEB COMPANION, 22, 2013, Anais …, Rio de Janeiro, p. 833-840, 2013.

CARRILHO-JUNIOR, J. R. Desenvolvimento de uma Metodologia para Mineração de Textos. 2007. 113 p. (Mestrado). Departamento de Engenharia Elétrica, Pontífica Universidade Católica do Rio de Janeiro, 2007.

CHRISTEN, P. Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Springer, Berlin, 2012.

DING, Y. Scientific collaboration and endorsement: Network analysis of coauthorship and citation networks. Informetrics, v. 5, n. 1, p. 187-203, 2011.

HOFFNAGEL, J. C. A prática de citação em trabalhos acadêmicos. Cadernos de Linguagem e Sociedade, v. 10, n. 1, p. 71, 2009.

LAENDER, A. H. F. et al. Assessing the research and education quality of the top Brazilian Computer Science graduate programs. SIGCSE Bulletin, v. 40, n. 2, p. 135-145, 2008.

LANE, J. Let's make science metrics more scientific. Nature, v. 464, n. 7288, p. 488-489, 2010.

Liu, B. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Second Edition, Springer, Berlin, 2011.

LOPES, G. R.; et al. Ranking Strategy for Graduate Programs Evaluation. In: INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY AND APPLICATIONS - IEEE, 7, Anais… Austrália, p. 59-64, 2011.

MUGNAINI, R. et al. Comunicação científica no Brasil (1998-2012): indexação, crescimento, fluxo e dispersão. Transinformação, v. 26, n. 3, p. 239-252, 2014.

REVOREDO, K. et al. Mining scientific literature for analysis of collaboration in research communities. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING, 1, Curitiba, Anais… Curitiba, 2012.

STRÖELE, V.; ZIMBRÃO, G.; SOUZA, J. M. Análise de redes sociais científicas: modelagem multi-relacional. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING, 1, Curitiba, Anais … Curitiba, 2012.

WANDERLEY, A. J. et al. Identificando correlações entre métricas de Análise de Redes Sociais e o h-index de pesquisadores de Ciência da Computação. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS DND MINING, 3, Brasília, Anais… Brasília, 2014.


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item