Um modelo algébrico para representação, indexação e classificação automática de documentos digitais.

Oliveira, Elias, Ciarelli, Patrick Marques, Santos, Marcos Hercules and Costa, Bruno Oliveira da Um modelo algébrico para representação, indexação e classificação automática de documentos digitais. Revista Brasileira de Biblioteconomia e Documentação, 2007, vol. 3, n. 1, pp. 73-98. [Journal article (Paginated)]

[thumbnail of modelo-algebrico.pdf]

Download (29kB) | Preview

English abstract

This paper introduce the idea of representing, indexing and automatically classifying digital documents. The vectorial model of representing documents is simple and allows us to deal with the classification of a great amount of digital documents which were loaded daily in almost 35 Brazilian Digital Library of Thesis and Dissertation. We expect to have another 20 libraries by the end of this year. Using a sample of real documents, we compare this methodology of classification to that done by specialists. The results show that this methodology is promising in reducing the effort of specialists when performing such task.

Portuguese abstract

Apresenta a idéia da representação, indexação e classificação automática de documentos digitais. A representação de documentos via o modelo vetorial é simples e permite-nos lidar com classificação de uma grande quantidade de documentos os quais estão sendo carregados diariamente nas quase 35 bibliotecas digitais de tese e dissertação no Brasil. A expectativa é de termos outras 20 bibliotecas a mais na Ilista para o fim deste ano. Comparou-se a metodologia de classificação automática descrita nesse artigo, usando uma amostra de documentos reais, com aquela feita pelo especialista humano. Os resultados mostram que esta metodologia é promissora em se reduzir o esforço dos especialistas na realização dessa tarefa.

Item type: Journal article (Paginated)
Keywords: Indexação automática. Classificação automática. Inteligência Artificial. Modelos Estatísticos.
Subjects: L. Information technology and library technology > LM. Automatic text retrieval.
Depositing user: Marcos Hercules Santos
Date deposited: 19 Oct 2007
Last modified: 02 Oct 2014 12:09


ALVARENGA, L. A Teoria do Conceito Revisitada em Conexão com Ontologias e Metadados no Contexto das Bibliotecas Tradicionais e Digitais. DataGramaZero – Revista de Ciência da Informação, v. 2, n. 6, 2001. Disponível em: <>.

ANDRESEN, L. After Marc – What then. Library Hi-tech, v. 22, n. 1, p. 40–51, 2004.Disponível em:<>.

BAEZA-YATES, R.; RIBIERO-NETO, B. Modern Information Retrieval. 1. ed. New

York: Addison-Wesley, 1998.

BERRY, M. W. Survey of Text Mining: Clustering, Classification, and Retrieval. New York: Springer-Verlag, 2003.

BERRY, M. W.; DUMAIS, S. T.; O’BRIEN, G. W. Using Linear Algebra for Intelligent Information Retrieval. SIAM Review, v. 37, n. 4, p. 537–595, 1995.

BRIN, S.; PAGE, L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks and ISDN Systems, v. 30, n. 1-7, p. 107–117, 1998. Disponível em: <>.

CALLIOLI, C. A.; DOMINGUES, H. H.; COSTA, R. C. F. Álgebra Linear e Aplicações. 6.ed. São Paulo: Atual Editora, 1994.

CAMPOS, M. L. M.; CAMPOS, M. L. de A.; CAMPOS, L. M. Web Semântica e a Gestão de

Conteúdos Informacionais. In: MARCONDES, C. H. et al. (Ed.). Bibliotecas Digitais: Saberes e Práticas. 2. ed. Salvador/Brasília: UFBA/IBICT, 2006. cap. 3, p. 56–74.

CHARTIER, R. A Aventura do Livro – do Leitor ao Navegador – Conversações com Jean Lebrun & Roger Chartier. São Paulo: Ed. da UNESP, 1998.

CUNHA, M. B. A Biblioteca em Tempos de Internet. Janeiro 2005. Disponível em:


FERNEDA, E.; PINHEIRO, C. Representação Dinâmica de Documentos em Bibliotecas

Digitais. São Paulo, Novembro 2005.

FUJITA, M. S. L. A Identificação de Conceitos no Processo de Análise de Assunto para Indexação. Revista Digital de Biblioteconomia e Ciência da Informação, v. 1, n. 1, 2003. Disponível em: <>.

HAMMERSLEY, B. Developing Feeds with RSS and Atom. 1. ed. California, USA: O’Reilly, 2005.

HAYKIN, S. Neural Networks – A Comprehensive Foundation. 2. ed. New Jersey: Prentice Hall, 1998.

JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical Anaysis. New

Jersey: Prentice Hall, 1992.

KURAMOTO, H. Sintagmas Nominais: uma Nova Proposta para a Recuperação de

Informação. DataGramaZero – Revista de Ciência da Informação, v. 3, n. 1, 2002.

Disponível em: <>.

LANCASTER, F. W. Indexação e Resumos: Teoria e Prática. 2. ed. Illinois: University of Illinois, 2003.

MAMFRIM, F. P. B. Representação de Conteúdo via Indexação Automática em Textos

Integrais em Língua Portuguesa. Ci. Inf., v. 20, n. 2, p. 191–203, 1991.

MANGANO, S. XSLT Cookbook. 1. ed. New York: O’Reilly, 2002.

MARCONDES, C. H.; SAYÃO, L. F. Documentos Digitais e Novas Formas de Cooperação

entre Sistemas de Informação em C&T. Ci. Inf., Brasília, v. 37, n. 3, p. 42–54, 2002.

MOONEY, R. Comparative Experiments on Disambiguating Word Senses: An Illustration of the Role of Bias in Machine Learning. In: Brill, E.; Church, K. (Ed.). Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1996, Somerset, New Jersey. Proceedings… New Jersey: Association for Computational Linguistics, 1996. p. 82–91. Disponível em: <>.

NEWMAN, A. et al. Using Java. New York, USA: Que, 1996.

PACHECO, R. C. S.; KERN, V. M. Transparência e Gestão do Conhecimento por Meio de um Banco de Teses e Dissertações: a Experiência do PPGEP/UFSC. Ci. Inf., Brasília, v. 30, n. 3, p. 64–72, 2001.

PACHECO, R. C. S.; KERN, V. M. Uma Ontologia Comum para a Integração de Bases de

Informações e Conhecimento sobre Ciência e Tecnologia. Ci. Inf., Brasília, v. 30, n. 3, p. 56–63, 2001. Disponível em: <>.

PACKER, A. L. SciELO: uma Metodologia para Publicação Eletrônica. Ci. Inf., v. 27, n. 2,1998.

PEARL, J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible

Inference. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1988.

PIEDADE, M. A. R. Introdução á Teoria da Classificação. 2. ed. Rio de Janeiro:

Interciência, 1977.

POLTRONIERI, A.; OLIVEIRA, E. Finding Related Articles by a Bibliometric Approach. In: 9 International Congress on Medical Librarianship. Salvador: [s.n.], 2005. Disponível em: < Poltronieri-122720.pdf>.

RAMIRO, T. B. et al. Atribuindo Títulos de Assuntos na Categorização Automática de Documento. In: Congresso Brasileiro de Biblioteconomia, Documentação e Ciência da Informação, 21., 2005, Curitiba. Anais…Curitiba: ABPR, 2005. 1 CD.

RANGANATHAN, S. R. Five Laws of Library Science. 1. ed. [S.l.]: Stosius Inc/Advent Books Division, 1996.

SANTOS, M. H.; NASCIMENTO, L. A. de Lima do; OLIVEIRA, E. Mineração em

Metadados Aplicados ao Processo de Desenvolvimento de Coleções. In: Simpósio

Internacional de Bibliotecas Digitais. 3., 2005, Campinas. [Anais eletrônicos…] São Paulo: UNESP, 2005a. Disponível em<>

SANTOS, M. N. dos; COSTA, B. O. da; OLIVEIRA, E. Utilizando Comparações Ponderadas em Classificação Automática de Documentos. In: Simpósio Internacional de Bibliotecas Digitais. 3., 2005, Campinas. [Anais eletrônicos…] São Paulo: UNESP, 2005. Disponível em <>

SEBASTIANI, F. Machine Learning in Automated Text Categorization. ACM Computing

Surveys, v. 34, n. 1, p. 1–47, 2002. Disponível em:


SILVA, M. R. da; FUJITA, M. S. L. A Prática de Indexação: Análise da Evolução e

Tendências Teóricas e Metodológica. TransInformação, v. 0, n. 0, p. 133–161, 2004.

SVINGEN, B. Using Genetic Programming for Document Classification. In: Diane J. Cook (Ed.). Proceedings of the Eleventh International Florida Artificial Intelligence Research Society Conference. Sanibel Island, Florida, USA: AAAI Press, 1998,. Sanibel Island, Florida, USA. Proceedings...Florida: AAAI Press, 1998.

TEIXEIRA, C. M.; SCHIEL, U. A Internet e seu Impacto nos Processos de Recuperação da Informação. Ci. Inf., v. 26, n. 1, 1997.


Downloads per month over past year

Actions (login required)

View Item View Item