Identificación de nombres de genes en la literatura biomédica

Galvez, Carmen and De-Moya-Anegón, Félix Identificación de nombres de genes en la literatura biomédica., 2006 . In I Conferencia Internacional sobre Ciencias y Tecnologías Multidisciplinares de la Información (InSciT2006), Mérida (Spain), 25-28 October 2006. [Conference paper]

[thumbnail of Identificacin_de_Nombres_de_Genes_en_la_Literatura_Biomdica.pdf]
Preview
PDF
Identificacin_de_Nombres_de_Genes_en_la_Literatura_Biomdica.pdf

Download (575kB) | Preview

English abstract

An enormous complexity arises in the identification of gene terms in biomedical literature. With the discovery of huge quantities of genes, and the Human Genome Project (HGP), the scientists have remained without easy and intuitive names. In the genomic information many forms of variation occur due to lack of standardization of gene names. Although nomenclature and ontological specifications are valuable for processing, efforts toward the systematic naming of genes have been made, but the difficulty still exists. The development of procedures that resolve these problems would benefit the progress of molecular pathways, the extraction of gene-gene and gene-disease interactions, the delimitation of the structure of the genomic research domain through gene-document relations and the knowledge discovery that is hidden in the biomedical literature. Our proposal relies on approximate pattern-matching techniques, adopted of natural language processing (NLP), to find and filter gene variants matches. To perform the gene-matching, we apply finite-state transducers (FSTs). To implement our prototype system, we were using publicly available gene and text databases, such as FlyBase (biological database of the Drosophila genome projects) and PubMed (US National Library of Medicine).

Spanish abstract

Una complejidad enorme se presenta en la identificación de los términos de los genes en literatura biomédica. Con el descubrimiento de cantidades enormes de genes, y el proyecto Genoma humano (HGP), los científicos están sin tener nombres fáciles e intuitivos. En la información genómica se producen muchas variaciones debido a la carencia de estandarización de los nombres del gene. Aunque la nomenclatura y las especificaciones ontológicas son valiosas y se ha avanzado hacia el nombramiento sistemático de genes, todavía existe dificultad. El desarrollo de procedimientos que resuelvan estos problemas beneficiaría el progreso de los caminos moleculares, conocer las interacciones gene-gene y gene-enfermedad, la delimitación de la estructura de la investigación del dominio genómico, obteniendo relaciones gene-documento y el descubrimiento del conocimiento que se oculta en la literatura biomédica. Nuestra propuesta se basa en las técnicas de contraste aproximado de patrones, adoptadas de las técnicas de proceso del lenguaje natural (NLP), para encontrar y filtrar variantes de los genes hallados. Para realizar el contraste o emparejamiento de genes, aplicamos los transductores de estado finito (FSTs). Para poner en práctica nuestro prototipo, utilizamos las bases de datos de genes y de texto disponibles públicamente, tales como FlyBase (la base de datos del proyecto del genoma de la drosophila) y PubMed (Medline, producida por la Biblioteca Nacional de Medicina, NLM, de los EUA).

Item type: Conference paper
Keywords: Natural Language Processing, Finite-State Transducers, BioBibliometrics, Proceso de lenguaje natural, NPL, Transductores de estado finito, Genoma, BioBibliometría
Subjects: B. Information use and sociology of information > BG. Information dissemination and diffusion.
Depositing user: Carmen Galvez
Date deposited: 19 Jan 2007
Last modified: 02 Oct 2014 12:06
URI: http://hdl.handle.net/10760/8817

References

Stapley, B. J.; Benoit, G. "Biobibliometrics: Information Retrieval and Visualization from Co-Occurrence of Gene Names in Medline Abstracts". Proc. of Pacific Symposium on Biocomputing, pp. 529-540, 2000.

Jenssen, T.-K.; Laegreid, A.; Komorowski, J.; Hovig, E. A literature network of human genes for highthroughput analysis of gene expression. Nature Genetics, 28 (1), pp. 21-28, 2001.

Boyack, K.; Mane, K.; Börner, K. “Mapping Medline Papers, Genes, and Proteins Related to Melanoma Research." Proc. of Eight International Conference on Information Visualization, pp. 965-971, 2004.

Galvez, C.; Moya-Anegón, F. "Extracción y normalización de entidades genómicas en textos biomédicos: una propuesta basada en transductores gráficos." Proc. of I Conferência Ibérica de Sistemas e Tecnologias de Informação (CISTI), 2006.

Krauthammer, M.; Rzhetsky, A.; Morozov, P.; Friedman, C. Using BLAST for identifying gene and protein names in journal articles. Gene, 259, pp. 245-252, 2000.

Fukuda, K.; Tsunoda, T.; Tamura, A.; Takagi, T. "Toward Information Extraction: Identifying Protein Names From Biological Papers." Proc. of the Pacific Symposium on Biocomputing, pp. 705-716, 1998.

Olsson, F.; Eriksson, G.; Franzén, K.; Asker, L.; Liden, P. "Notions of correctness when evaluating protein name taggers." Proc. of the 19th International Conference on Computational Linguistics, pp. 765-771, 2002.

Collier, N.; Nobata, C.; Tsujii, J. "Extracting the Names of Genes and Gene Products with a Hidden Markov Model." Proc. of the 18th International Conference on Computational Linguistics, pp. 201-207, 2000.

Roche, E.; Schabes, Y. Finite State Language Processing. Cambridge, Massachusetts: MIT Press, 1997.

Silberztein, M. "The Lexical Analysis of Natural Language." In: Roche, E.; Schabes, Y. (Eds.), Finite-State Processing. Cambridge, Massachusetts: MIT Press, 1997.


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item