Reconocimiento y control de expresiones lingüísticas por medio de transductore de estado-infinito

Galvez, Carmen . Reconocimiento y control de expresiones lingüísticas por medio de transductore de estado-infinito., 2006 University of Granada (Spain). [Book]

[img]
Preview
PDF
Tesis-Galvez.pdf

Download (2MB) | Preview

English abstract

Purpose – To evaluate the accuracy of conflation methods based on Finite-State Transducers (FSTs). Design/methodology/approach – Incorrectly lemmatized and stemmed forms may lead to the retrieval of inappropriate documents. Experimental studies to date have focused on retrieval performance, but very few on conflation performance. The process of normalization we used involved a linguistic toolbox that allowed us to construct, through graphic interfaces, electronic dictionaries represented internally by FSTs. The lexical resources developed were applied to a Spanish test corpus for merging term variants in canonical lemmatized forms. Conflation performance was evaluated in terms of an adaptation of recall and precision measures, based on accuracy and coverage, not actual retrieval. The results were compared with those obtained using a Spanish version of the Porter algorithm. Findings – We come to the conclusion that the main strength of lemmatisation using finite-state technology is its accuracy, whereas its main limitation is the underanalysis of variant forms. Originality/value –The report outlines the potential of transducers in their application to normalization processes.

Spanish abstract

El objetivo principal de este trabajo es crear bases de información lingüísticas: Diccionarios y Gramáticas electrónicas, que se puedan utilizar por mecanismos automáticos de análisis para la identificación y agrupación de variantes léxicas y sintácticas en idioma español. El objetivo potencial de estas herramientas sería mejorar las entradas a los índices de los sistemas de Recuperación de Información (RI), con técnicas procedentes del Procesamiento de Lenguaje Natural (PLN). Bajo este planteamiento hemos formulado hipótesis explicativas sobre las estructuras de las variantes lingüísticas, que posteriormente hemos comprobado y evaluado empíricamente en un corpus de verificación. Para la formulación de las hipótesis hemos empleado Expresiones y Relaciones Regulares, como mecanismo automático de control hemos utilizado una aplicación informática basada en Transductores de Estado-Finito. Con este procedimiento se han obtenido los siguientes resultados: a) equiparar Formas flexionadas a Formas controladas, por medio de las bases de información léxicas, consistentes en Diccionarios electrónicos con 61659 entradas en total; b) equiparar variantes estructurales de Sintagmas Nominales con estructuras controladas, por medio de las bases de información sintácticas,consistentes en 137 herramientas de análisis sintáctico; c) comprobar las hipótesis explicativas, mediante la aplicación de los analizadores, desarrollados con estas bases de información, sobre un corpus de verificación; y d) evaluar los resultados de esta aplicación, que se sintetizan como sigue: los analizadores léxicos son muy precisos, 96.6%, y consiguen reducir las variantes en un 26.4%, mientras que los analizadores sintácticos son también muy precisos, 95%, pero tienen un índice de exhaustividad bajo, 51%. Las conclusiones generales que hemos extraído son las siguientes: (i) los analizadores léxicos constituyen una técnica de normalización de unitérminos adecuada, aunque tienen un problema de infraanálisis; y (ii) los analizadores sintácticos constituyen una técnica de normalización de multitérminos adecuada, aunque tienen un problema de sobreanálisis, que se puede solucionar con la aplicación de modelos probabilísticos.

Item type: Book
Keywords: Finite-State Transducers; Lemmatization; Conflation; Stemming; Natural Language Processing (NLP)
Subjects: L. Information technology and library technology > LL. Automated language processing.
Depositing user: Carmen Galvez
Date deposited: 10 Jan 2008
Last modified: 02 Oct 2014 12:10
URI: http://hdl.handle.net/10760/10963

Downloads

Downloads per month over past year

Actions (login required)

View Item View Item