Gil-Leiva, Isidoro and Rodríguez-Muñoz, José-Vicente Análisis de los descriptores de diferentes áreas de conocimiento. Revista Española de Documentación Científica, 1997, vol. 20, n. 2, pp. 150-160. [Journal article (Paginated)]
|
PDF
Descriptores_Indizacion_automatica_GIL-LEIVA,_Isidoro.pdf Download (73kB) | Preview |
English abstract
The value of scientific articles titles and abstracts as sources of terms for documents indexing is studied in relation with six knowledge areas: Library and Information Science, Medicine, Chemistry, Biology and Physics, indexed in the databases ISOC, IME and ICYT of the CSIC. The sintagmatic structures of the indexing terms found in the field ‘Descriptors’ is also examined, as well the relation between the length of the documents and the number of descriptors it has. In orden to do this six searches were made in the databases for the six knowledge areas, and 450 bibliographical references were selected (75 for knowledge area), obtaining 2077 descriptors, of these, 38,1% appear in the titles, in the abstracts or in both. With respect to the sintactic structures it was found that 41,9% were ‘nouns’, 32,3% are ‘noun+adjective’ groups, and 11,8% are ‘noun+noun’ groups, with a 14% for other different structures. Lastly, regarding the relationship between length of documents and number of descriptors, all possible combinations were found: short articles with a few descriptors, long articles with a small amount of descriptors, short articles with a important quantity of descriptors, and documents with a high number so much of pages as of descriptors. The following conclusions can be raised from the data obtained: first, if the abstracts are not well made and the titles are not precise, they are not definitives sources for the extraction of concepts; second, the most common syntactic structures is the ‘noun phrase’, followed by ‘noun+adjective’ and ‘noun+noun’; third, no significant relation is found between length of documents and number of descriptors assigned to it.
Spanish abstract
Se estudia el valor de los títulos y resúmenes de los artículos científicos como fuentes suministradoras de términos para la indización de los documentos en seis áreas del conocimiento indizadas en las Bases de datos ISOC, IME e ICYT del CSIC. Asimismo, se examina la estructura sintagmática de los términos de indización hallados en el campo “Descriptores”, y la posible relación entre el número de descriptores de un documento con la cantidad de páginas del mismo. Para tales fines se seleccionaron las áreas del conocimiento de Biblioteconomía y Documentación, Medicina, Química, Biología, Psicología y Física, y se realizaron seis búsquedas en estas Bases de datos de las que seleccionamos 450 referencias bibliográficas (75 por área) proporcionando un total de 2077 descriptores. El 38,1% de los descriptores asignados a dichos registros aparece en el título, resumen o en el título y resumen a la vez. Como estructuras sintagmáticas descubrimos que el 41,9% de los descriptores son sustantivos, el 32.3% sustantivo+adjetivo, y el 11,8% son sustantivo+de+ sustantivo, quedando solamente un 14% para otras estructuras. Y por último, se han encontrado artículos con escasas páginas y descriptores, documentos amplios y con pocos descriptores asignados, artículos con pocas páginas y una cantidad importante de descriptores, y documentos con un número elevado tanto de páginas como de descriptores. Se concluye que los títulos cuando no son lo suficientemente precisos, y los resúmenes no están bien elaborados no son fuentes definitivas para la extracción de conceptos; en segundo lugar, que la estructura sintagmática más común es el sustantivo seguido de sustantivo+adjetivo y sustantivo+de+sustantivo; y tercero, que no se aprecia ninguna relación entre el número de páginas de un documento y la cantidad de descriptores asignados.
Item type: | Journal article (Paginated) |
---|---|
Keywords: | Descriptores ; Análisis lingüístico ; Análisis estadístico ; Indización ; Indización automática, Bases de datos ; Consejo Superior de Investigaciones Científicas ; España ; Descriptors ; linguistic analysis ; statistical analisys ; indexing ; automatic indexing ; data bases ; Spain |
Subjects: | I. Information treatment for information services > IB. Content analysis (A and I, class.) I. Information treatment for information services > ID. Knowledge representation. |
Depositing user: | Isidoro Gil Leiva |
Date deposited: | 16 Jun 2008 |
Last modified: | 02 Oct 2014 12:11 |
URI: | http://hdl.handle.net/10760/11733 |
References
Downloads
Downloads per month over past year
Actions (login required)
View Item |