Criterios y metodología para la selección documental en Inteligencias Artificiales

Ovalle-Perandones, María-Antonia and Blázquez-Ochando, Manuel Criterios y metodología para la selección documental en Inteligencias Artificiales., 2024 . In XX Seminario Hispano-Mexicano: Inteligencia artificial en la gestión de la información y documentación: debates, desafíos y oportunidades, Trujillo-Madrid, 10-12 de junio de 2024. [Presentation]

[thumbnail of hispanoMexicano criterios corpus IA.pptx] Slideshow
hispanoMexicano criterios corpus IA.pptx

Download (16MB)

English abstract

One of the problems or challenges in the development of generative Artificial Intelligences (AI) is achieving coherence and consistency in the responses and expressions it provides to the user. In this regard, the selection of documents that form part of its documentary corpus is an important aspect. This becomes evident when high-quality, relevant, and pertinent content in the area is mixed with others whose rigor or lack of precision is insufficient or inadvisable for issuing authorized or sufficiently substantiated responses. Just as good researchers draw from the best sources, AI should have access only to the best sources, avoiding contamination with resources that are irrelevant, lacking in originality, of poor pertinence, and inadequately authorized. And this is another problem faced by researchers in Documentation regarding AI. What criteria should be considered? How to achieve a correct representation of all the topics in the area? What functions, tasks, and objectives are pursued? Are the documents suitable for the purpose of AI? What variety and diversity are needed? How to overcome bias problems from the point of view of knowledge base selection? What quality criteria should be considered? Are the current criteria used in librarianship still valid? In what aspects have they changed and why? This work collects the key factors involved in the development of a methodology for document selection for AI and addresses the main challenges faced by the field.

Spanish abstract

Uno de los problemas o desafíos para el desarrollo de Inteligencias Artificiales (IA) de tipo generativo, es lograr la coherencia y consistencia en las respuestas y expresiones que proporciona al usuario. En este sentido, la selección de los documentos que forman parte de su corpus documental, resulta un aspecto importante. Esto queda patente cuando contenidos de alta calidad, relevantes y pertinentes en el área, se mezclan con otros, cuyo rigor o falta de precisión resultan insuficientes, o desaconsejables, para emitir respuestas autorizadas o suficientemente fundamentadas. De la misma manera que los buenos investigadores, beben de las mejores fuentes, la IA debería tener acceso sólo a las mejores fuentes, evitando la contaminación con recursos poco relevantes, escasamente originales, de pertinencia pobre, y escasamente autorizados. Y este es otro de los problemas a los que se enfrenta el investigador de Documentación en materia de IA. ¿Qué criterios tener en consideración? ¿Cómo lograr una correcta representación de todos los temas del área? ¿Qué funciones, tareas y objetivos se persiguen? ¿Los documentos son adecuados a la finalidad de la IA? ¿Qué variedad y diversidad se necesita? ¿Cómo superar los problemas de sesgo desde el punto de vista de la selección de la base de conocimiento? ¿Qué criterios de calidad hay que considerar? ¿Siguen vigentes los actuales criterios empleados en biblioteconomía? ¿En qué aspectos han cambiado y por qué? Este trabajo recoge las claves que intervienen en el desarrollo de una metodología para la selección documental para IA y aborda los principales retos a los que se enfrenta el área.

Item type: Presentation
Keywords: Artificial Intelligence (AI); Coherence; Consistency; Document Corpus; Library and Information Science; Document Selection; Selection Criteria; Training, AI Feeding; Data-Feeding; Big-Data; Criterios documentales; Inteligencia Artificial; Selección documental
Subjects: H. Information sources, supports, channels.
I. Information treatment for information services
J. Technical services in libraries, archives, museum. > JA. Acquisitions.
L. Information technology and library technology
L. Information technology and library technology > LP. Intelligent agents.
Depositing user: Dr. Manuel Blázquez Ochando
Date deposited: 04 Oct 2024 08:14
Last modified: 04 Oct 2024 08:14
URI: http://hdl.handle.net/10760/45851

References

Barrière, C. (2006). Semi-automatic corpus construction from informative texts. Lexicography, Terminology, and Translation: Text-based Studies in Honour of Ingrid Meyer, 81-92.

Chen, H.; Pieptea, L.F.; Ding, J. (2022). Construction and evaluation of a high-quality corpus for legal intelligence using semiautomated approaches. IEEE Transactions on Reliability, 71(2), 657-673.

Gong, Y.; Liu, G.; Xue, Y.; Li, R.; Meng, L. (2023). A survey on dataset quality in machine learning. Information and Software Technology, 107268. https://doi.org/10.1016/j.infsof.2023.107268

Hashimi, H.; Hafez, A.; Mathkour, H. (2015). Selection criteria for text mining approaches. Computers in Human Behavior, 51, 729-733.

IIC; UAM. (2023). Inteligencia Artificial centrada en datos: calidad vs. cantidad. https://www.iic.uam.es/innovacion/inteligencia-artificial-centrada-en-datos-calidad-vs-cantidad/

Inel, O.; Draws, T.; Arroyo, L. (2023, November). Collect, measure, repeat: Reliability factors for responsible AI data collection. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing (Vol. 11, No. 1, pp. 51-64). https://doi.org/10.1609/hcomp.v11i1.27547

Malandrakis, N.; Potamianos, A.; Hsu, K.J.; Babeva, K.N.; Feng, M.C.; Davison, G.C.; Narayanan, S. (2014, May). Affective language model adaptation via corpus selection. In 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4838-4842). IEEE.

Neudecker, C. (2023). Digital Curation and AI. https://www.transcript-open.de/pdf_chapter/bis%206999/9783839467107/9783839467107-013.pdf

Öztürk, O.; Kocaman, R.; Kanbach, D.K. (2024). How to design bibliometric research: an overview and a framework proposal. Review of managerial science, 1-29.

Pinto, M. (2018). Calidad y evaluación de los contenidos electrónicos. Electronic Content Management Skills. http://www.mariapinto.es/e-coms/calidad-y-evaluacion-de-los-contenidos-electronicos/

Thelwall, M. (2024). Can ChatGPT evaluate research quality?. arXiv preprint arXiv:2402.05519. https://doi.org/10.48550/arXiv.2402.05519

Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gómez, A.N.; Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30. https://doi.org/10.48550/arXiv.1706.03762


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item