Tecnologías del habla: nuevas oportunidades para los archivos de televisión

Bazán-Gil, Virginia and Lleida, Eduardo and Pérez, Carmen and Gómez, Manuel and Prada, Alberto Tecnologías del habla: nuevas oportunidades para los archivos de televisión., 2019 [Preprint]

[img]
Preview
Text (Texto en Español)
CatedraRTVEUnizar_ISKO2019.pdf

Download (719kB) | Preview

English abstract

As the number of audiovisual contents to be identified and analysed has been increasing since the last few years, and as the resources available to face this situation are decreasing, Artificial Intelligence has become a desired tool for television archives. The future automatic metadata extraction workflows will be based in three complementary technologies: artificial vision, speech technologies and natural language processing. The use of these technologies will allow us to access a greater number of contents as well as to increase the granularity in the analysis. The role of the documentalist will be modified once again. Training algorithms and data validation will be two new relevant tasks for these professionals. In this new scenery, in which Artificial Intelligence brings new opportunities to television archives, the RTVE Corporation and the University of Zaragoza, signed an agreement for the Catedra RTVE - Universidad de Zaragoza in July 2017. The main goal of this Chair is to carry out educational and research activities connected to Big Data and its application to the analysis of audiovisual and sound content. In 2018 the Chair promoted the Iberspeech 2018 Challenge. This technological challenge made more than 500 hours of audiovisual content in Spanish available to the scientific community . Iberspeech 2018 also allowed the different national and international research groups to test their algorithms in three different tasks: speech to text, speaker diarization and multimodal diarization. The results obtained have shown the technological difficulties that still have to be overcome. These results should also be addressed from the user’s perspective in order to answer questions connected to the degree of error tolerance in automatic transcription within three different areas: edition, broadcasting and archive.

Spanish abstract

La sobreabundancia de contenidos audiovisuales y la dificultad creciente para identificar y describir esos contenidos de forma eficiente ha convertido la Inteligencia Artificial en un objeto de deseo para los archivos de televisión. Los futuros procesos de generación automática de metadatos en los archivos se fundamentarán en tres tecnologías complementarias: visión artificial, tecnologías del habla y procesamiento del lenguaje natural. La aplicación de estas tecnologías no solo facilitará el acceso a un volumen creciente de contenidos audiovisuales, sino que además permitirá alcanzar un nivel de detalle en el análisis hasta ahora impensable en los archivos de televisión. En este nuevo horizonte, las funciones esenciales de los documentalistas se verán una vez más alteradas, ya que los procesos automatizados requerirán de su implicación en las fases de entrenamiento de los algoritmos en los que se basan estas tecnologías, así como en el control de la calidad de los datos generados de forma automática. En este contexto, en el que la Inteligencia Artificial brinda a los archivos de televisión nuevas oportunidades, la Corporación RTVE y la Universidad de Zaragoza formalizaron en julio de 2017 la creación de una Cátedra cuyo principal objetivo es la realización de actividades de formación, investigación, estudio y divulgación de las Tecnologías de la Información y de las Comunicaciones relacionadas con el Big Data y su aplicación al análisis de contenidos audiovisuales y sonoros. En la Cátedra, junto al equipo de la Universidad de Zaragoza colaboran distintas áreas de RTVE como son: el Fondo Documental, el área de Innovación y Estrategia Tecnológica y el Área de Desarrollo Digital. En 2018, como parte de sus actividades, y con el objetivo de impulsar la investigación en tecnologías del habla en español, la Catedra lanzó el RTVE Iberspeech Challenge 2018. Un reto tecnológico que puso a disposición de la comunidad científica más de 500 horas de contenidos audiovisuales y que permitió a los distintos grupos de investigación, nacionales e internacionales, poner a prueba sus algoritmos en tres tareas diferenciadas: transcripción de habla a texto (speech to text), diarización de hablantes y diarización multimodal. Los resultados obtenidos han demostrado las dificultades tecnológicas que todavía deben superarse tanto en la trascripción voz a texto como en la diarización, tanto de hablante como multimodal. Estos resultados deben abordarse además desde la perspectiva del usuario. La pregunta ¿Cuál es el grado de tolerancia de los usuarios antes los errores de transcripción automática? debe responderse con estudios de usuarios en tres contextos diferenciados: la accesibilidad, la edición y la preservación de los contenidos.

Item type: Preprint
Keywords: Archivos de televisión, Tecnologías del habla, Speech to text, Metadatado automático RTVE Iberspeech 2018
Subjects: G. Industry, profession and education. > GC. Computer and telecommunication industry.
I. Information treatment for information services
Depositing user: Virginia Bazán-Gil
Date deposited: 14 Jun 2019 07:18
Last modified: 14 Jun 2019 07:18
URI: http://hdl.handle.net/10760/38447

References

"SEEK" links will first look for possible matches inside E-LIS and query Google Scholar if no results are found.

Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., … Zhu, Z. (2016). Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin. Retrieved from http://proceedings.mlr.press/v48/amodei16.pdf

Bazán Gil, V. (2018). El renacimiento de los archivos: inteligencia artificial y semántica aplicada a la descripción de contenidos audiovisuales. Retrieved January 9, 2019, from https://es.slideshare.net/Artium_Vitoria/ix-encuentros-de-centros-de-documentacin-de-arte-contemporneo-en-artium-virginia-bazn-gil

Bazán Gil, V., & Guerrero Gómez-Olmedo, R. (2018). Descripción automática de archivos audiovisuales: NeuralTalk, un modelo de video2text aplicado al archivo de RTVE Cita recomendada. BiD: Textos Universitaris de Biblioteconomia i Documentació, (41). https://doi.org/10.1344/BiD2018.41.7

Cátedra RTVE Universidad de Zaragoza. (2017). Cátedra RTVE de la Universidad de Zaragoza. Retrieved January 9, 2019, from http://catedrartve.unizar.es/

Iberspeech. (2018). Iberspeech 2018. In Iberspeech 2018. Barcelona. Retrieved from https://www.isca-speech.org/archive/IberSPEECH_2018/

Jorge, J., Martínez-Villaronga, A., Golik, P., Giménez, A., Albert Silvestre-Cerdà, J., Doetsch, P., … Sanchis, A. (2018). MLLP-UPV and RWTH Aachen Spanish ASR Systems for the IberSpeech-RTVE 2018 Speech-to-Text Transcription Challenge. In Iberspeech 2018 (pp. 257–261). Barcelona. https://doi.org/10.21437/IberSPEECH.2018-54

Lleida, E. (2018). Tecnologías para al análisis y metadatado de contenidos audiovisuales. Retrieved January 9, 2019, from http://www.rtve.es/contenidos/documentos/instituto/4_Jornada_Archivos_tv.pdf

Lleida, E., Ortega, A., Miguel, A., Bazán, V., Pérez, C., Gómez, M., & De Prada, A. (2018a). Albayzin Evaluation: IberSPEECH-RTVE 2018 Multimodal Diarization Challenge.

Lleida, E., Ortega, A., Miguel, A., Bazán, V., Pérez, C., Gómez, M., & De Prada, A. (2018b). Albayzin Evaluation: IberSPEECH-RTVE 2018 Speech to Text Transcription Challenge.

Lleida, E., Ortega, A., Miguel, A., Bazán, V., Pérez, C., Zotano, M., & De Prada, A. (2018). RTVE2018 Database Description.

Ortega, A., Viñals, I., Miguel, A., Lleida, E., Bazán, V., Pérez, C., … De Prada, A. (2018). Albayzin Evaluation: IberSPEECH-RTVE 2018 Speaker Diarization Challenge.

Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., … Vesely, K. (2011). The kaldi speech recognition toolkit. IEEE 2011 Workshop on Automatic Speech Recognition and Understanding, 1–4. https://doi.org/10.1017/CBO9781107415324.004

RTVE. (2018). La Cátedra RTVE en la Universidad de Zaragoza presenta su primer reto tecnológico a la comunidad científica - RTVE.es. Retrieved January 9, 2019, from http://www.rtve.es/rtve/20180521/catedra-rtve-universidad-zaragoza-presenta-su-primer-reto-tecnologico-comunidad-cientifica/1737360.shtml


Downloads

Downloads per month over past year

Actions (login required)

View Item View Item