Recopilación de corpus paralelo español-guaraní y experimentos iniciales con traductor automático estadístico

Contenido principal del artículo

Aldo Andrés Álvarez López

Resumen

En este artículo se presenta el trabajo realizado para recolectar conjuntos de oraciones en español y guaraní a fin de crear un corpus bilingüe que servirá como base para la creación de tecnología lingüística relacionada con el par de idiomas. En este caso, se hace foco en la traducción automática del español al guaraní. El guaraní es una lengua que carece, en gran medida, de recursos digitales. Esto impide que la misma prospere en cuanto a tecnología se refiere. Para la generación del corpus se ha hecho uso de materiales digitales disponibles en la nube. Así también, se ha utilizado una plataforma web denominada Guampa con el objetivo de generar nuevas frases de forma colaborativa. Se presentan datos estadísticos del corpus generado y experimentos iniciales con Moses y su plataforma para la Traducción Automática Estadística (SMT, del inglés, Statistical Machine Translation). Los resultados pretenden servir de punto de partida para futuros experimentos en el área.

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Cómo citar
Álvarez López, A. A. (2022). Recopilación de corpus paralelo español-guaraní y experimentos iniciales con traductor automático estadístico. Revista Sobre Estudios E Investigaciones Del Saber académico, (17), e2023003. Recuperado a partir de http://publicaciones.uni.edu.py/index.php/rseisa/article/view/342
Sección
Artículos de investigación

Citas

Apertium/apertium-grn. (2020). [Python]. Apertium. https://github.com/apertium/apertium-grn (Original work published 2018)

Gasser, M. (2006). Machine translation and the future of indigenous languages. I Congreso Internacional de Lenguas y Literaturas Indoamericanas.

Gasser, M. (2018). Mainumby: Un Ayudante para la Traducción Castellano-Guaraní. CoRR, abs/1810.08603. http://arxiv.org/abs/1810.08603

Guarani Language and the Guarani Indian Tribe (Avañe’e, Jopará, Chiriguano, Mbyá). (n.d.). Retrieved March 3, 2020, from http://www.native-languages.org/guarani.htm

Hltdi/Bitext. (n.d.). GitHub. Retrieved December 1, 2020, from https://github.com/hltdi/Bitext

Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., Cowan, B., Shen, W., Moran, C., Zens, R., Dyer, C., Bojar, O., Constantin, A., & Herbst, E. (2007). Moses: Open Source Toolkit for Statistical Machine Translation. Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, 177–180. https://www.aclweb.org/anthology/P07-2045

Maldonado, D. M., Villalba Barrientos, R., & Pinto-Roa, D. P. (2016, November 22). Eñe’˜e: Sistema de reconocimiento automático del habla en Guaraní. Simposio Argentino de Inteligencia Artificial (ASAI 2016) - JAIIO 45 (Tres de Febrero, 2016). http://sedici.unlp.edu.ar/handle/10915/56979

Milagros, M. P., Abdelali, A., Cowie, J., Helmreich, S., Jin, W., Ogden, B., Rad, H., & Zacharski, R. (2006). Guarani: A Case Study in Resource Development for Quick Ramp-Up MT.

morfo: Análisis y generación morfológica. (n.d.). Retrieved February 10, 2021, from http://plogs.soic.indiana.edu/morfo/

Moses—Main/HomePage. (n.d.). Retrieved May 12, 2020, from http://www.statmt.org/moses/

Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). Bleu: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 311–318. https://doi.org/10.3115/1073083.1073135

Rudnick, A., Skidmore, T., Samaniego, A., & Gasser, M. (2014). Guampa: A Toolkit for Collaborative Translation. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), 1659–1663. http://www.lrec-conf.org/proceedings/lrec2014/pdf/151_Paper.pdf