Las tecnologías del lenguaje y las lenguas indígenas mexicanas: constitución de un corpus paralelo amuzgo-español: Human language technology and the indigenous languages in Mexico: the Amuzgo-Spanish parallel corpus

Authors

Antonio Reyes Pérez
Universidad Autónoma de Querétaro
H Antonio García Zúñiga
Instituto Nacional de Antropología e Historia

Synopsis

Resumen: En este artículo se describen las particularidades de la construcción del primer corpus paralelo amuzgo-español, el cual representa una fuente de datos reales para la investigación lingüística, particularmente, así como para el desarrollo de recursos y herramientas para lenguas escasamente representadas e, incluso, en peligro de extinción. Los procesos llevados a cabo durante la constitución del corpus se detallan de acuerdo con las siguientes fases: i) obtención de datos en la lengua mediante entrevistas realizadas en trabajo de campo, ii) transcripción de las entrevistas; iii) procesamiento de la señal sonora en PRAAT para realizar análisis espectrográficos; iv) creación de glosas y traducción al español; v) alineación semiautomática de traducciones a partir de la correspondencia lingüística entre lenguas. Finalmente, se muestra el resultado de la implementación del corpus en una plataforma
web para la consulta pública.
Abstract: In this article, a collaborative project to build the first parallel corpus Amuzgo-Spanish is described. The goal of this project is to provide a source with data collected from colloquial speech in Amuzgo (glossed and translated into Spanish) for research, as well as for the development of tools for scarce resources languages. The processes carried out to compile the corpus are described according to the following phases: i) data collection in Amuzgo by means of linguistic fieldwork; ii) data transcription;
iii) acoustic data processing with Praat to carry out spectrographic analysis; iv) glossing and translating data into Spanish; v) semiautomatic alignment of translations. Finally, an open access tool is presented because of the corpus release.

Downloads

Published

September 10, 2023

Categories