Introducción
El procesamiento de lenguaje natural (PLN) se ha convertido en los últimos años en uno de los campos más relevantes de las ciencias de la computación y la lingüística aplicada. Con las herramientas del aprendizaje automático, las máquinas aprenden a leer, descifrar e interpretar los lenguajes humanos, a describir, resumir, traducir e incluso a responder de manera coherente en lenguaje natural. Así, el PLN permite hoy en día desarrollar soluciones de software que entienden, analizan y responden de manera similar a la humana: en formato de texto o voz.
El lenguaje natural (o humano) es la fuente de información para que las máquinas aprendan a leer o hablar. En este sentido estas requieren de un corpus o un conjunto de muestras para entrenarse en las tareas de procesamiento de lenguaje natural. Es de esta forma que una máquina es capaz de aprender a comunicarse. Sin embargo, los seres humanos se expresan de infinitas formas, hay cientos de idiomas, dialectos y cada uno de ellos con sus propias reglas. Entonces, el reto del PLN radica en construir una máquina capaz de identificar automáticamente los elementos del lenguaje de orden morfológico, sintáctico y semántico.
Así, las máquinas de PLN tienen en cuenta varios componentes del lenguaje: sintácticos, gramaticales y semánticos. El estudio de estos componentes construye un vínculo entre la lingüística aplicada, la lingüística computacional y el procesamiento de lenguaje natural, y en este sentido, el PLN busca construir modelos que comprendan aspectos del lenguaje humano y automaticen tareas o extraigan información relevante (Sánchez, 2010).
En este trabajo nos enfocamos en una de las tareas del PLN, conocida como extracción de relaciones (ER), la cual permite el reconocimiento de patrones entre entidades nombradas (EN) tales como nombres propios, definiciones, abreviaturas, entre otras. De esta manera, a través del reconocimiento automático de las relaciones se reconoce cualquier tipo de relación semántica entre dos aspectos relevantes e identificables en el texto. Según Pawar et al. (2017), para construir una máquina de ER basada en aprendizaje supervisado se deben incluir aspectos morfológicos, sintácticos e incluso semántico-léxicos tales como la categoría gramatical (POS, del inglés Part-Of-Speecb).Nasar et al. (2021) afirman que la tarea de ER requiere un análisis sintáctico basado en segmentación y lematización. Para los autores citados, la tarea de ER es descrita como dependiente del corpus de entrenamiento, donde el éxito de esta se relaciona con la calidad del conjunto de datos de entrenamiento (Pawar et al., 2017; Nasar et al., 2021). De forma similar, la tarea de ER se puede aplicar a diferentes dominios: química farmacéutica, salud, derecho, entre otros (Virmani et al., 2017; Kumar, 2017).
A continuación, presentamos un ejemplo de la tarea de extracción de relaciones. El texto original: La irritación del estómago ocurre en personas que usan Aspirina u otros medicamentos antiinflamatorios no esteroideos con regularidad. La extracción indica que Aspirina e irritación son elementos de interés y que están presentes en una relación léxico-semántica. Está relación es ADR (del inglés Adverse Drug Reaction), reacciones adversas a los medicamentos.
Castillo (2020) dice que para construir un modelo de ER es necesario contar con una base de conocimiento que puede ser el resultado de la recopilación de textos y la anotación de un experto o de un proceso automatizado que anote o etiquete texto, así como también de un modelo computacional capaz de tomar las muestras recopiladas y etiquetadas para encontrar patrones lingüísticos que revelen si una oración posee o no una relación semántica. Sin embargo, el autor señala la limitación actual de disponibilidad de conjuntos de muestras o corpus lingüísticos, en particular para algunos idiomas.
En este documento se propone la utilización de la traducción automática (TA) como una solución a las limitaciones de los corpus lingüísticos para el idioma español. Algunas de las herramientas de TA han alcanzado resultados de calidad, los cuales pueden ser útiles para traducir muestras de un idioma a otro. Según Carrino et al. (2020), la construcción de conjuntos de datos usando la TA no es nueva, pero su aplicación requiere de la experimentación y de las implementaciones necesarias. En este trabajo se implementa la TA como una estrategia para abordar el problema de la extracción de relaciones (ER) en el idioma español.
La revisión de literatura muestra que los conjuntos de entrenamiento para ER en español son escasos, costosos o no poseen etiquetas para el entrenamiento de modelos computacionales. En otros trabajos, para tratar este problema se han propuesto varios enfoques tales como modelos basados en el aprendizaje para varios idiomas (cross-lingual learning), aprendizaje profundo, extracción de relaciones abiertas (Ananthram et al., 2020; Lin et al., 2017; Mesquita et al., 2013; Ni & Florian, 2019; Rodrigues & Branco, 2020; Verga et al., 2015; Zhila & Gelbukh, 2013), entre otros.
Este artículo presenta la traducción automática del conjunto de entrenamiento conocido como: reACE (Hachey et al., 2012); posteriormente, se entrena un modelo de extracción de relaciones genéricas y se presentan los resultados, los cuales muestran que la estrategia de TA funciona, pues los modelos ER en español alcanzan medidas de precisión, exhaustividad y valor-F comparables con las obtenidas por el modelo en lenguaje inglesa.
El documento está organizado de la siguiente forma: en la sección 1 se describen los fundamentos teóricos; en la sección 2 se explica el conjunto de datos y el proceso de traducción automático; en la sección 3, la concepción del conjunto de datos en el español y su utilización en el entrenamiento para la tarea de ER, y en la sección 4 se exponen las conclusiones.
Fundamentos teóricos
A continuación, se presentan la traducción automática, los modelos de ER y los dos servicios web utilizados para la traducción automática en línea, y en último término se describe la tarea de ER basada en el conjunto de datos traducidos.
Traductor de Google y DeepL
El traductor de Google (TG) (Google Translate es su nombre en inglés) es uno de los servicios en línea más populares para traducción automática de artículos, textos cortos, oraciones e incluso páginas web. Esta herramienta fue lanzada en 2006 y actualmente incorpora un traductor automático neuronal llamado Google Neural Machine Translation (GMTS) en inglés, basado en redes neuronales recurrentes (Wu et al., 2016; Yamada, 2019).
El traductor DeepL es una herramienta gratuita en línea similar a TG, lanzada en 2017 y que se ha convertido en referente durante los últimos años. Una de sus ventajas es soportar la traducción de más de 21 idiomas e incorporar técnicas de aprendizaje profundo tales como redes neuronales convolucionales. La calidad de las traducciones es comparable con TG. Así, TG y DeepL son los mejores exponentes de la traducción automática (Cheng, 2019; Hidalgo-Ternero, 2021).
En esta investigación se describen los errores encontrados en el proceso de traducción del conjunto de entrenamiento reACE, conjunto de datos creado para la tarea de extracción de relaciones (ER) en el idioma inglés. Además, se entrena un modelo computacional para la extracción de relaciones semánticas en español utilizando este corpus de muestras traducidas.
Extracción de relaciones (ER)
La ER es una tarea de extracción de información (EI) que reconoce relaciones semánticas entre entidades nombradas previamente definidas (Pawar et al., 2017). Es común describir la ER como un modelo de clasificación automática o de aprendizaje supervisado. El proceso inicia con la identificación de entidades tales como personas, lugares, organizaciones, proteínas, genes o enfermedades. Luego, el modelo computacional debe indicar las relaciones existentes entre las entidades nombradas. El modelo de ER reconoce las relaciones a través de los vínculos semánticos que se presentan entre las entidades nombradas en el texto. Algunos ejemplos de relaciones son: 'A está casado con B", 'A es uno de los trabajadores de B", "La A tiene un efecto adverso a consumirse con B", donde A y B son las entidades nombradas o elementos de interés y presentan en el texto una relación semántica.
La ER ha sido ampliamente estudiada para el idioma inglés, utilizando enfoques supervisados o semisupervisados, donde existen datos de entrenamiento etiquetados como ACE 2005, ACE 2004, reACE, ADE, BioInfer (Gamallo & García, 2017; Guan et al., 2020; Smirnova & Cudré-Mauroux, 2018, Walker et al., 2006, Mitchell et al., 2005, Hachey et al., 2012, Gurulingappa et al., 2012, Pyysalo et al., 2007). De los anteriores conjuntos, en este artículo se utiliza el conjunto para la extracción genérica de relaciones llamado reACE (Hachey et al., 2012).
Metodología
Para la traducción automática se tomó el conjunto de muestras reACE del idioma inglés; posteriormente se hizo la traducción automática (TA) desde los servicios en línea descritos en la sección anterior. Este proceso permitió identificar errores en la traducción, los cuales se catalogan en pre y posedición. Con los conjuntos de muestras en español se entrenan modelos computacionales para la extracción de relaciones semánticas (modelos ER). Finalmente, para la evaluación de los modelos se utilizan las métricas de precisión, exhaustividad y valor-F. Los modelos en el idioma inglés y español son comparados con las métricas anteriormente listadas.
El corpus reACE de Hachey et al. (2012) tiene etiquetadas relaciones semánticas entre personas, organizaciones, genes y proteínas. Con un total de 5984 oraciones en inglés, es un compilado de muestras de los conjuntos de entrenamiento ACE2004 y ACE2005. El conjunto está en formato XML (Extensible Markup Languaje, su nombre en inglés) a partir del cual se extraen secuencias que se describen más adelante. Para el trabajo se construye un analizador (parser), que obtiene las secuencias ordenadas en un archivo de texto plano.
Las fases llevadas a cabo en la experimentación del TA son las siguientes:
Primera o preprocesamiento del conjunto de muestras y creación de la lista de oraciones por traducir.
Segunda o transformación de listas a secuencias ordenadas: (Ringlés, E1inglés, E2inglés, Singlés). La secuencia representa: la relación en la oración (Ringlés), entre la entidad nombrada número 1 (E1inglés) y entidad nombrada número 2 (E2inglés), relación que se encuentra en la oración del idioma origen (Singlés).
Fase tres o traducción de muestras, el conjunto de todas las secuencias es la entrada para los servicios de TA en línea. Los traductores de Google y DeepL poseen servicios en web, que permiten la traducción de textos a través de una interfaz accesible desde internet. Para este trabajo el proceso de traducción se automatiza, pero necesita la verificación constante, dado que la mayoría de los errores en la traducción se deben a una mala interpretación del texto de partida; algunos considerados como errores de compresión (Anastasopoulos, 2019), otros problemas relacionados con el contexto, la estructura de la oración y su gramática, la ortografía y el sentido mismo del texto (Bahr et al., 2020; Haque et al., 2020; Mikelenic & Tadic, 2020; Popovic, 2020). Los traductores automáticos devuelven la versión traducida al idioma español del conjunto de secuencias. Cada secuencia obtenida tiene la forma: (REspañol, E1Español, E2Español, SEspañol). La cual es su versión correspondiente a la secuencia en el idioma inglés.
Fase cuatro, análisis de errores de traducción e impacto en la tarea ER.
Fase cinco o preedición y posedición para corrección de errores. Para el caso de las correcciones de preedición se construye un subconjunto de secuencias con preedición y se lleva a cabo la fase tres. Finalmente, se obtiene un conjunto de secuencias reACE en español y sin errores de traducción.
En este trabajo no se incluye una posedición exhaustiva, ya que esto puede conllevar una edición o construcción de todo el corpus, con una inversión de tiempo mayor (Collantes et al., 2018). La Tabla 1 presenta los tipos de errores obtenidos en la evaluación de la traducción generada por las herramientas de TA.
Entrenamiento de un modelo para ER en español
En la literatura sobre modelos de ER se encuentran diferentes trabajos que muestran que los modelos basados en el aprendizaje supervisado obtienen mejores resultados que otros enfoques (Belinkov & Glass, 2019). Para el idioma español se han realizado algunos acercamientos utilizando técnicas de aprendizaje profundo, enfoques abiertos y multilingües (Torres et al., 2018; Zhila & Gelbukh, 2013). En este trabajo se entrenan tres modelos de ER basados en máquina de soporte vectorial (SVM). Esta técnica es utilizada frecuentemente en la literatura para construir modelos de ER (Zelenko, 2003; Bach & Saamer, 2007; Zhang, 2017; Torres et al, 2018). El primer modelo es una SVM-ER para el idioma inglés, el cual está basado en el conjunto de datos reACE original; el segundo, una SVM-ER, basado en el conjunto de datos reACE traducido automáticamente; y el tercero, una SVM-ER, basado en el conjunto de datos reACE traducido automáticamente, verificados los errores de traducción y preeditado. Los modelos SVM-ER en inglés y español utilizan las características que se presentan en la Tabla 2.
Resultados y discusión
La Tabla 3 muestra la frecuencia de errores de traducción de cada una de las herramientas de traducción. Los errores de TA se presentan a través de la frecuencia de aparición del tipo de error. De acuerdo con los errores considerados, estos fueron tratados como errores de preedición. Los resultados muestran que de las 5984 oraciones del conjunto reACE, en 465 oraciones se encontraron problemas de traducción. Los errores más comunes son por ortografía, terminología y omisión.
La calidad de las muestras en el idioma español influye en el aprendizaje del modelo, debido a que los modelos de SVM-ER se estiman a partir de un proceso de entrenamiento. El proceso de preedición es no exhaustivo y mantiene el uso del lenguaje y su naturaleza, se corrigen errores que pueden impactar la tarea como la traducción de las entidades nombradas o como la ortografía que impide que las oraciones conserven su sentido. Algunos ejemplos de correcciones realizadas al corpus se listan a continuación:
La abreviaturas y acrónimos fueron reemplazados usando un diccionario (thesaurus) del idioma inglés, por ejemplo, palabras como CEO, fueron convertidas a Chief Executive Officer.
Las contracciones que son ampliamente utilizadas en inglés fueron expandidas; por ejemplo, palabras como He <d, You <re o She <s. Estas contracciones no fueron traducidas correctamente y por lo tanto se utiliza la expresión completa en inglés. Así, fueron expandidas directamente en el texto origen a palabras como He had, You are o She is.
En inglés es común utilizar el carácter (-) para las palabras compuestas, el símbolo indica que no deben ser separadas o deben leerse juntas, de otra forma perdería el sentido en la oración. En esta investigación se realizó la separación de este tipo de palabras y caracteres. Por ejemplo, wheelchair-bound, que sería traducido como «silla de ruedas-atada», fue automáticamente traducida como «en silla de ruedas».
Como consecuencia, los errores de ortografía (OT) se reducen en 40 % para el traductor de Google y en 50 % para el traductor DeepL. Esto sugiere que la revisión o preedición de los textos en el idioma origen es una tarea importante. A continuación, se listan otros errores que pueden impactar el rendimiento del proceso de entrenamiento del modelo ER y a los que no se dio solución en el corpus de español obtenido:
La traducción errónea del verbo to be, que puede tener un impacto en el proceso de ingeniería de características para la construcción de un modelo ER.
La modificación de los artículos indeterminados o indefinidos como: un, uno, unos, unas. Que se considera como un problema de adición en la traducción. Este cambio puede impactar el contexto de la oración o referencia a una Entidad Nombrada.
Aunque la traducción al español suele presentar errores de terminología y de pérdida del sentido en la oración, ya sea por adición u omisión (Pastor, 2018), las herramientas de traducción seleccionadas para este trabajo permitieron traducir el corpus reACE, manteniendo el sentido y el significado de las palabras de las 5519 oraciones. Esto sugiere que las muestras pueden ser utilizadas para el entrenamiento de una tarea específica de procesamiento de lenguaje natural (PLN) o extracción de información (EI) en el idioma español.
Para el desarrollo de la tarea de extracción semántica de relaciones se presentan tres modelos de acuerdo con su fuente de entrenamiento, i) el corpus de datos de reACE en su versión en inglés, ii) la TA al español y iii) la TA al español con preedición de errores. Los modelos predictivos se construyen en una técnica tradicional para la solución de la tarea de extracción de relaciones, las máquinas de soporte vectorial (SVM, por sus siglas en inglés) (Zelenko, 2003; Bach & Sameer, 2007; Zhang et al., 2017; Torres et al., 2018).
Las SVM se construyeron mediante un proceso estándar de entrenamiento y evaluación de un modelo de aprendizaje supervisado (para más información ver Kramer et al., 2016). La Tabla 4 presenta los resultados del modelo SVM, para el conjunto reACE 2004 y reACE 2005; así se obtiene una perspectiva completa de todo el conjunto de datos reACE (Hachey et al., 2012). En la Tabla 4 se exponen los valores de las medidas de precisión (P), exhaustividad (E) y valor-F (F1) (precision, recall y F-value, por sus nombres en inglés). Los valores relevantes para la comparación de las métricas se marcan con negrita.
Las métricas para los modelos en español son comparables a las obtenidas para el idioma inglés, lo que indica que el conjunto de datos y las muestras traducidas son representativas en los dos idiomas. Adicionalmente, las métricas muestran que el modelo tiene un excelente desempeño para la tarea de extracción de relaciones semánticas entre entidades nombradas para el idioma español.
De esta manera, la métrica de precisión (P) mide la calidad del modelo en la clasificación de relaciones; los tres modelos oscilan entre el 73 y el 81 %, se destaca el modelo para el idioma español sin preedición. Y la métrica de exhaustividad (E) mide la cantidad de relaciones que es capaz de extraer; los tres modelos oscilan entre el 33 y el 47 %, y se destaca que los modelos para el idioma español e inglés obtienen valores similares. El valor-F es una métrica que combina las anteriores, precisión y exhaustividad. Los valor-F del modelo para el idioma español son comparables con el modelo para el inglés.
Conclusiones
En este artículo se presenta la traducción de un conjunto de muestras para el entrenamiento de modelos computacionales que realicen la tarea de extracción de relaciones semánticas entre entidades nombradas (ER). Se utiliza el corpus reACE traducido, como conjunto etiquetado para la tarea de ER en el idioma español. Este conjunto de muestras automáticamente traducidas permitió construir un modelo para la tarea ER en el idioma español, lo que muestra la eficiencia y el potencial que tiene la TA, así como también las facilidades de automatización con las TA en línea. El potencial de este trabajo deja ver que la TA es aplicable a otros corpus de datos propios de otras tareas de PLN, en los cuales no hay conjuntos de datos en el idioma español, pero sí existen para el idioma inglés.
Las herramientas de Google y DeepL muestran que tienen un buen rendimiento en la comprensión e interpretación de las oraciones para su posterior traducción. A pesar de su alta tasa de precisión en la traducción, ambas herramientas tuvieron errores al traducir correctamente abreviaturas, términos y artículos. La mayoría de los errores fueron tratados con preedición no exhaustiva, pero existe una gran variedad de imprecisiones relacionadas con las acepciones de algunas palabras y el contexto donde son utilizadas, falso sentido, contrasentido, anglicismos, entre otras. Sin embargo, para el conjunto reACE estos errores tienen una ocurrencia mínima.
El modelo SVM implementado para este trabajo muestra que la técnica de extracción de relaciones descrita ofrece buenos resultados, lo que implica la viabilidad para desarrollar otras tareas de PLN basado en ER, como por ejemplo resumidores automáticos. Así como también poner en marcha tecnologías basadas en PLN para el idioma español. Esto muestra que el corpus traducido permite la extracción de relaciones semánticas entre entidades nombradas de una forma eficiente. Los resultados dejan ver que las métricas de evaluación están cercanas entre los dos idiomas, es decir, reACE es un conjunto de datos que posee una muestra relevante para la tarea de ER en el idioma español. Sin embargo, el rendimiento de los modelos de ER puede tener mejoras si se aplica ingeniería de características o se efectúa una revisión exhaustiva de características léxico-semánticas propias del idioma español; por otra parte, se puede elaborar un modelo de aprendizaje profundo. Estas mejoras y un modelo con aprendizaje profundo se consideran como trabajo futuro.