Aspectos destacados de AMTA 2022

El estado del arte de la traducción automática para usuarios e investigadores

Orlando, Florida — Foto de Cody Board en UnsplashCada dos años, la comunidad de traducción automática (MT) se reúne e intercambia sobre avances recientes en el campo en la conferencia AMTA, el componente norteamericano de la Asociación Internacional de Traducción Automática (IAMT). Este siempre es un evento muy interesante para las personas involucradas en la traducción automática donde investigadores, usuarios, la industria e incluso organizaciones gubernamentales publican trabajos de investigación o presentan su trabajo. La edición 2022 de AMTA tuvo lugar en septiembre en Orlando, Florida. En este artículo, destaco y resumo los artículos que encontré más originales e interesantes. Elegí documentos de los usuarios (ver las actas) y las pistas de investigación (ver las actas).

Elegir el mejor modelo de MT: sobre la metodología de la evaluación humana

por Stepan Korotaev (Effectiff) y Andrey Ryabchikov (Effectiff) La suposición clave en este documento es que dos o más textos traducidos de la misma longitud deberían tomar aproximadamente el mismo esfuerzo para la posedición si se traducen de diferentes pero homogéneo Documentos de origen. Dos documentos se consideran “homogéneos” si: Son del mismo dominio y género. Tienen puntajes similares de complejidad y/o legibilidad calculados con algunas métricas seleccionadas. Están cerca en la densidad de terminología especializada. Solo deben tener muy pocos términos especializados superpuestos. Definen el “esfuerzo” de la posedición como: tiempo empleado distancia de edición porcentaje de segmentos cambiados Entonces, si tenemos documentos homogéneos traducidos, y que una de las traducciones requiere menos esfuerzo para la posedición, podemos concluir que esta traducción ha sido generada por un mejor sistema de traducción automática. Esto es muy intuitivo y los autores muestran evidencia de que su suposición es correcta en una tarea de traducción del inglés al ruso. También reconocen los límites de su trabajo, por ejemplo, “el tiempo dedicado ” nunca es una métrica muy fiable ya que los propios poseditores son los encargados de medirla.

¡Todo lo que necesitas es fuente! Un estudio sobre la estimación de la calidad basada en la fuente para la traducción automática neuronal

por Jon Cambra Guinea (Welocalize) y Mara Nunziatini (Welocalize)Este es otro trabajo original de la pista de usuarios de la conferencia. Propone un enfoque diferente para la estimación de la calidad (QE) de MT. QE es el proceso de evaluar automáticamente la calidad de una traducción sin utilizar ninguna traducción humana. Se podría decir que es una tarea de evaluación no supervisada. Este es un problema muy bien estudiado, pero la originalidad del enfoque propuesto es que puede realizar QE antes de que se realice la traducción. De hecho, este método solo explota el texto fuente para traducir y los datos de entrenamiento utilizados para entrenar el sistema MT. La suposición aquí es que si conocemos los datos de entrenamiento utilizados por el sistema MT, deberíamos poder adivinar qué tan bien traducirá un texto fuente determinado. En la práctica, el artículo muestra que este enfoque se correlaciona relativamente bien con el estado de la cuestión. Métricas QE de última generación como COMET-QE. Por supuesto, las métricas de QE estándar siguen siendo mucho más precisas, pero el enfoque propuesto tiene varias ventajas que lo hacen útil en diversas situaciones. Por ejemplo, se puede utilizar para evaluar la dificultad de traducir un texto fuente dado, para priorizar y planificar mejor la posedición incluso antes de que comience, etc. Uno de los principales límites de este trabajo es que en realidad necesitamos conocer la formación. datos del sistema MT. No es aplicable a los sistemas MT de caja negra.

Impulsar la traducción automática neuronal con traducciones similares

por Jitao Xu (Systran, LIMSI), Josep Crego (Systran) y Jean Senellart (Systran)Neural MT requiere una gran cantidad de datos de entrenamiento, es decir, traducciones creadas por humanos en el dominio de destino y el par de idiomas. Para la mayoría de los casos de uso, no tenemos suficientes datos de entrenamiento para entrenar un sistema de traducción automática preciso en el dominio de destino. Una forma de mitigar la falta de datos de entrenamiento es explotar una “memoria de traducción”: traducciones producidas previamente por humanos en el mismo dominio y par de idiomas. Luego, al traducir una oración, podemos verificar si ya hay una traducción en la memoria para esa oración. Este es el escenario ideal pero la mayoría de las veces traducimos textos nuevos que no están en la memoria. En esta situación, podemos aprovechar las “coincidencias parciales”. Una coincidencia parcial se define como una nueva oración que es similar a otra en la memoria de traducción. Aunque una coincidencia parcial puede ser bastante diferente de la oración real que queremos traducir, este trabajo propone varios métodos para explotar coincidencias parciales para mejorar la calidad de la traducción. Muestran cómo alimentar el modelo neuronal con información tanto en el lado de origen como en el de destino de las coincidencias parciales. Esto se ilustra en la siguiente tabla para una traducción del inglés al francés:Captura de pantalla de la Figura 2 de Jitao Xu (Systran, LIMSI), Josep Crego (Systran) y Jean Senellart (Systran). Proponen 3 métodos para explotar coincidencias parciales. El método FM+ es el que mejores resultados proporciona. Mantiene toda la coincidencia aproximada sin cambios, pero la aumenta con etiquetas:S para palabras fuente;R para palabras objetivo no relacionadas; y T para palabras objetivo relacionadas. Descubrí que FM* tiene un desempeño sorprendentemente bajo. Hay cierta similitud con lo que propuse en NAACL 2019 en mi artículo: Extracción no supervisada de traducciones parciales para traducción automática neuronal. En mi trabajo, lo denoté “traducciones parciales” en lugar de “coincidencias parciales” donde enmascaré (o eliminé) los tokens no traducidos. Aquí, Systran los enmascara con el token “∥”. No estoy seguro de por qué eligieron este token que también se usa para separar las oraciones de origen y de destino. Espero que el modelo se confunda sobre si este token anuncia una oración objetivo o enmascara un texto irrelevante. El rendimiento de FM+ parece impresionante, aunque solo se evaluó con BLEU. Parte de este trabajo es de código abierto: https://github.com/SYSTRAN/fuzzy-match.

Una comparación de los métodos de filtrado de datos para la traducción automática neuronal

por Fred Bane (Transperfect), Celia Soler Uguet (Transperfect), Wiktor Stribizew (Transperfect) y Anna Zaretskaya (Transperfect) Un sistema de traducción automática entrenado con datos ruidosos puede tener un rendimiento inferior. Casi siempre es necesario filtrar los datos de entrenamiento para eliminar los pares de oraciones más ruidosos. Este artículo presenta una evaluación de diferentes métodos de filtrado existentes que identifican los tipos de ruido definidos por Khayrallah y Koehn (2018): MUSE: Compute las incrustaciones de oraciones a partir de las incrustaciones de palabras de MUSE para la oración de origen y de destino y luego puntúe el par de oraciones con un coseno similitud. Marian Scorer: puntúe el par de oraciones con un modelo MT neural. XLM-R: calcule incrustaciones de oraciones multilingües para la oración de origen y de destino y luego puntúe el par de oraciones con una similitud de coseno. LASER: Obtenga las incrustaciones de oraciones multilingües proporcionadas por LASER y luego puntúe el par de oraciones con una similitud de coseno. COMET: use el modelo wmt-20-qe-da para la estimación de la calidad para calificar el par de oraciones. Descubrieron que Marian Scorer es la mejor herramienta para filtrar la oración. Esto no me sorprende mucho ya que este marcador es la única herramienta que explota un modelo entrenado en sus propios datos. No obstante, el documento es extremadamente convincente gracias a una evaluación muy por encima del estándar de la investigación de traducción automática: utilizaron diferentes métricas automáticas: BLEU, TER y chrF. Las puntuaciones calculadas se pueden citar en trabajos futuros gracias al uso de SacreBLEU. realizaron pruebas de significación estadística. Realizaron una evaluación humana con el marco MQM. Siguiendo la escala que propuse en mi artículo de ACL 2021, su evaluación obtendría una puntuación de metaevaluación de 4, que es el máximo.

¿Qué tan efectiva es la codificación de pares de bytes para palabras fuera del vocabulario en la traducción automática neuronal?

por Ali Araabi (Universidad de Ámsterdam), Christof Monz (Universidad de Ámsterdam) y Vlad Niculae (Universidad de Ámsterdam) Este documento presenta un estudio atrasado sobre qué tan bien BPE mitiga la dificultad de traducir palabras que no están en los datos de entrenamiento (OOV ). Técnicamente, cuando se usa BPE, no hay OOV ya que las palabras se descomponen en tokens BPE más pequeños que están todos en el vocabulario del modelo MT. No obstante, la secuencia de los tokens BPE que forman la palabra OOV no se ve en los datos de entrenamiento. Entre varios hallazgos interesantes, primero retengo que algunos tipos de palabras OOV se traducen mejor gracias al uso de BPE, especialmente las entidades de nombre. Para los otros tipos de OOV, BPE también ayuda, pero no de manera significativa. Además, en su intento de comprender mejor cómo ayuda BPE, los autores demostraron que la calidad de la traducción de las palabras OOV está estrechamente relacionada con la cantidad de atención que recibieron de Transformer. El documento destaca otra debilidad de BLEU para evaluar la calidad de la traducción. Como lo demuestran Guillou et al. (2018) en WMT18, BLEU es casi insensible a los errores locales. En consecuencia, cuando una palabra OOV no se traduce correctamente y sin ningún impacto en el resto de la traducción, solo tendrá un impacto muy pequeño en la puntuación BLEU. En lugar de BLEU, los autores recomiendan la evaluación humana para evaluar con precisión la traducción de las palabras OOV.

Evaluación humana consistente de la traducción automática en pares de idiomas

por Daniel Licht (META AI), Cynthia Gao (META AI), Janice Lam (META AI), Francisco Guzman (META AI), Mona Diab (META AI) y Philipp Koehn (META AI, Universidad Johns Hopkins) Destaco esto documento para el marco de evaluación humana muy completo y directo que propone. Está tan bien diseñado que cabe en una página, con ejemplos, como sigue:Captura de pantalla de la Figura 1 por Daniel Licht (META AI), Cynthia Gao (META AI), Janice Lam (META AI), Francisco Guzman (META AI), Mona Diab (META AI) y Philipp Koehn (META AI, Johns Hopkins Universidad). Más particularmente, la puntuación obtenida con este marco (denominado XSTS) se centra en lograr puntuaciones significativas para clasificar los sistemas MT. El marco ha sido evaluado en un gran número de pares de idiomas.

Conclusión

Solo destaqué los artículos más originales/interesantes para mí. Los animo a echar un vistazo más de cerca a las actas de la conferencia. Tenga en cuenta también que hubo varios talleres enfocados en temas de MT muy particulares que no cubrí en absoluto en este artículo.

aliintizar71

Next Un error impide que algunas personas usen Google Wallet »

Previous « El fútbol reclama otra tableta Microsoft Surface

Published by

aliintizar71

3 years ago

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…

3 years ago

AirPods Max 2: aquí están las características más solicitadas

Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…

3 years ago

El remake de Dead Space continúa luciendo terriblemente genial en el nuevo tráiler de la historia

El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…

3 years ago

Aspectos destacados de AMTA 2022

El estado del arte de la traducción automática para usuarios e investigadores

Elegir el mejor modelo de MT: sobre la metodología de la evaluación humana

¡Todo lo que necesitas es fuente! Un estudio sobre la estimación de la calidad basada en la fuente para la traducción automática neuronal

Impulsar la traducción automática neuronal con traducciones similares

Una comparación de los métodos de filtrado de datos para la traducción automática neuronal

¿Qué tan efectiva es la codificación de pares de bytes para palabras fuera del vocabulario en la traducción automática neuronal?

Evaluación humana consistente de la traducción automática en pares de idiomas

Conclusión

Recent Posts

Máquina de mano Lean, Green, Raspberry Pi

Cómo pronosticar series de tiempo usando autorregresión

Aquí están todas las formas en que puede cargar su AirPods Pro

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

AirPods Max 2: aquí están las características más solicitadas

El remake de Dead Space continúa luciendo terriblemente genial en el nuevo tráiler de la historia

Aspectos destacados de AMTA 2022

El estado del arte de la traducción automática para usuarios e investigadores

Elegir el mejor modelo de MT: sobre la metodología de la evaluación humana

¡Todo lo que necesitas es fuente! Un estudio sobre la estimación de la calidad basada en la fuente para la traducción automática neuronal

Impulsar la traducción automática neuronal con traducciones similares

Una comparación de los métodos de filtrado de datos para la traducción automática neuronal

¿Qué tan efectiva es la codificación de pares de bytes para palabras fuera del vocabulario en la traducción automática neuronal?

Evaluación humana consistente de la traducción automática en pares de idiomas

Conclusión

Related Post

Recent Posts

Máquina de mano Lean, Green, Raspberry Pi

Cómo pronosticar series de tiempo usando autorregresión

Aquí están todas las formas en que puede cargar su AirPods Pro

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

AirPods Max 2: aquí están las características más solicitadas

El remake de Dead Space continúa luciendo terriblemente genial en el nuevo tráiler de la historia