por Stepan Korotaev (Effectiff) y Andrey Ryabchikov (Effectiff) La suposición clave en este documento es que dos o más textos traducidos de la misma longitud deberían tomar aproximadamente el mismo esfuerzo para la posedición si se traducen de diferentes pero homogéneo Documentos de origen. Dos documentos se consideran “homogéneos” si: Son del mismo dominio y género. Tienen puntajes similares de complejidad y/o legibilidad calculados con algunas métricas seleccionadas. Están cerca en la densidad de terminología especializada. Solo deben tener muy pocos términos especializados superpuestos. Definen el “esfuerzo” de la posedición como: tiempo empleado distancia de edición porcentaje de segmentos cambiados Entonces, si tenemos documentos homogéneos traducidos, y que una de las traducciones requiere menos esfuerzo para la posedición, podemos concluir que esta traducción ha sido generada por un mejor sistema de traducción automática. Esto es muy intuitivo y los autores muestran evidencia de que su suposición es correcta en una tarea de traducción del inglés al ruso. También reconocen los límites de su trabajo, por ejemplo, “el tiempo dedicado ” nunca es una métrica muy fiable ya que los propios poseditores son los encargados de medirla.
por Jon Cambra Guinea (Welocalize) y Mara Nunziatini (Welocalize)Este es otro trabajo original de la pista de usuarios de la conferencia. Propone un enfoque diferente para la estimación de la calidad (QE) de MT. QE es el proceso de evaluar automáticamente la calidad de una traducción sin utilizar ninguna traducción humana. Se podría decir que es una tarea de evaluación no supervisada. Este es un problema muy bien estudiado, pero la originalidad del enfoque propuesto es que puede realizar QE antes de que se realice la traducción. De hecho, este método solo explota el texto fuente para traducir y los datos de entrenamiento utilizados para entrenar el sistema MT. La suposición aquí es que si conocemos los datos de entrenamiento utilizados por el sistema MT, deberíamos poder adivinar qué tan bien traducirá un texto fuente determinado. En la práctica, el artículo muestra que este enfoque se correlaciona relativamente bien con el estado de la cuestión. Métricas QE de última generación como COMET-QE. Por supuesto, las métricas de QE estándar siguen siendo mucho más precisas, pero el enfoque propuesto tiene varias ventajas que lo hacen útil en diversas situaciones. Por ejemplo, se puede utilizar para evaluar la dificultad de traducir un texto fuente dado, para priorizar y planificar mejor la posedición incluso antes de que comience, etc. Uno de los principales límites de este trabajo es que en realidad necesitamos conocer la formación. datos del sistema MT. No es aplicable a los sistemas MT de caja negra.
por Jitao Xu (Systran, LIMSI), Josep Crego (Systran) y Jean Senellart (Systran)Neural MT requiere una gran cantidad de datos de entrenamiento, es decir, traducciones creadas por humanos en el dominio de destino y el par de idiomas. Para la mayoría de los casos de uso, no tenemos suficientes datos de entrenamiento para entrenar un sistema de traducción automática preciso en el dominio de destino. Una forma de mitigar la falta de datos de entrenamiento es explotar una “memoria de traducción”: traducciones producidas previamente por humanos en el mismo dominio y par de idiomas. Luego, al traducir una oración, podemos verificar si ya hay una traducción en la memoria para esa oración. Este es el escenario ideal pero la mayoría de las veces traducimos textos nuevos que no están en la memoria. En esta situación, podemos aprovechar las “coincidencias parciales”. Una coincidencia parcial se define como una nueva oración que es similar a otra en la memoria de traducción. Aunque una coincidencia parcial puede ser bastante diferente de la oración real que queremos traducir, este trabajo propone varios métodos para explotar coincidencias parciales para mejorar la calidad de la traducción. Muestran cómo alimentar el modelo neuronal con información tanto en el lado de origen como en el de destino de las coincidencias parciales. Esto se ilustra en la siguiente tabla para una traducción del inglés al francés:
por Fred Bane (Transperfect), Celia Soler Uguet (Transperfect), Wiktor Stribizew (Transperfect) y Anna Zaretskaya (Transperfect) Un sistema de traducción automática entrenado con datos ruidosos puede tener un rendimiento inferior. Casi siempre es necesario filtrar los datos de entrenamiento para eliminar los pares de oraciones más ruidosos. Este artículo presenta una evaluación de diferentes métodos de filtrado existentes que identifican los tipos de ruido definidos por Khayrallah y Koehn (2018): MUSE: Compute las incrustaciones de oraciones a partir de las incrustaciones de palabras de MUSE para la oración de origen y de destino y luego puntúe el par de oraciones con un coseno similitud. Marian Scorer: puntúe el par de oraciones con un modelo MT neural. XLM-R: calcule incrustaciones de oraciones multilingües para la oración de origen y de destino y luego puntúe el par de oraciones con una similitud de coseno. LASER: Obtenga las incrustaciones de oraciones multilingües proporcionadas por LASER y luego puntúe el par de oraciones con una similitud de coseno. COMET: use el modelo wmt-20-qe-da para la estimación de la calidad para calificar el par de oraciones. Descubrieron que Marian Scorer es la mejor herramienta para filtrar la oración. Esto no me sorprende mucho ya que este marcador es la única herramienta que explota un modelo entrenado en sus propios datos. No obstante, el documento es extremadamente convincente gracias a una evaluación muy por encima del estándar de la investigación de traducción automática: utilizaron diferentes métricas automáticas: BLEU, TER y chrF. Las puntuaciones calculadas se pueden citar en trabajos futuros gracias al uso de SacreBLEU. realizaron pruebas de significación estadística. Realizaron una evaluación humana con el marco MQM. Siguiendo la escala que propuse en mi artículo de ACL 2021, su evaluación obtendría una puntuación de metaevaluación de 4, que es el máximo.
por Ali Araabi (Universidad de Ámsterdam), Christof Monz (Universidad de Ámsterdam) y Vlad Niculae (Universidad de Ámsterdam) Este documento presenta un estudio atrasado sobre qué tan bien BPE mitiga la dificultad de traducir palabras que no están en los datos de entrenamiento (OOV ). Técnicamente, cuando se usa BPE, no hay OOV ya que las palabras se descomponen en tokens BPE más pequeños que están todos en el vocabulario del modelo MT. No obstante, la secuencia de los tokens BPE que forman la palabra OOV no se ve en los datos de entrenamiento. Entre varios hallazgos interesantes, primero retengo que algunos tipos de palabras OOV se traducen mejor gracias al uso de BPE, especialmente las entidades de nombre. Para los otros tipos de OOV, BPE también ayuda, pero no de manera significativa. Además, en su intento de comprender mejor cómo ayuda BPE, los autores demostraron que la calidad de la traducción de las palabras OOV está estrechamente relacionada con la cantidad de atención que recibieron de Transformer. El documento destaca otra debilidad de BLEU para evaluar la calidad de la traducción. Como lo demuestran Guillou et al. (2018) en WMT18, BLEU es casi insensible a los errores locales. En consecuencia, cuando una palabra OOV no se traduce correctamente y sin ningún impacto en el resto de la traducción, solo tendrá un impacto muy pequeño en la puntuación BLEU. En lugar de BLEU, los autores recomiendan la evaluación humana para evaluar con precisión la traducción de las palabras OOV.
por Daniel Licht (META AI), Cynthia Gao (META AI), Janice Lam (META AI), Francisco Guzman (META AI), Mona Diab (META AI) y Philipp Koehn (META AI, Universidad Johns Hopkins) Destaco esto documento para el marco de evaluación humana muy completo y directo que propone. Está tan bien diseñado que cabe en una página, con ejemplos, como sigue:
Solo destaqué los artículos más originales/interesantes para mí. Los animo a echar un vistazo más de cerca a las actas de la conferencia. Tenga en cuenta también que hubo varios talleres enfocados en temas de MT muy particulares que no cubrí en absoluto en este artículo.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…