Sat. Nov 26th, 2022

Una historia con moraleja sobre el fracaso sistémico del aprendizaje automático

Foto de Laura Rivera en Unsplash Uno de los beneficios potenciales de aplicar la ciencia de datos a muchos productos y negocios es la promesa de reducir la fricción y las molestias en nuestra vida cotidiana. La idea es que los modelos de aprendizaje automático creados estén integrados en todos los dispositivos y servicios que usamos. Trabajarán incansablemente para eliminar todo tipo de irritaciones y cargas de nuestras vidas a medida que seamos cada vez más libres para concentrarnos en lo que importa en la vida. ¿Es esto solo una quimera demasiado optimista? Si alguna vez vamos a darnos cuenta del potencial de estas tecnologías Necesitamos hacer un balance de las muchas pequeñas formas en que el aprendizaje automático nos falla en la vida cotidiana. Podríamos continuar y seleccionar una lista de cosas como clasificadores de imágenes racistas, herramientas de reclutamiento sexistas o las muchas formas de psicopatía que pueden manifestarse en los chatbots. En su lugar, centrémonos en una forma más mundana y generalizada de falla de aprendizaje automático que afecta tanto a las minorías como a las mayorías: la autocorrección. La autocorrección es una forma simple de asistencia digital. Escribes algo, la máquina reconoce que no es una palabra y lo cambia por lo que cree que querías escribir. Estos sistemas están integrados en nuestros teléfonos, tanto en nuestros sistemas operativos como, a veces, en aplicaciones específicas del teléfono. Algunas versiones son solo modelos estadísticos básicos de similitud y frecuencia de palabras, otras emplean aprendizaje automático y consideran las otras palabras en la oración. Su propósito, a primera vista, es claro; queremos eliminar los errores tipográficos del texto que escribimos. Escribo “Wutocoreect” y el dispositivo lo cambia a “Autocorrección“Yo escribo “Gailire” y el dispositivo se precipita y lo cambia a “Falla”Puede surgir un problema cuando observamos una corrección que ocurre en una palabra crítica en una oración. Escribo “¿Qué necesitas?” y la autocorrección lo cambia a “¿Por qué necesitas?”[1]De repente, mi intento de hacer una pregunta que solicita aclaración o instrucciones, se convierte en un rechazo de justificación. Todo el sentido de la oración cambia, con un potencial acompañante para una interpretación emocional negativa. Para añadir insulto a la herida el texto original, completo con sus faltas de ortografía, es perfectamente comprensible. Este último hecho es común para muchos errores tipográficos diferentes y está perfectamente demostrado por la práctica común de desmembrar palabras en los mensajes de texto. Vale la pena detenerse y reflexionar sobre este último punto. La función de autocorrección implementada felizmente en mi teléfono inteligente relativamente moderno está corrigiendo palabras de una manera que puede cambiar el significado de la oración. Lo hace incluso en circunstancias en las que tenemos evidencia de que, en la mayoría de los casos, lo peor que podemos esperar de las faltas de ortografía es un tiempo de lectura más lento. [2].Esto es una falla tecnológica. En lugar de proporcionarme una utilidad, esta función de software sofisticado se interpone activamente en la comunicación. ¿Cómo puede ser esto? Si queremos avanzar en nuestro despliegue de la ciencia de datos en el mundo, debemos comprender a fondo cómo una tarea tan mundana puede resultar en un producto que produce resultados negativos. La causa fundamental es que cuando se construyen estos modelos, se evalúan utilizando métricas que están desconectados del impacto en los usuarios finales. En un mundo ideal, consideraríamos cómo cualquier cambio en nuestra escritura afectaría la legibilidad y la comprensión de lo que escribimos. Pero obtener un conjunto de datos que permita a un desarrollador de aprendizaje automático evaluar ese objetivo final es difícil. Es mucho más fácil simplemente recopilar algunos datos sobre las formas comunes en que se escriben mal palabras específicas y evaluarlas usando métricas estándar que describen proporciones y proporciones de palabras que se modifican correctamente versus incorrectamente (por ejemplo [3]). Para ser justos, estos modelos se pueden usar en situaciones, como corregir el contenido de las consultas de búsqueda, que son menos sensibles a los errores de comunicación. El trabajo académico más reciente sobre el tema de la evaluación de los métodos de autocorrección enfatiza la importancia del contexto de las palabras.[4] y comprensibilidad del texto[5]. Sin embargo, ninguno de ellos llega a hacer que el impacto esperado en la comprensión sea el foco central de la evaluación. Así es como los proyectos de aprendizaje automático se suman a nuestras cargas. Los construyen personas que están desconectadas de los usuarios finales, están abrumadas por la complejidad de lo que quieren los usuarios finales o no tienen el tiempo o los recursos para evaluar modelos utilizando datos que reflejen el uso del mundo real. Así que simplifican. Construyen algo que puede realizar una tarea bien calificada y medible, y asumen que es un pequeño paso en la dirección correcta. A veces eso funciona, ya veces no. Cuando no es así, nos agrupan con una tecnología que empeora sutilmente nuestras vidas, aunque al principio pueda parecer una mejora. Idealmente, una evaluación de cualquier modelo de modificación de texto ponderaría las palabras por su importancia para la comprensión de oraciones, o usaría heurística. que penalizan severamente a los modelos que devuelven la palabra incorrecta cuando solo falta una vocal. No está claro cuál sería la evaluación perfecta, pero vale la pena investigarla, porque la comunicación humana es mucho más que un gran concurso de ortografía distribuido. Si la tecnología del proceso se detuviera con cada modelo individual, entonces la situación no sería tan mala. . Los sistemas mal diseñados serían reemplazados por otros mejores con el tiempo. Desafortunadamente, existen otros procesos históricos más complicados en el desarrollo tecnológico. Las decisiones subóptimas pueden quedar fijadas en su lugar mediante un desarrollo posterior. Consideremos el caso de Swypo. Un amigo mío me presentó recientemente el término swypo, que se refiere a las palabras incorrectas en los mensajes que se crean cuando se usa la interfaz de deslizamiento de la pantalla táctil para dibujar letras. . Parte del problema es que la interfaz tiene que interpretar la letra deseada. Intentó enviarme el mensaje “Querré decírtelo en persona” y en su lugar recibí “Te llevaré al infierno en persona”. Parece que la obsesión del modelo de autocorrección con la ortografía perfecta ahora está afectando una segunda capa. de tecnología. La interfaz de deslizamiento utilizada por mi amigo intenta generar secuencias de palabras escritas correctamente. Al hacerlo, crea oraciones sintácticamente incómodas que están tan lejos de la intención original que han generado una nueva forma de comedia. [6]Así es como la falla del aprendizaje automático se convierte en un problema sistémico. Se toman atajos iniciales que parecen razonables y dan como resultado modelos que brindan una apariencia superficial de utilidad pero crean una fina capa de frustración e ineficiencia. Esos enfoques y sus problemas inherentes se fijan en su lugar mediante las capas posteriores de tecnología que se construyen en la parte superior. Las decisiones poco acertadas y apresuradas se convierten en la base de nuestros dispositivos. Este proceso no es nuevo, la historia está plagada de ejemplos, siendo el teclado qwerty uno de los más evidentes. Pero con el aprendizaje automático, esta histéresis tecnológica promete acelerarse. Los atajos en el desarrollo y las opciones de diseño subóptimas se suman para crear un mundo de fallas sistémicas sutiles. ¿Cómo podemos evitar esto? Aquí hay una prueba. Si es un científico de datos o un desarrollador que crea un modelo de aprendizaje automático, debe tener muy claro cómo elegirá el modelo para implementar. Si su criterio de selección se basa en algún tipo de métrica estándar de ML (como RMSE), entonces debe preguntarse cómo una unidad de reducción en esa métrica afectará el proceso comercial o los usuarios de ese modelo. Si no puede proporcionar una respuesta clara a esa pregunta, es posible que no esté resolviendo el problema en absoluto. Debe volver a las partes interesadas y tratar de comprender exactamente cómo se utilizará el modelo, y luego diseñar una métrica de evaluación que estime el impacto en el mundo real. Aún puede optimizar algo como RMSE, pero elegirá un modelo basado en cómo afectará a las personas, e incluso podría descubrir que su modelo no agrega ningún valor. En ese caso, el mejor servicio que puede hacer a la sociedad es convencer a las partes interesadas de que no implementen hasta que se desarrolle un modelo mejorado.[1] Ejemplo generado en la app de SMS de un Smartphone Google Pixel 4.[2] Keith Rayner, Sarah J. White, Rebecca L. Johnson y Simon P. Liversedge, Raeding Wrods With Jubmled Lettres There Is a Cost2006,
Ciencia psicológica, 17 (3), 192–193[3] Peter Norvig, Cómo escribir un corrector ortográfico (2007)[4] Daniel Jurafsky y James H. Martin. Corrección ortográfica y la
Canal ruidoso (2021) https://web.stanford.edu/~jurafsky/slp3/B.pdf[5] Hládek D, Staš J, Pleva M. Encuesta de corrección ortográfica automática. (2020); Electrónica. 9(10):1670. https://doi.org/10.3390/electronics9101670[6] Muchos ejemplos se recopilan aquí https://www.damnyouautocorrect.com/