El error cuadrático medio (MSE) es la opción más popular (y básica) para la función de pérdida de un modelo* y tiende a ser la primera que le enseñan en su curso de ciencia de datos para principiantes. En una publicación anterior, vimos cómo usarlo para dos propósitos:Evaluación del desempeño: de un vistazo, ¿qué tan bien le está yendo a nuestro modelo? En otras palabras, ¿podemos obtener una lectura rápida de lo que estamos trabajando?Modelo mejoramiento: ¿Es este el mejor ajuste posible o podemos mejorarlo? En otras palabras, ¿qué modelo se acerca más a nuestros puntos de datos? El resultado fue que el MSE es basura para la evaluación del modelo pero maravilloso para la optimización. El objetivo de la evaluación del desempeño es que una persona (tú, yo, quien sea) lea una partitura y comprenda algo sobre nuestro modelo. El objetivo de la optimización del modelo es que una máquina determine cuál sería la mejor configuración para su modelo para que se ajuste a sus datos. Una forma más poética de resumir todo esto es que el MSE es malo para los humanos, pero bueno para las máquinas. necesidades humanas, el error cuadrático medio (RMSE) está en una escala más conveniente que el MSE y la desviación absoluta media (MAD) es la mejor del grupo. Para calcular la MAD, simplemente coloca el signo en todos los errores y toma el promedio. En otras palabras, el MAD literalmente le brinda el tamaño promedio de los errores de su modelo, lo que lo convierte en la métrica de evaluación más intuitiva que existe. el artículo anterior, antes de seguir leyendo).
MSE es malo para los humanos, pero bueno para las máquinas.
En este artículo, explicaré por qué el MSE es la métrica favorita de su máquina (no la suya; estaría ENCANTADO si le encantara) y por qué es mejor para la optimización que el RMSE y el MAD. También les mostraré una situación en la que el MSE pierde la carrera. ¡Vamos a sumergirnos!Imagen creada por el autor. Ejem, las máquinas no aman a nadie ni a nada. Sin embargo, hay personas que aman el MSE, y la máquina está programada para reflejar su amor. Estas personas son los ingenieros que construyen algoritmos de optimización.
Hay una buena razón por la que la primera derivada que te enseñan es x²: en cálculo, los cuadrados son muy fáciles.
Los profesionales se enorgullecen de implementar algoritmos de optimización para ser tan eficientes computacionalmente como sea posible, por amor y respeto por las máquinas. Bromear. Por amor y respeto por el medio ambiente y su billetera, más bien. Los algoritmos ineficientes son costosos, por lo que los evitamos. Si desea utilizar un algoritmo de optimización (o cálculo) para encontrar rápidamente la configuración de parámetros ideal que le brinda lo mejor, ¡lo más óptimo! — rendimiento, es bueno tener una función conveniente para trabajar. Y es difícil vencer al MSE en conveniencia de optimización. Hay una buena razón por la que la primera derivada que te enseñan es x²: en cálculo, los cuadrados son muy fáciles. Lo siguiente que te enseñan en cálculo 101 es qué hacer con constantes y sumas, ya que también son muy fáciles. ¿Adivina qué? ¡Cuadrados, sumas y constantes (1/n) es la fórmula completa para MSE! El MSE suele ser el más eficiente que existe. ¿Qué pasaría si usara RMSE como su función de pérdida? (Después de todo, es la métrica más significativa). Obtendría el mismo resultado… el modelo ganador será el mismo independientemente de si optimiza RMSE o MSE, pero es poco probable que tenga otra opción. La función de pérdida nunca será RMSE a menos que tenga demasiado tiempo libre. ¿Por qué?
Los algoritmos que afirman usar RMSE en realidad solo optimizan MSE bajo el capó, pero escriben la respuesta con una raíz cuadrada en el último paso para su placer visual.
Aunque la solución MSE ganadora es la misma que la solución RMSE ganadora, la eficiencia dicta que ningún ingeniero que se precie utilizará RMSE en lugar de MSE en un algoritmo de optimización. En su lugar, la máquina usará MSE para encontrar la solución y tal vez haga una raíz cuadrada al final para apaciguar sus extrañas debilidades estéticas. ¿Por qué el RMSE es tan repugnante para los entusiastas de la eficiencia? Cálculo, por eso. Tomar la derivada de las cosas al cuadrado es fácil. (¿Recuerdas d/dx x²? 2x. Fácil.) Las derivadas de sumas y constantes también son fáciles. Las derivadas de todas ellas junto con una raíz cuadrada en la parte superior son un dolor de cabeza innecesario, especialmente si la solución termina siendo la misma. Trabajar directamente con RMSE en lugar de MSE agrega una capa de dolor de cabeza (y fracasos adicionales): es ineficiente para implementarlo así. ¿Qué pasa con el MAD? ¿No lo preferíamos a MSE hace un momento? Claro, pero el MAD (fórmula aquí) tiene una función de valor absoluto dentro, que tiene una esquina afilada. Las cosas puntiagudas no son su amigo en cálculo, por lo que optimizar el MAD es más costoso que optimizar el MSE. Pero hay buenas razones para hacerlo de todos modos. La principal es que maneja los valores atípicos mucho mejor que el MSE. El MSE es demasiado sensible a los valores atípicos, por lo que los errores grandes tienen demasiada influencia sobre la solución.
El MSE maneja mal los valores atípicos. El MAD es mejor para tratar con ellos.
¿Por qué la MSE se asusta ante la presencia de valores atípicos? Los valores atípicos tienen grandes errores… ¿y ahora estamos tomando ese gran número y elevándolo al cuadrado? ¡Es un número masivo! Si un gran número se sumó a la pérdida y está tratando de reducir la pérdida lo más posible, la forma más rápida es reducir el tamaño de ese error ofensivo. ¿Cómo lo harías tú? Simple. Simplemente tire de la línea hacia el valor atípico. Con MSE, el valor atípico prácticamente se hace cargo de su solución. Con MAD, no hay reacción exagerada. Entonces, ¿por qué no usamos MAD en todas partes? La implementación importa. MSE es más conveniente para trabajar y es más probable que esté disponible para usted como algo que está integrado bajo el capó de cualquier código que esté a punto de tomar prestado. ¿Es significativo? Esto es lo que quieres? ¿Es la cosa para su problema? No necesariamente. Es una función de pérdida rudimentaria y fácil de optimizar. Y es por eso que está en todas partes.** Pero existen otras funciones de pérdida que a veces serán una mejor opción para su problema de modelado y ahora está facultado para buscarlas. Si se divirtió aquí y está buscando una curso completo de IA aplicada diseñado para ser divertido tanto para principiantes como para expertos, aquí está el que hice para su diversión:* “Función de pérdida” es la palabra de aprendizaje automático para “función objetiva”: son lo mismo.
** El MSE también es muy conveniente para la inferencia estadística.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…