Categories: CienciaNoticias

¿Cómo sabe si su modelo de clasificación es bueno?

Si es nuevo en el aprendizaje automático y desarrolló un modelo de clasificación, ¡felicidades! Quizás esté pensando, “¿y ahora qué?” Esa es una gran pregunta. Con la tecnología de aprendizaje automático automático, la creación de modelos es más accesible que nunca. La dificultad radica en determinar si ese modelo es bueno. En este artículo, exploraré cómo determinar si su modelo es satisfactorio para el caso de uso de su negocio (spoiler: no es blanco y negro). Antes de pasar a evaluar su modelo de clasificación, quiero aclarar que mientras los ejemplos dar en este artículo son todas las clasificaciones binarias, también hay problemas de clasificación multiclase. La diferencia es que en la clasificación binaria, la variable objetivo tiene solo dos valores, y en multiclase, tiene más de dos valores. Muchos de los cálculos métricos de los que hablo más adelante en el artículo cambiarán ligeramente para un modelo multiclase. , así que asegúrese de buscar la fórmula correcta si ese es el tipo de modelo que está evaluando.

“El rendimiento del modelo de aprendizaje automático es relativo y las ideas de qué puntaje puede lograr un buen modelo solo tienen sentido y solo pueden interpretarse en el contexto de los puntajes de habilidad de otros modelos también entrenados con los mismos datos”. -Jason Brownlee, machinelearningmastery.com

Dado que cada conjunto de datos de aprendizaje automático es diferente, el éxito es subjetivo. La única forma de hacer que la evaluación de los modelos de aprendizaje automático sea realmente objetiva es comparar diferentes modelos en el mismo conjunto de datos. Y, como un experimento científico, necesitamos un “grupo de control”. Un grupo de control en un experimento sería donde no hubo intervención y se midieron los resultados. Aquí es donde entra el modelo de referencia.Fuente: Unsplash Puede pensar en un modelo de referencia como poca o ninguna intervención. En un modelo de clasificación, aquí sería donde simplemente adivina el resultado que ocurre más (es decir, la moda), para cada observación. Así que… no mucho de un modelo. Pero es una línea de base útil para que cuando evalúe su modelo, digamos que está detectando fraude, pueda decir: “oye, mi modelo de regresión logística funcionó un 40% mejor que si asigné transacciones al azar como fraudulentas o no”. (Esta asignación aleatoria es la línea “sin habilidad” en la curva ROC, que cubriré con más detalle más adelante). Otra forma de establecer su línea de base es observar lo que su empresa está haciendo actualmente sin aprendizaje automático. Ya sea verificando manualmente ciertos criterios, usando fórmulas (como declaraciones si/entonces) o algo más, compare la tasa de éxito de ese proceso con su modelo. Una vez que tenga un modelo de referencia y otras opciones de modelo para compararlo, podemos comenzar para hablar de métricas de éxito. ¿Cómo calificará su modelo con respecto a la línea de base? Antes de revisar las opciones de métricas de rendimiento, hay algunas consideraciones que debe tener en cuenta. ¿Qué tan cómodo se siente con que su modelo cometa un error? ¿Cuáles serían las consecuencias en el mundo real? Estas son buenas preguntas para hacer al pensar en qué tan tolerante al riesgo es su caso de uso. Y sus respuestas pueden guiarlo sobre qué métricas usar para evaluar el modelo y qué umbrales establecer para ellas. Por ejemplo, si su modelo predice si alguien tiene una enfermedad o no, usted es muy reacio al riesgo. Las consecuencias asociadas con un falso negativo (decirle a alguien que no tiene una enfermedad cuando en realidad la tiene) son altas. Cuando hablamos de falsos negativos, verdaderos positivos, etc., puede resultar confuso. (La matriz de estos valores incluso se llama matriz de confusión; hablemos de la autoconciencia). Así que aquí hay una referencia visual rápida antes de pasar a calcular las métricas de rendimiento, usando el mismo ejemplo que el último párrafo:Imagen por autorOtra cosa que debe identificar antes de seleccionar métricas para evaluar su modelo es el desequilibrio de clases. Un conjunto de datos con clases equilibradas contendría aproximadamente la misma cantidad de observaciones para las instancias positivas y negativas de la variable de destino. Según su caso de uso, es posible que no sea factible tener clases equilibradas. Por ejemplo, si desea que su modelo detecte correos electrónicos no deseados, un valor positivo de la variable de destino significaría que el correo electrónico es correo no deseado. Sin embargo, la mayoría de los correos electrónicos enviados no son spam, por lo que su conjunto de datos estará naturalmente desequilibrado. ¡No hay necesidad de entrar en pánico! Solo tenga esto en cuenta cuando seleccione una métrica para evaluar su modelo: elija una que sea menos sensible al desequilibrio de clases.Fuente: UnsplashA continuación se muestran algunas métricas utilizadas para evaluar un modelo de clasificación. Esta no es una lista completa, pero cubre las métricas más comunes: Precisión: la precisión de un modelo es la relación entre las predicciones correctas y el número total de predicciones. Cuándo usarlo: cuando sus clases están equilibradas y desea para predecir ambas clases correctamente. Hay inconvenientes en usar solo la precisión si sus clases están desequilibradas: si hay pocas observaciones para su clase minoritaria, incluso si el modelo se equivocó en todas ellas, aún podría tener un puntaje de precisión alto. Ejemplo: si tiene un modelo que predice si una imagen contiene un gato o un perro, le interesan las predicciones correctas para ambas clases y un tipo de clasificación errónea no presenta más riesgo que otro. La precisión sería una buena manera de evaluar este modelo. Precisión: la precisión de un modelo es la proporción de verdaderos positivos a la suma de verdaderos positivos y falsos positivos. En lenguaje sencillo, esta es la proporción de identificaciones positivas de la variable de destino que fueron correctas. Cuándo usarlo: cuando desea minimizar los falsos positivos. Ejemplo: para el modelo de predicción de correo electrónico no deseado, un falso positivo tendría malas consecuencias para el destinatario del correo electrónico: el modelo identificaría un correo electrónico normal como correo no deseado (falso positivo) y se enviaría a otra carpeta cuando realmente ese correo electrónico contuviera información valiosa. En este caso, querrá utilizar la precisión para evaluar el modelo. Recuerde: la recuperación de un modelo (a veces denominada sensibilidad) es la proporción de verdaderos positivos a la suma de verdaderos positivos y falsos negativos. Cuándo usarlo: Cuando desee minimizar los falsos negativos. Ejemplo: para el modelo de predicción de enfermedades, realmente no desea decirle a alguien que no tiene una enfermedad cuando la tiene (falso negativo), por lo que le conviene usar el recuerdo para evaluar su modelo .Área bajo la curva (AUC): esta métrica mide el área debajo de la curva ROC, que es un gráfico de verdaderos positivos y falsos positivos en diferentes umbrales de clasificación. Cuándo usarla: cuando desee asegurarse de que su modelo supera al no -modelo de habilidad o si desea ver el rendimiento general del modelo. Ejemplo: La siguiente imagen muestra una curva AUC para un modelo de bajo rendimiento. La línea punteada representa las conjeturas aleatorias (el modelo sin habilidades), por lo que para este modelo, con un AUC de .54, apenas funciona mejor que conjeturas.Imagen del autor Puntuación F1: la puntuación F1 mide el rendimiento de un modelo en la clase positiva. Es el medio armónico de precisión y recuperación. Cuándo usarlo: cuando esté interesado tanto en la precisión como en la recuperación. También funciona bien en conjuntos de datos desequilibrados. Ejemplo: para el modelo de predicción de enfermedades, puede decidir que decirle a alguien que no tiene una enfermedad cuando está enfermo y decirle que sí la tiene cuando está bien son malos resultados. Dado que desea minimizar ambas ocurrencias, la puntuación F1 es una buena opción para evaluar su modelo. Una vez que haya determinado que su modelo funciona bien en comparación con el modelo de referencia, ¡todavía no ha terminado! Ahora necesita evaluar los resultados con un conjunto de datos de prueba. A menudo, esto se hace reteniendo un porcentaje de su conjunto de datos del entrenamiento para que pueda usarlo para probar su modelo. Un método más avanzado para realizar pruebas es la validación cruzada: esta técnica utiliza múltiples iteraciones de entrenamiento y pruebas con subconjuntos de datos y reduce parte de la variabilidad que ocurre cuando las pruebas solo se realizan una vez. Si su modelo funciona muy bien en el conjunto de datos de entrenamiento y no muy bien en el conjunto de datos de prueba, entonces tiene un caso de sobreajuste: su modelo se ajusta tan bien a los datos de entrenamiento que no puede ajustarse a otros conjuntos de datos. Tener una división entrenada, probada y validada se considera una buena práctica y ayuda a evitar el sobreajuste. Para obtener más información sobre la diferencia entre los conjuntos de datos de prueba y validación, consulte este artículo. Si su modelo no funciona bien en el conjunto de datos de entrenamiento o prueba, es posible que tenga un caso de ajuste insuficiente. Es una buena idea mirar otras opciones de modelo antes de descartar el caso de uso. Espero que ahora tenga una idea de si su modelo de aprendizaje automático es bueno. Si se ha dado cuenta de que su modelo no está a la altura, busque mi próximo artículo, donde analizo qué hacer si su modelo no está funcionando. Un agradecimiento especial a Minet Polsinelli, Mark Glissmann y Neil Ryan. Este artículo se publicó originalmente en community.alteryx.com.

aliintizar71

Recent Posts

Máquina de mano Lean, Green, Raspberry Pi

Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…

1 year ago

Cómo pronosticar series de tiempo usando autorregresión

Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…

1 year ago

Aquí están todas las formas en que puede cargar su AirPods Pro

Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…

1 year ago

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…

1 year ago

AirPods Max 2: aquí están las características más solicitadas

Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…

1 year ago

El remake de Dead Space continúa luciendo terriblemente genial en el nuevo tráiler de la historia

El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…

1 year ago