En la serie de redes neuronales AAC, hemos cubierto una amplia gama de temas relacionados con la comprensión y el desarrollo de redes neuronales Perceptron multicapa. Antes de leer este artículo sobre mínimos locales, póngase al día con el resto de la serie a continuación:
El entrenamiento de redes neuronales es un proceso complejo. Afortunadamente, no tenemos que entenderlo perfectamente para beneficiarnos de él: las arquitecturas de red y los procedimientos de capacitación que utilizamos realmente dan como resultado sistemas funcionales que logran una precisión de clasificación muy alta. Sin embargo, hay un aspecto teórico del entrenamiento que, a pesar de ser un tanto absurdo, merece nuestra atención.
Lo llamaremos "el problema de los mínimos locales".
Bueno, no estoy seguro. Cuando aprendí por primera vez sobre las redes neuronales, salí con la impresión de que los mínimos locales realmente son un obstáculo significativo para un entrenamiento exitoso, al menos cuando se trata de relaciones complejas de entrada-salida. Sin embargo, creo que investigaciones recientes están minimizando la importancia de los mínimos locales. Tal vez las nuevas estructuras de red y las técnicas de procesamiento hayan mitigado la gravedad del problema, o tal vez simplemente comprendamos mejor cómo las redes neuronales realmente navegan hacia la solución deseada.
Revisaremos el estado actual de los mínimos locales al final de este artículo. Por ahora, responderé a mi pregunta de la siguiente manera: los mínimos locales merecen nuestra atención porque, primero, nos ayudan a pensar más profundamente sobre lo que realmente está sucediendo cuando entrenamos una red a través del descenso de gradiente, y segundo, porque los mínimos locales son: o al menos fueron—Consideró un impedimento significativo para la implementación exitosa de redes neuronales en sistemas de la vida real.
En la Parte 5, consideramos el "tazón de error" que se muestra a continuación, y describí el entrenamiento como esencialmente una búsqueda del punto más bajo en este tazón.
(Nota: A lo largo de este artículo, mis imágenes y explicaciones se basarán en nuestra comprensión intuitiva de las estructuras tridimensionales, pero tenga en cuenta que los conceptos generales no se limitan a las relaciones tridimensionales. De hecho, con frecuencia utilizamos redes neuronales cuya dimensionalidad excede por mucho dos variables de entrada y una variable de salida).
Si fuera a saltar a este tazón, se deslizaría hacia abajo cada vez. No importa donde comiences, terminará en el punto más bajo de toda la función de error. Este punto más bajo es el mínimo global. Cuando una red ha convergido en el mínimo global, ha optimizado su capacidad para clasificar los datos de entrenamiento, y En teoria, este es el objetivo fundamental de la capacitación: continuar modificando los pesos hasta alcanzar el mínimo global.
Sin embargo, sabemos que las redes neuronales son capaces de aproximar relaciones de entrada-salida extremadamente complejas. El error que aparece arriba no encaja exactamente en la categoría "extremadamente complejo". Es simplemente un gráfico de la función (f (x, y) = x ^ 2 + y ^ 2 ).
Pero ahora imagine que la función de error se ve así:
O esto:
O esto:
Si saltas al azar a una de estas funciones, a menudo te deslizarás hacia un mínimo local. Estaría en el punto más bajo de una parte localizada del gráfico, pero es posible que no esté cerca del global mínimo.
Lo mismo le puede pasar a una red neuronal. El descenso de gradiente depende de local información que, esperamos, conducirá una red hacia el global mínimo. La red no tiene conocimiento previo sobre las características de la superficie de error general y, en consecuencia, cuando llega a un punto que parece ser el fondo de la superficie de error basado en información local, no puede extraer un mapa topográfico y determinar que necesita volver cuesta arriba para encontrar el punto que es realmente más bajo que todos los demás.
Cuando implementamos el descenso de gradiente básico, le decimos a la red: "Encuentre el fondo de una superficie de error y quédese allí". No estamos diciendo: "Encuentre el fondo de una superficie de error, anote sus coordenadas y luego siga caminando. cuesta arriba y abajo hasta encontrar el siguiente. Avisame cuando termines."
Es razonable suponer que el mínimo global representa la solución óptima y concluir que los mínimos locales son problemáticos porque la capacitación podría "estancarse" en un mínimo local en lugar de continuar hacia el mínimo global.
Creo que esta suposición es válida en muchos casos, pero una investigación bastante reciente sobre superficies de pérdida de redes neuronales sugiere que las redes de alta complejidad en realidad pueden beneficiarse de los mínimos locales, porque una red que encuentra el mínimo global será sobreentrenada y, por lo tanto, será menos efectivo al procesar nuevas muestras de entrada.
Otro problema que entra en juego aquí es una característica de superficie llamada punto de silla de montar; Puedes ver un ejemplo en la siguiente gráfica. Es posible que, en el contexto de aplicaciones de redes neuronales reales, los puntos de silla de montar en la superficie de error sean, de hecho, una preocupación más seria que los mínimos locales.
Espero que hayan disfrutado esta discusión sobre los mínimos locales. En el próximo artículo, discutiremos algunas técnicas que ayudan a una red neuronal a alcanzar el mínimo global (si es que eso es lo que queremos que haga).
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…