Comprender los mínimos locales en el entrenamiento de redes neuronales

En la serie de redes neuronales AAC, hemos cubierto una amplia gama de temas relacionados con la comprensión y el desarrollo de redes neuronales Perceptron multicapa. Antes de leer este artículo sobre mínimos locales, póngase al día con el resto de la serie a continuación:

Cómo realizar la clasificación utilizando una red neuronal: ¿qué es el perceptrón?
Cómo usar un ejemplo simple de red neuronal de Perceptron para clasificar datos
Cómo entrenar una red neuronal básica de perceptrón
Comprensión del entrenamiento simple de redes neuronales
Una introducción a la teoría del entrenamiento para redes neuronales
Comprender la tasa de aprendizaje en redes neuronales
Aprendizaje automático avanzado con el perceptrón multicapa
La función de activación sigmoidea: activación en redes neuronales de perceptrón multicapa
Cómo entrenar una red neuronal de perceptrón multicapa
Comprender las fórmulas de entrenamiento y la propagación hacia atrás para perceptrones multicapa
Arquitectura de red neuronal para una implementación de Python
Cómo crear una red neuronal perceptrón multicapa en Python
Procesamiento de señales utilizando redes neuronales: validación en el diseño de redes neuronales
Conjuntos de datos de entrenamiento para redes neuronales: cómo entrenar y validar una red neuronal de Python
¿Cuántas capas y nodos ocultos necesita una red neuronal?
Cómo aumentar la precisión de una red neuronal de capa oculta
Incorporación de nodos de sesgo en su red neuronal
Comprender los mínimos locales en el entrenamiento de redes neuronales

El entrenamiento de redes neuronales es un proceso complejo. Afortunadamente, no tenemos que entenderlo perfectamente para beneficiarnos de él: las arquitecturas de red y los procedimientos de capacitación que utilizamos realmente dan como resultado sistemas funcionales que logran una precisión de clasificación muy alta. Sin embargo, hay un aspecto teórico del entrenamiento que, a pesar de ser un tanto absurdo, merece nuestra atención.

Lo llamaremos "el problema de los mínimos locales".

¿Por qué los mínimos locales merecen nuestra atención?

Bueno, no estoy seguro. Cuando aprendí por primera vez sobre las redes neuronales, salí con la impresión de que los mínimos locales realmente son un obstáculo significativo para un entrenamiento exitoso, al menos cuando se trata de relaciones complejas de entrada-salida. Sin embargo, creo que investigaciones recientes están minimizando la importancia de los mínimos locales. Tal vez las nuevas estructuras de red y las técnicas de procesamiento hayan mitigado la gravedad del problema, o tal vez simplemente comprendamos mejor cómo las redes neuronales realmente navegan hacia la solución deseada.

Revisaremos el estado actual de los mínimos locales al final de este artículo. Por ahora, responderé a mi pregunta de la siguiente manera: los mínimos locales merecen nuestra atención porque, primero, nos ayudan a pensar más profundamente sobre lo que realmente está sucediendo cuando entrenamos una red a través del descenso de gradiente, y segundo, porque los mínimos locales son: o al menos fueron—Consideró un impedimento significativo para la implementación exitosa de redes neuronales en sistemas de la vida real.

¿Qué es un mínimo local?

En la Parte 5, consideramos el "tazón de error" que se muestra a continuación, y describí el entrenamiento como esencialmente una búsqueda del punto más bajo en este tazón.

(Nota: A lo largo de este artículo, mis imágenes y explicaciones se basarán en nuestra comprensión intuitiva de las estructuras tridimensionales, pero tenga en cuenta que los conceptos generales no se limitan a las relaciones tridimensionales. De hecho, con frecuencia utilizamos redes neuronales cuya dimensionalidad excede por mucho dos variables de entrada y una variable de salida).

Si fuera a saltar a este tazón, se deslizaría hacia abajo cada vez. No importa donde comiences, terminará en el punto más bajo de toda la función de error. Este punto más bajo es el mínimo global. Cuando una red ha convergido en el mínimo global, ha optimizado su capacidad para clasificar los datos de entrenamiento, y En teoria, este es el objetivo fundamental de la capacitación: continuar modificando los pesos hasta alcanzar el mínimo global.

Sin embargo, sabemos que las redes neuronales son capaces de aproximar relaciones de entrada-salida extremadamente complejas. El error que aparece arriba no encaja exactamente en la categoría "extremadamente complejo". Es simplemente un gráfico de la función (f (x, y) = x ^ 2 + y ^ 2 ).

Pero ahora imagine que la función de error se ve así:

O esto:

Si saltas al azar a una de estas funciones, a menudo te deslizarás hacia un mínimo local. Estaría en el punto más bajo de una parte localizada del gráfico, pero es posible que no esté cerca del global mínimo.

Lo mismo le puede pasar a una red neuronal. El descenso de gradiente depende de local información que, esperamos, conducirá una red hacia el global mínimo. La red no tiene conocimiento previo sobre las características de la superficie de error general y, en consecuencia, cuando llega a un punto que parece ser el fondo de la superficie de error basado en información local, no puede extraer un mapa topográfico y determinar que necesita volver cuesta arriba para encontrar el punto que es realmente más bajo que todos los demás.

Cuando implementamos el descenso de gradiente básico, le decimos a la red: "Encuentre el fondo de una superficie de error y quédese allí". No estamos diciendo: "Encuentre el fondo de una superficie de error, anote sus coordenadas y luego siga caminando. cuesta arriba y abajo hasta encontrar el siguiente. Avisame cuando termines."

¿Realmente queremos encontrar el mínimo global?

Es razonable suponer que el mínimo global representa la solución óptima y concluir que los mínimos locales son problemáticos porque la capacitación podría "estancarse" en un mínimo local en lugar de continuar hacia el mínimo global.

Creo que esta suposición es válida en muchos casos, pero una investigación bastante reciente sobre superficies de pérdida de redes neuronales sugiere que las redes de alta complejidad en realidad pueden beneficiarse de los mínimos locales, porque una red que encuentra el mínimo global será sobreentrenada y, por lo tanto, será menos efectivo al procesar nuevas muestras de entrada.

Otro problema que entra en juego aquí es una característica de superficie llamada punto de silla de montar; Puedes ver un ejemplo en la siguiente gráfica. Es posible que, en el contexto de aplicaciones de redes neuronales reales, los puntos de silla de montar en la superficie de error sean, de hecho, una preocupación más seria que los mínimos locales.

Conclusión

Espero que hayan disfrutado esta discusión sobre los mínimos locales. En el próximo artículo, discutiremos algunas técnicas que ayudan a una red neuronal a alcanzar el mínimo global (si es que eso es lo que queremos que haga).

Maria Montero

Me apasiona la fotografía y la tecnología que nos permite hacer todo lo que siempre soñamos. Soñadora y luchadora. Actualmente residiendo en Madrid.

Next Jack Dorsey y Pantera invierten en sistemas transparentes »

Previous « Informe de habilidades para desarrolladores de HackerRank: Go sigue siendo el idioma más deseado, JavaScript más conocido

Published by

Maria Montero

5 years ago

Monyet Hoki: Hanya dengan 200 Perak Bisa Dapat Bitcoin!

Main Slot Cuma Modal Receh? Bisa Banget! Siapa sangka cuma dengan modal bet 200 perak,…

2 months ago

Raspberry Pi

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…

2 years ago

AirPods Max 2: aquí están las características más solicitadas

Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…

2 years ago

Comprender los mínimos locales en el entrenamiento de redes neuronales

¿Por qué los mínimos locales merecen nuestra atención?

¿Qué es un mínimo local?

¿Realmente queremos encontrar el mínimo global?

Conclusión

Recent Posts

Monyet Hoki: Hanya dengan 200 Perak Bisa Dapat Bitcoin!

Máquina de mano Lean, Green, Raspberry Pi

Cómo pronosticar series de tiempo usando autorregresión

Aquí están todas las formas en que puede cargar su AirPods Pro

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

AirPods Max 2: aquí están las características más solicitadas

Comprender los mínimos locales en el entrenamiento de redes neuronales

¿Por qué los mínimos locales merecen nuestra atención?

¿Qué es un mínimo local?

¿Realmente queremos encontrar el mínimo global?

Conclusión

Related Post

Recent Posts

Monyet Hoki: Hanya dengan 200 Perak Bisa Dapat Bitcoin!

Máquina de mano Lean, Green, Raspberry Pi

Cómo pronosticar series de tiempo usando autorregresión

Aquí están todas las formas en que puede cargar su AirPods Pro

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

AirPods Max 2: aquí están las características más solicitadas