OpenAI, fundada por Elon Musk, ha abierto las puertas de su "gimnasio de seguridad" diseñado para mejorar la capacitación de los agentes de aprendizaje de refuerzo.

OpenAI describe Safety Gym como "un conjunto de entornos y herramientas para medir el progreso hacia los agentes de aprendizaje de refuerzo que respetan las restricciones de seguridad durante el entrenamiento".

Básicamente, Safety Gym es el equivalente de software de su observador para asegurarse de que no se lastime. Y al igual que un buen observador, verificará su formulario.

"También proporcionamos un método estandarizado para comparar algoritmos y qué tan bien evitan errores costosos mientras aprenden", dice OpenAI.

“Si el aprendizaje de refuerzo profundo se aplica al mundo real, ya sea en robótica o en tareas basadas en Internet, será importante contar con algoritmos que sean seguros incluso mientras se aprende, como un automóvil autónomo que puede aprender a evitar accidentes sin tener que para experimentarlos ".

El aprendizaje de refuerzo se basa en prueba y error, con entrenamiento de IA para obtener la mejor recompensa posible de la manera más eficiente. El problema es que esto puede conducir a un comportamiento peligroso que podría resultar problemático.

Tomando el ejemplo del auto sin conductor, no querrás que una IA decida dar la vuelta a la rotonda por el camino equivocado solo porque es el camino más rápido hacia la salida final.

OpenAI está promoviendo el uso del "aprendizaje de refuerzo restringido" como una posible solución. Al implementar funciones de costos, los agentes consideran las compensaciones que aún logran resultados definidos.

En una publicación de blog, OpenAI explica las ventajas de usar el aprendizaje de refuerzo restringido con el ejemplo de un auto sin conductor:

“Supongamos que el automóvil gana una cantidad de dinero por cada viaje que completa y tiene que pagar una multa por cada colisión. En RL normal, elegirías la colisión al comienzo del entrenamiento y la mantendrás fija para siempre. El problema aquí es que si el pago por viaje es lo suficientemente alto, al agente puede no importarle si tiene muchas colisiones (siempre que pueda completar sus viajes). De hecho, incluso puede ser ventajoso conducir imprudentemente y arriesgarse a esas colisiones para obtener el pago. Hemos visto esto antes cuando entrenamos agentes de RL sin restricciones.

Por el contrario, en RL restringido, elegiría la tasa de colisión aceptable al comienzo de la capacitación y ajustaría la multa hasta que el agente cumpla con ese requisito. Si el automóvil se está metiendo en demasiadas defensas, aumentará la multa hasta que ese comportamiento ya no sea incentivado ”.

Los entornos de Safety Gym requieren agentes de inteligencia artificial (se incluyen tres: Point, Car y Doggo) para navegar en entornos desordenados para lograr un objetivo, un botón o una tarea de empuje. Hay dos niveles de dificultad para cada tarea. Cada vez que un agente realiza una acción insegura, una luz roja de advertencia parpadea alrededor del agente e incurrirá en un costo.

En el futuro, OpenAI ha identificado tres áreas de interés para mejorar los algoritmos para el aprendizaje de refuerzo restringido:

  1. Mejora del rendimiento en los entornos actuales de Safety Gym.
  2. Uso de herramientas de Safety Gym para investigar el aprendizaje de transferencia segura y los problemas de cambio de distribución.
  3. Combinando RL restringido con especificaciones implícitas (como preferencias humanas) para recompensas y costos.

OpenAI espera que Safety Gym pueda facilitar a los desarrolladores de IA la colaboración en materia de seguridad en toda la industria a través del trabajo en sistemas abiertos y compartidos.

¿Interesado en escuchar a líderes de la industria discutir temas como este? Asista a la 5G Expo, IoT Tech Expo, Blockchain Expo, AI & Big Data Expo y Cyber ​​Security & Cloud Expo World Series con eventos próximos en Silicon Valley, Londres y Amsterdam.






Dejar respuesta

Please enter your comment!
Please enter your name here