Nota del editor: este es un extracto editado de AI
Curso intensivo
, por Hadelin de Ponteves, publicado por Packt. Descubre más y
compre una copia del libro visitando aquí.

Cuando las personas se refieren a la IA hoy, algunos piensan en Machine
Aprendizaje, mientras que otros piensan en el aprendizaje por refuerzo. Caigo en el segundo
categoría. Siempre vi Machine Learning como modelos estadísticos que tienen el
capacidad de aprender algunas correlaciones, a partir de las cuales hacen predicciones sin
ser programado explícitamente Si bien esto es, de alguna manera, una forma de IA, máquina
El aprendizaje no incluye el proceso de tomar acciones e interactuar con un
entorno como lo hacemos los humanos. De hecho, como seres humanos inteligentes, lo que nosotros
seguir haciendo constantemente es lo siguiente:

  1. Observamos algunos aportes, ya sea lo que vemos
    con nuestros ojos, lo que escuchamos con nuestros oídos, o lo que recordamos en nuestra memoria
  2. Estas entradas son procesadas en nuestro cerebro.
  3. Finalmente, tomamos decisiones y tomamos medidas.

Este proceso de interacción con un entorno es lo que nosotros
están tratando de reproducirse en términos de inteligencia artificial. Y a eso
Hasta cierto punto, la rama de la IA que trabaja en esto es el aprendizaje por refuerzo. Esto es
la coincidencia más cercana a la forma en que pensamos; la forma más avanzada de artificial
Inteligencia, si vemos a la IA como la ciencia que intenta imitar (o superar)
Inteligencia humana

Este proceso de interacción con un entorno es lo que nosotros
están tratando de reproducirse en términos de inteligencia artificial. Y hasta ese punto,
la rama de la IA que trabaja en esto es el aprendizaje por refuerzo. Este es el
más cercano a la forma en que pensamos; la forma más avanzada de artificial
Inteligencia, si vemos a la IA como la ciencia que intenta imitar (o superar)
Inteligencia humana.

Reforzamiento
Aprendizaje
también tiene los resultados más impresionantes en aplicaciones comerciales de
AI. Por ejemplo, Alibaba aprovechó el aprendizaje por refuerzo para aumentar su ROI
en publicidad online en un 240% sin aumentar su presupuesto publicitario (ver
https://arxiv.org/pdf/1802.09756.pdf, página 9, Tabla 1 última fila (DCMAB)).

Los cinco principios del aprendizaje por refuerzo.

Comencemos por construir los primeros pilares de su intuición.
sobre cómo funciona el aprendizaje por refuerzo. Estos son los principios fundamentales de
Aprendizaje de refuerzo, que lo ayudará a comenzar con los fundamentos correctos y sólidos
en IA

Aquí están los cinco principios:

  1. Principio # 1: el sistema de entrada y salida
  2. Principio # 2: la recompensa
  3. Principio # 3: El entorno de IA
  4. Principio # 4: el proceso de decisión de Markov
  5. Principio # 5: Entrenamiento e inferencia

Principio # 1 – El sistema de entrada y salida

El primer paso es entender que hoy, todos los modelos de IA
se basan en el principio común de entradas y salidas. Cada forma de
Inteligencia artificial, incluidos modelos de aprendizaje automático, ChatBots,
los sistemas de recomendación, los robots y, por supuesto, los modelos de refuerzo de aprendizaje,
tome algo como entrada y devolverá otra cosa como salida.

En el aprendizaje por refuerzo, estas entradas y salidas tienen un
nombre específico: la entrada se llama estado o estado de entrada. La salida es el
Acción realizada por la IA. Y en el medio, no tenemos nada más que un
función que toma un estado como entrada y devuelve una acción como salida. Ese
La función se llama política. Recuerde el nombre "política" porque usted
a menudo lo verá en la literatura de IA.

Como ejemplo, considere un auto sin conductor. Intenta imaginar
cuál sería la entrada y la salida en ese caso.

La entrada sería lo que el sistema integrado de visión por computadora
ve, y la salida sería el próximo movimiento del automóvil: acelerar, reducir la velocidad,
gire a la izquierda, gire a la derecha o frene. Tenga en cuenta que la salida en cualquier momento (t) podría
muy bien se realizarán varias acciones al mismo tiempo. Por ejemplo, la conducción autónoma
el automóvil puede acelerar y al mismo tiempo girar a la izquierda. Del mismo modo, el
La entrada en cada momento (t) puede estar compuesta de varios elementos: principalmente la imagen
observado por el sistema de visión por computadora, pero también algunos parámetros del automóvil
como la velocidad actual, la cantidad de gas que queda en el tanque, etc.

Ese es el primer principio importante en Artificial
Inteligencia: es un sistema inteligente (una política) que toma algunos elementos
como entrada, hace su magia en el medio y devuelve algunas acciones para realizar como
salida. Recuerde que las entradas también se denominan estados. El siguiente importante
El principio es la recompensa.

Principio # 2 – La recompensa

Cada IA ​​tiene su rendimiento medido por un sistema de recompensa.
No hay nada confuso sobre esto; la recompensa es simplemente una métrica que
dígale a la IA qué tan bien lo hace con el tiempo.

El ejemplo más simple es una recompensa binaria: 0 o 1. Imagine un
IA que tiene que adivinar un resultado. Si la suposición es correcta, la recompensa será 1,
y si la suposición es incorrecta, la recompensa será 0. Esto podría muy bien ser el
sistema de recompensa definido para una IA; ¡realmente puede ser tan simple como eso!

Sin embargo, una recompensa no tiene que ser binaria. Puede ser
continuo. Considere el famoso juego de Breakout:

Imagina una IA jugando a este juego. Intenta averiguar qué
La recompensa sería en ese caso. Podría ser simplemente el puntaje; más precisamente, el
la puntuación sería la recompensa acumulada a lo largo del tiempo en un juego, y las recompensas
podría definirse como la derivada de esa puntuación.

Esta es una de las muchas formas en que podríamos definir un sistema de recompensas
para ese juego Diferentes IA tendrán diferentes estructuras de recompensa; lo haremos
construir cinco sistemas de recompensas para cinco aplicaciones diferentes del mundo real en este
libro.

Con eso en mente, recuerde esto también: el objetivo final
de la IA siempre será maximizar la recompensa acumulada con el tiempo.

Esos son los dos primeros principios básicos, pero fundamentales.
de Inteligencia Artificial tal como existe hoy; el sistema de entrada y salida, y
la recompensa. Lo siguiente a considerar es el entorno de IA.

Principio # 3 – El entorno de IA

El tercer principio es lo que llamamos una "IA
entorno ". Es un marco muy simple donde se definen tres cosas
en cada momento (t):

  • La entrada (el estado)
  • La salida (la acción)
  • La recompensa (la métrica de rendimiento)

Para todas y cada una de las IA basadas en el aprendizaje por refuerzo
que se construye hoy, siempre definimos un entorno compuesto por lo anterior
elementos. Sin embargo, es importante entender que hay más de
estos tres elementos en un entorno de IA dado.

Por ejemplo, si estás construyendo una IA para vencer a una carrera de autos
juego, el entorno también contendrá el mapa y la jugabilidad de ese juego.
O, en el ejemplo de un auto sin conductor, el medio ambiente también contendrá todo
los caminos por los que circula la IA y los objetos que los rodean
carreteras. Pero lo que siempre encontrarás en común al construir cualquier IA, son los
tres elementos de estado, acción y recompensa. El siguiente principio, el Markov
proceso de decisión, cubre cómo funcionan en la práctica.

Principio # 4 – El proceso de decisión de Markov

El proceso de decisión de Markov, o MDP, es simplemente un proceso
eso modela cómo la IA interactúa con el entorno a lo largo del tiempo. El proceso
comienza en t = 0, y luego, en cada siguiente iteración, es decir, en t = 1, t
= 2
, … t = n unidades de tiempo (donde la unidad puede ser cualquier cosa, por
ejemplo, 1 segundo), la IA sigue el mismo formato de transición:

  1. La IA observa el estado actual, s
  2. La IA realiza la acción, un
  3. La IA recibe la recompensa, rᚁ = R (S ᚁ, a ᚁ)
  4. La IA entra en el siguiente estado, Sᚁ +1

El objetivo de la IA es siempre el mismo en Refuerzo
Aprendizaje: es maximizar las recompensas acumuladas a lo largo del tiempo, es decir, la suma
de todos los r
= R (S ᚁ, a ᚁ)
recibido en cada transición.

El siguiente gráfico lo ayudará a visualizar y recordar
un MDP mejor, la base de los modelos de aprendizaje por refuerzo:

Ahora cuatro pilares esenciales ya están dando forma a su
intuición de la IA. Agregar un último importante completa la base de su
comprensión de la IA. El último principio es el entrenamiento y la inferencia; entrenando,
la IA aprende y, por inferencia, predice.

Nota del editor: descubra el último principio del aprendizaje por refuerzo y mucho más solicitando una copia del Curso intensivo de inteligencia artificial, disponible aquí. Sobre el autor: Hadelin de Ponteves es cofundador y director de tecnología de BlueLife AI, que aprovecha el poder de la Inteligencia Artificial de vanguardia para empoderar a las empresas a obtener ganancias masivas mediante la optimización de procesos, maximizando la eficiencia y aumentando la rentabilidad. Hadelin también es un emprendedor en línea que ha creado más de 50 cursos electrónicos educativos de alta calificación sobre temas como aprendizaje automático, aprendizaje profundo, inteligencia artificial y blockchain, que han llegado a más de 700,000 suscriptores en 204 países.

¿Interesado en escuchar a líderes de la industria discutir temas como este? Asista a la 5G Expo, IoT Tech Expo, Blockchain Expo, AI & Big Data Expo y Cyber ​​Security & Cloud Expo World Series con eventos próximos en Silicon Valley, Londres y Amsterdam.






Dejar respuesta

Please enter your comment!
Please enter your name here