Avances en Inteligencia Artificial con aprendizaje por refuerzo

Avances en Inteligencia Artificial con aprendizaje por refuerzo

Introducción a la Inteligencia Artificial

La inteligencia artificial ha logrado avances significativos en la última década, gracias a una técnica en la que la computadora actúa de manera aleatoria a partir de un conjunto de opciones y es recompensada o castigada por cada movimiento correcto o incorrecto. Esta técnica es la más famosamente empleada en AlphaZero, el programa de Google DeepMind que logró la maestría en los juegos de ajedrez, shogi y Go en 2018. El mismo enfoque ayudó al programa AlphaStar a alcanzar un nivel de juego de “gran maestro” en el videojuego Starcraft II.

Premio Turing a la Inteligencia Artificial

El miércoles, dos académicos de la inteligencia artificial fueron galardonados por avanzar en el campo del aprendizaje por refuerzo, un enfoque muy amplio sobre cómo una computadora procede en un entorno desconocido. Andrew G. Barto, profesor emérito en el Departamento de Informática y Ciencias de la Computación de la Universidad de Massachusetts, Amherst, y Richard S. Sutton, profesor de ciencias de la computación en la Universidad de Alberta, Canadá, fueron galardonados conjuntamente con el Premio Turing 2025 por la Asociación para la Maquinaria de Computación. El premio de la ACM incluye un millón de dólares y es ampliamente considerado como el equivalente en la industria de la computación a un Premio Nobel.

Aprendizaje por Refuerzo

El aprendizaje por refuerzo puede pensarse por analogía con un ratón en un laberinto: el ratón debe encontrar su camino a través de un entorno desconocido hacia una recompensa final, el queso. Para hacerlo, el ratón debe aprender qué movimientos parecen conducir al progreso y cuáles conducen a callejones sin salida. Los neurocientíficos y otros han hipotetizado que las entidades inteligentes, como los ratones, tienen un modelo interno del mundo, que les permite retener lecciones de explorar laberintos y otros desafíos, y formular planes.

Desarrollo del Aprendizaje por Refuerzo

Sutton y Barto hipotetizaron que una computadora podría ser hecha para formular un modelo interno del estado de su mundo. Los programas de aprendizaje por refuerzo absorben información sobre el entorno, sea un laberinto o un tablero de ajedrez, como su entrada. El programa actúa de manera algo aleatoria al principio, probando diferentes movimientos en ese entorno. Los movimientos ya sea reciben recompensas o carecen de recompensas. Esa retroalimentación, positiva y negativa, comienza a formar un cálculo por parte del programa, una estimación de qué recompensas se pueden obtener haciendo diferentes movimientos. Con base en esa estimación, el programa formula una política para guiar acciones futuras hacia el éxito.

Implicaciones del Aprendizaje por Refuerzo

El aprendizaje por refuerzo puede tener implicaciones para cómo la creatividad y el juego libre pueden ocurrir como una expresión de la inteligencia, incluyendo en la inteligencia artificial. Barto y Sutton han enfatizado la importancia del juego en el aprendizaje. Durante un simposio de 2020 sobre inteligencia artificial, Sutton señaló que en el aprendizaje por refuerzo, la curiosidad tiene un papel de bajo nivel, para impulsar la exploración. El juego puede ser una de las grandes cosas que las personas hacen. Sutton dijo que el juego puede ser una de las grandes cosas que las personas hacen. En resumen, el aprendizaje por refuerzo es un campo en constante evolución, con implicaciones significativas para el futuro de la inteligencia artificial y su capacidad para aprender y adaptarse en entornos desconocidos. La investigación de Barto y Sutton ha sentado las bases para una teoría computacional de la inteligencia, lo que puede tener un impacto profundo en la forma en que diseñamos y desarrollamos sistemas de inteligencia artificial en el futuro.