Canadienses dicen haber encontrado algoritmo que siempre gana al poker en el largo plazo


Un nuevo algoritmo de las variantes de poker más populares puede jugar esencialmente perfecto. Sus creadores dicen que es prácticamente “incapaz de perder contra cualquier oponente en un juego justo”.

Se trata de un paso más allá de un programa de ordenador que puede vencer a los mejores jugadores humanos, como la computadora ajedrecista de IBM Deep Blue se hizo famosa en 1997 contra Garry Kasparov, es su mejor momento cuando era campeón del mundo.

El programa de poker ideado por el informático Michael Bowling y sus colegas de la Universidad de Alberta en Edmonton, Canadá, junto con el desarrollador de software finlandés Oskari Tammelin, se desempeñó a la perfección, para todos los efectos.

Eso significa que esta variante particular de poker, heads-up limit hold’em (HULHE), se puede considerar resuelto.

La estrategia de los autores han calculado que es tan cercano a la perfección “como para hacer inútil seguir trabajando en este juego”, dice Eric Jackson, investigador informático-poker con sede en Menlo Park, California.

“Creo que va a ser una sorpresa para los expertos que un juego tan grande se haya resuelto tan pronto”, añade Jackson.

Algunos otros juegos populares se han resuelto antes. En particular, en 2007 un equipo del mismo departamento de ciencias informáticas en Alberta – incluyendo Neil Burch, un co-autor del estudio más reciente – damas.

Pero el poker es más difícil de resolver otros juegos. como las damas, ya que son ejemplos de juegos de información perfecta, en el que los jugadores tienen un conocimiento completo de todos los eventos pasados ​​y de la situación actual en un juego. En el poker, por el contrario, hay algunas cosas que un jugador no sabe: más importante, que cartas del otro jugador han sido repartidas. La clase de juegos con información incompleta es especialmente interesante para los economistas y teóricos del juego, ya que incluye problemas prácticos tales como la búsqueda de estrategias óptimas para las subastas y negociaciones.

En el poker, el principal desafío es tratar con la inmensa cantidad de posibles maneras en que un juego puede ser jugado. Bowling y sus colegas han estudiado una de las formas más populares, llamado Texas Hold’em. Con sólo dos jugadores, el juego se convierte en el mano a mano, y es un juego de “límite” cuando se ha fijado tamaño de las apuestas y un número fijo de subidas. Hay 3.16 × 10 elevado a 17 estados que HULHE puede alcanzar, y 3,19 × 10 elevado a 14 puntos posibles en el que un jugador debe tomar una decisión.

Bowling y sus colegas diseñaron su algoritmo para aprender de la experiencia, llegar a las habilidades de nivel campeón requería jugar más de 1500 juegos. Al principio, hizo sus decisiones al azar, pero luego se actualiza en sí uniendo un valor ‘arrepentimiento’ para cada decisión, en función de lo mal que le fue.

Este procedimiento, conocido como la reducción al mínimo arrepentimiento contrafactual, ha sido ampliamente adoptado en el Concurso Anual de Ordenadores de Poker, que se ha realizado desde 2006. Pero Bowling y sus colegas han mejorado al permitir que el algoritmo pueda volver a evaluar las decisiones que se consideran pobres en las rondas anteriores.

Un nuevo algoritmo de la computadora puede jugar una de las variantes de poker más populares esencialmente de manera perfecta. Sus creadores dicen que es prácticamente “incapaz de perder contra cualquier oponente en un juego justo”.

La otra innovación crucial fue el manejo de la enorme cantidad de información que necesitan ser almacenados para desarrollar y utilizar la estrategia, que es del orden de 262 terabytes. Este volumen de datos exige almacenamiento en disco, que es lento para el acceso. Los investigadores calcularon a cabo un método de compresión de datos que reduce el volumen a un más manejables 11 terabytes y que añade sólo el 5% al ​​tiempo de cálculo de la utilización de almacenamiento en disco.

“Creo que el algoritmo de arrepentimiento contrafactual es el gran avance”, dice el científico de la computación Jonathan Shapiro de la Universidad de Manchester, Reino Unido. “Pero ellos han hecho varias otras cosas muy inteligentes para que este problema sea computacionalmente factible.”

Juego de Bluff

Como parte de su estrategia de desarrollo, el equipo aprendió a inyectar una cierta dosis de bluff en sus obras de teatro. Aunque el bluff parece un elemento muy humano, psicológico del juego, es de hecho parte de la teoría de juegos – y, por lo general, de poker ordenador. “El fanfarronear se cae de las matemáticas del juego”, dice Bolos, y se puede calcular con qué frecuencia debe bluffear para obtener mejores resultados.

Por supuesto, ningún algoritmo de poker puede estar matemáticamente garantizado para ganar todos los partidos, ya que el juego contiene un gran elemento de azar basado en la mano que se le repartió. Pero Bowling y sus colegas han demostrado que su algoritmo siempre gana en el largo plazo.

El problema es sólo lo que los investigadores llaman “esencialmente resueltos ‘, lo que significa que hay un muy pequeño margen por el que, en teoría, el equipo podría ser golpeado por la habilidad y no al azar. Pero este margen es insignificante en la práctica.

Bowling dice que el enfoque podría ser útil en situaciones de la vida real, cuando uno tiene que tomar decisiones con información incompleta – por ejemplo, para la gestión de una cartera de inversiones.

El equipo se centra ahora en la aplicación de su enfoque de la toma de decisiones médicas, en colaboración con especialistas en diabetes.

¿Crees que este será la mejor máquina jugadora de póker, o podrían crear una aún mejor?

Saludos Cordiales,
Staff CHILEALLIN.com

Articulos Relacionados

Agregar un comentario

Tu dirección de correo electrónico no será publicada. Los campos requeridos están marcados *