Polaris 2.0 Derrota Equipa Stoxpoker no Confronto Homem-M��quina
Na sequ��ncia do ��ltimo ver?o, depois da derrota contra humanos no primeiro Campeonato Poker Homem-M��quina organizado em Vancouver, Canad��, a Universidade de Alberta Computer Poker Research Group (CPRG) teve um ano para melhorar a sua colec??o de programas de poker, conhecido por Polaris, para a desforra deste ano. O seu esfor?o foi recompensado, j�� que o Polaris 2.0 derrotou uma equipa de humanos numa s��rie de confrontos de limit duplicados.
A competi??o teve lugar no Rio All-Suite Casino Hotel em Las Vegas, Nevada, durante o Gaming Life Expo no WSOP, com cada confronto a ter lugar em cada dia entre 3 e 6 de Julho. A equipa de humanos era composta por v��rios membros do site de coaching Stoxpoker. Ao contr��rio do ver?o passado onde os humanos tinham apenas dois competidores, Phil Laak e Ali Eslami, desta vez foram sete jogadores diferentes que participaram na competi??o incluindo, Nick Grudzien, Kyle Hendon, Rich McRoberts, Victor Acosta, Mark Newhouse, Ijay Palansky e Matt Hawrilenko.
Da mesma forma do que no confronto anterior, a competi??o consistiu de quatro sess?es na qual dois humanos jogavam em simultaneo mas separadamente m?os em duplicado de Limit Hold'em contra o computador, desta vez com blinds de $500/$1,000 e $1,000/$2,000. Seguindo as regras do poker em duplicado, as cartas que os humanos recebiam era id��nticas ��s que eram dadas ao computador e vice-versa, com as cartas comunit��rias a serem tamb��m iguais em cada m?o jogada. O formato minimiza a sorte do sorteio, j�� que no final tanto os humanos como o computador recebem as mesmas cartas e enfrentam as mesmas situa??es.
No final de cada jogo, o total de cada jogo efectuado em simultaneo depois de 500 m?os deve ser somado para determinar o vencedor da sess?o. Ficou decidido que se o total representasse menos de 25 small bets de diferen?a (ou seja, $25,000) o encontro seria considerado empatado, enquanto que uma diferen?a maior daria a vit��ria a uma das equipas.
No primeiro encontro, entraram Nick Grudzien e Kyle Hendon contra o Polaris 2.0. Hendon terminou as 500 m?os na frente com $37,000 mas Grudzien terminou a perder $42,000. Como a diferen?a total era de apenas $5,000 ou apenas 5 small bets, o jogo foi considerado empatado.
Os humanos ganharam o segundo jogo, gra?as ao esfor?o de Rich MacRoberts que terminou com $89,500 conta o computador. O seu parceiro, Victor Acosta acabou por perder $39,500. O lucro dos humanos foi de $50,000 que era mais do que suficiente para assegurarem uma vit��ria.
O Polaris 2.0 conseguiu recuperar ganhando o terceiro e quarto jogo. No terceiro, Mark Newhouse conseguiu acabar positivo $251,500, de longe o mais bem sucedido na equipa de humanos. No entanto, o seu parceiro IJay Palansky, terminou negativo $307,500 o que dava ao computador uma vantagem de $56,000.
A quarta sess?o viu uma nova vit��ria do Polaris, ao conseguir terminar positivo $60,500 contra Mark Newhouse e $29,000 contra Palansky. No final o Polaris ficava com duas vit��rias, uma derrota e um empate nos jogos realizados no Gaming Life Expo. Dois outros jogos que tiveram lugar noutro lugar contra membros do Stoxpoker foram tamb��m tidos em conta; os humanos ganharam um e perderam outro. Assim, nas contas finais o Polaris ganhou 3, perdeu 2, e empatou 1.
De acordo com o professor Michael Bowling, um dos supervisores dos alunos que t��m desenvolvido o Polaris, grandes melhorias foram feitas desde o ver?o passado tornando mais dif��cil aos humanos explorarem fraquezas.
Mais significativo, como Bowling explica, os programadores conseguiram adicionar um elemento de aprendizagem, onde "o Polaris identifica a estrat��gia que o humano est�� a impor e modifica para a sua pr��pria estrat��gia de forma a combater". Isto significa que o computador n?o aplica as mesmas t��cticas contra todos os humanos, mas segue diferentes estrat��gias contra cada um deles, tornando mais dif��cil aos humanos de se ajustar durante a mudan?a de estrat��gia da parte do computador numa determinada sess?o e/ou compara notas uns com os outros entre sess?es e como o Polaris 2.0 jogou.
O Polaris 2.0 tamb��m aprendeu com os seus erros, aplicando um algoritmo com o nome "counter-factual-regret" onde �� capaz de memorizar a forma de jogar dos humanos durante as m?os que perdeu, e ajustar o seu pr��prio jogo quando circunstancias parecidas surgem.
O CPRG diz que pretende ir al��m dos jogos de limit heads-up para jogos mais complicados. O grupo pretende tamb��m aplicar as suas descobertas sobre intelig��ncia artificial a ��reas diferentes do poker.