Apprentissage du blackjack par un joueur génétique

Par Denis Gauthier, Philippe Poulin et Antoine Savage

Nous voulons créer un joueur artificiel qui pourra prendre de meilleures décisions qu’un joueur aléatoire au Blackjack. Le joueur joue une version simplifiée du Blackjack, dans laquelle on ne peut que prendre une carte ou rester avec la main courante, et où on ne peut avoir plus de cinq cartes en main. Le joueur prend ses décisions en fonction d’une politique construite à l’aide d’un algorithme génétique parallélisé.

D’abord, le joueur gagne si la valeur de sa main est un de plus que celle du croupier. Ainsi, en cas d’égalité, le croupier gagne toujours. De plus, nous ne considérons pas la différence entre une main « Blackjack » (un as et une autre carte) et une main de valeur 21 (trois cartes ou plus).

Un joueur est modélisé par une suite de calculs effectués sur l’état courant de la partie (une carte du croupier et les cartes du joueur) pour obtenir la décision du joueur (prendre une
carte ou rester). En appliquant un algorithme génétique pour faire évoluer cette politique, nous espérons obtenir une politique plus avantageuse qu’un joueur aléatoire (qui perd en moyenne le deux tiers de ses parties). La valeur d’adaptabilité d’un certain joueur sera donnée par le pourcentage de parties gagnées contre le croupier, qui sera calculée en simulant un nombre arbitraire de parties. La parallélisation du calcul de cette valeur pour tous les joueurs d’une population nous permettra d’accélérer d’un facteur non négligeable la génération d’une nouvelle population.

 

Lire la suite...