Pluribus verslaat vijf spelers in pokerspel

17 juli 2019

pluribis online poker bot vs mens

Een computer uitgerust met kunstmatige intelligentie versloeg het afgelopen jaar dertien professionele pokerspelers. Niet één keer, maar vrijwel altijd. En in een van de moeilijke pokervormen, no-limit Texas Hold’em voor zes personen.

Dat is toch weleens eerder gedaan? Stond er op onlinecasinoground al niet eens een artikel over zoiets? Inderdaad. Libratus versloeg eerder al vijf spelers, maar dat was in een één-tegen-één-spel. Tuomos Sandholm en Noam Brown, de makers van Libratus gingen verder, en ontwikkelden Pluribus.

Pluribus

Brown werkt inmiddels voor de afdeling Kunstmatige Intelligentie van Facebook. Samen met zijn oude mentor van de Carnegie Mellon Universiteit ontwikkelde hij verder vanuit het succes van Libratus. Sandholm geeft al zestien jaar leiding aan een team dat computerpoker onderzoekt. Brown bracht een team van Facebook in.

Met Pluribus maakten ze nu een programma dat, door het succesvolle resultaat, verdergaat dan het (online) pokerspel. Het resultaat van hun onderzoek biedt vele nieuwe mogelijkheden om talrijke problemen uit de echte wereld op te lossen.

Imperfect informatiespel

Poker wordt beschouwd als een imperfect informatiespel, in tegenstelling tot een spel als schaken. Je weet niet welke kaarten je tegenstander heeft en je moet snel beslissen vanuit weinig informatie. Bij Libratus ging het inderdaad om één tegenstander. Nu wilden Sandholm en Brown pokeren in een spel met vijf tegenspelers.

Daarbij onderkenden de wetenschappers bij het spel nog enkele extra problemen voor de computer. De tegenstander mag sluw zijn en bluffen. Het gaat bij poker immers om het analyseren van je medespelers en ze misleiden. Dat laatste is volgens velen een typisch menselijke eigenschap.

Professionals

Om die gewenste eigenschappen optimaal te kunnen beoordelen vroegen ze dertien topspelers aan hun programma mee te werken. Er werden meerdere experimenten uitgevoerd. In vrijwel alle gevallen won de computer. In het leerproces van Pluribus speelden enkele professionele pokerspelers overigens individueel ook tegen meerdere kopieën van de computer.

Bij Libratus zat de verrassing voor de ene tegenstander nog in de ongebruikelijke zetten. De mix van gebruikte strategieën maakte hem onvoorspelbaar. Met Pluribus gingen Brown en Sandholm een paar flinke stappen verder, wat ook nodig was omdat ze tegen meerdere tegenspelers wilden spelen.

Vaardigheden

Bij Pluribus kon het niet alleen om strategieën gaan volgens Sandholm, die bij Pluribus vooral een ondersteunende rol had. Door de meerdere tegenstanders zou het onmogelijk zijn Pluribus te laten zoeken naar een optimale strategie (het Nash-evenwicht).

Je kunt namelijk, omdat het enorm veel computerkracht vergt, niet elke mogelijke hand en elke mogelijke strategie van de tegenstanders overwegen. En zeker niet voor een gehele beurt. Ze ontwikkelden daarom een werkwijze die bij elke nieuwe kaart de spelveranderingen onderzocht. In feite een zoektocht in een deelverzameling van mogelijkheden.

Eenvoudige computer

Het ging dus niet meer om het doorrekenen van talrijke mogelijkheden, maar om enkele mogelijkheden. En het kwam ook aan op vaardigheden, bijvoorbeeld om te (onder)handelen in onbekende situaties.

Door de nieuwe werkwijze bij Pluribus was de supercomputer, die bij Libratus alle berekeningen deed, niet meer nodig. Het team van Brown en Sandholm kon voor de kleinere zoektocht en berekeningen tijdens het spel, volstaan met een eenvoudige server.

De techniek

De gebruikte techniek van Pluribus, en het feit dat het daarmee won van vijf tegenstanders, is de belangrijkste opbrengst van het onderzoek. En vanzelfsprekend een doorbraak voor kunstmatige intelligentie. Maar hoe werkt Pluribus tijdens een pokerwedstrijd?

Voor de wedstrijd berekende het een blauwdruk-strategie, dat is een methode waarbij meerdere kernelementen van strategieën worden geanalyseerd. Pluribus gebruikte daarvoor zes kopieën van zichzelf. Daarna zocht het gedetailleerder naar mogelijke zetten in een kleiner wordende zoekopdracht.

Beste strategie en bluf

Tijdens de wedstrijd analyseert Pluribus slechts de vervolgstrategieën die elke tegenstander zou kunnen doen. Maar niet uitputtend, niet tot het einde van het spel. Er is plaats voor onzekerheid. Doordat het programma steeds slechts vijf vervolgstappen per speler bekijkt en op basis daarvan een beste strategie voor zichzelf berekent.

Die beste strategie laat ook onvoorspelbaarheid toe. Wanneer Pluribus alleen zou inzetten als hij de beste hand heeft, zouden de professionele tegenspelers dat snel door hebben. Hij bluft daarom, maar wel op basis van berekende mogelijkheden en de daarin gevonden balans.

Brown beschouwt bluffen overigens niet als een menselijke eigenschap. Het is eenvoudig wiskundig gedrag. Bluffen is niet oneerlijk, maar een manier om het meest te winnen.

Algoritme

Vanzelfsprekend is het gebruikte algoritme, de stappen om een taak te voltooien, belangrijk. Vanwege het succes van hun programma besloten Brown en Sandholm de broncode van hun programma niet vrij te geven.

Een van de redenen is dat het de bestaande pokeromgeving kan schaden. Studenten en andere spelers zouden het bijvoorbeeld kunnen gebruiken om te winnen van bestaande online pokerspellen. De professionele spelers, die hielpen bij het onderzoek, kennen het algoritme ook niet. Maar zij hebben wel geleerd van de speelwijze van Pluribus.

Topspeler Michael Gagliano zei na afloop: ‘er waren spelwijzen die een mens niet zou doen, met name in bet sizing. Het was ook fascinerend te zien welke strategieën de computer soms koos. Ik verwacht een enorme evolutie in het pokerspel door de rol van dit soort robots’. Gelukkig heb je als liefhebber van ‘echte’ casinospellen geen last van dit soort technologische ontwikkelingen.

Toekomst

Brown en Sandholm hebben geen plannen om verder iets te doen met Pluribus. Zij en andere wetenschappers zien echter wel de vele mogelijkheden die hun resultaten en de gebruikte techniek hebben.

Die techniek kan voor allerlei doeleinden worden ingezet, zoals fraudedetectie en cyberbeveiliging. Maar het is ook bruikbaar bij de ontwikkeling van zelfrijdende auto’s, navigatiesystemen en nog veel meer. Delen van het algoritme worden daartoe wel beschikbaar gesteld aan collega wetenschappers.

Aanvullende informatie

  • De professionele pokerspelers die meehielpen bij de ontwikkeling van Pluribus waren: Jimmy Chou, Seth Davies, Michael Gagliano, Anthony Gregg, Dong Kim, Jason Les, Linus Loeliger, Daniel McAulay, Greg Merson, Nicholas Petrangelo, Sean Ruane, Trevor Savage, and Jacob Toole.
  • Interessant aan de overwinning is, naast algoritme en gebruikte techniek, ook het beperkte gebruik van computerkracht. Voor het maken van de blauwdruk-strategie had Pluribus acht dagen nodig van 12.400 processor-uren op een computer met 64 processorkernen (cores) en 512 GB ram geheugen. Tijdens het spel zelf gebruikte het 28 processorskernen. Ter vergelijking het veel eenvoudiger Libratus. Die gebruikte 15 miljoen processor-uren om strategieën te ontwikkelen en tijdens het spel 1400 processorkernen.
  • De prestaties van Pluribus werden gemeten in mbb/game (zie onderzoeksverslag), dat is ‘milli big blinds per game’. Daarmee meten de onderzoekers in feite het aantal big blinds dat gemiddeld per duizend rondes wordt gewonnen. Een big blind is de inleg van de tweede speler na de small blind van de eerste speler. Pluribus behaalde tegen de vijf spelers een gemiddelde van 48 mbb/game, wat volgens de onderzoekers extreem hoog is. Zeker bij het spelen tegen top pokerspelers.
  • Brown en Sandholm publiceerden hun onderzoeksverslag op 11 juli j.l. in het wetenschappelijke tijdschrift Science (pdf).
Delen: