V.l.n.r. Daniel McCaulay, Jimmy Chou, Tuomas Sandholm, Noam Brown, Jason Les en Dong Kim (fotograaf onbekend)
Een computer wint pokerwedstrijd. Computerprogramma’s wonnen al bij schaken, Go en Othello (Reversi). Na meerdere verliespartijen tegen schaakgrootmeester Kasparov lukte dat Deep Blue II in 1996. Tien jaar later won Googles AlphaGo het spel Go van de Zuid-Koreaan Lee Sedol.
Schaken, Go en veel andere spellen zijn echter zogenaamde ‘perfecte informatie spelen'. Het spel ligt daarbij uitgespreid op een bord. De spelers kunnen de situatie van het moment zien. Op basis daarvan en hun herinnering van eerdere zetten, bepalen ze hun vervolgspel.
Poker is daarentegen een imperfect informatiespel. Je weet niet welke kaarten je tegenstander heeft. En hij of zij weet niet welke kaarten jij hebt. In korte tijd moet je beslissen op basis van weinig tot geen informatie.
Wel is er een overvloed aan onbekende informatie. Want bijvoorbeeld de gedeelde en overige kaarten in het spel geven 10 tot de macht 160 aan spelmogelijkheden; dat is een 1 met 160 nullen.
De afwezigheid van informatie bij het pokerspel biedt een uitdaging voor computers. Dat dachten Professor Tuomas Sandholm en drs. Noam Brown van de Carnegie Mellon Universiteit in Pittsburgh ook. Zij bouwden eerder al het AI-programma Claudico.
Dat programma verloor in 2015 van drie van de vier top pokerspelers, tijdens een wedstrijd in Pittsburgh. Met de lessen die ze leerden met Claudico gingen Sandholm en Brown aan de slag met een nieuw programma: Libratus (evenwichtig).
Libratus is gebouwd om het pokerspel No-limit Hold’em te spelen. Van 11 tot 31 januari 2017 speelde Libratus tegen vier top pokerspelers: Jason Les, Dong Kim, Daniel McAulay en Jimmy Chou.
Ze speelden 10 uur per dag, twintig dagen achtereen heads-up (1 tegen 1) poker. Per speler werden 30.000 handen gespeeld. En de winnaar was Libratus.
Na een snelle voorsprong van Libratus in de eerste drie dagen leek het er nog even op dat de jongens konden terugkomen. Maar op het moment dat het bijna weer gelijk stond velde Libratus het eindoordeel: computer wint pokerspel. En het won met een aanzienlijke, virtuele winst.
Libratus is echter geen pokerspelend computerprogramma. Het is gebouwd om te komen tot algemene kunstmatige intelligentie. Daarmee kan het helpen bij situaties in het gewone leven waarbij onvoldoende of geen informatie voorhanden is. Mede daarom is het programma niet volgestopt met pokerstrategieën en -spelregels.
Sandholm, die zelf geen goede pokerspeler is, pakte het direct anders aan. Brown en hij bouwde Libratus op drie bestanddelen: algemene strategie, eindspel en verdediging.
Voor de algemene strategie kreeg Libratus algoritmes, een reeks instructies, om manieren te bedenken over hoe te handelen in spelsituaties. Sandholm: ‘we gaven Libratus geen strategie voor poker, maar algoritmes om een imperfect informatie probleem of spel op te lossen’.
Het programma werd daarvoor volgestopt met poker-spelregels. Daarna moest Libratus oplossingen bedenken op basis van Nash-evenwichten. Het heeft er bijna 15 miljoen rekenuren aan gewerkt.
Het nieuwe logicamodel dat Sandholm en Brown ontwikkelde voor Libratus, minimaliseert onder andere het zogenaamde ‘regret’. Eenvoudig gezegd is dat spijt van te laag of hoog inzetten bij een vorige beurt, na winst of verlies. Het is een negatieve emotie waarop een mens in het algemeen bij een vervolgstap anders zal beslissen.
Het logicamodel van Sandholm en Brown genereert tevens sneller beslissingen bij weinig of geen informatie. En het doet dat bovendien nauwkeuriger dan bij Claudico.
Het bestanddeel eindspel is volgens Sandholm een idee dat de innovatieve winst van het project is voor de verdere ontwikkeling van kunstmatige intelligentie. Bij het eindspel beoordeelt Libratus de veiligheid van alle opties.
Wanneer het programma bijvoorbeeld een aanpak bedacht na het krijgen van de eerste twee kaarten, kan het zijn spel aanpassen op basis van acties van de tegenstander.
Of het kan uitgaan van een situatie. Bijvoorbeeld als de tegenstander bij een bepaalde stand 500 euro verliest. Dan kan Libratus beslissen dat het zonder probleem tot 500 euro kan verliezen, terwijl het toch voor blijft staan in de stand van de wedstrijd.
Libratus is, anders dan zijn tegenstanders dachten, ontworpen om zijn verdediging continu te versterken. Het analyseert dus niet de individuele speelstijlen van de tegenstander om deze te bedwingen en aan te vallen, maar het onderzoekt welke gaten de tegenstander heeft gevonden in de strategie van Libratus. Die gaten krijgen prioriteit en het programma bedenkt andere strategieën, om de gaten te dichten. Voordeel van de computer is dat het dit kan doen, terwijl zijn menselijke tegenstander slaapt.
We gebruikten hierboven wellicht wat te gemakkelijk de woorden programma en computer. Libratus is een programma. Het zou, bij wijze van spreken, op een laptop kunnen draaien. Maar vanwege de benodigde rekenkracht is gebruik gemaakt van Bridge. Dat is het supercomputer centrum van Pittsburgh.
Bridge supercomputer centrum Pittsburgh
Voor de computeraars onder de online casino spelers: deze supercomputer bestaat uit 846 nodes (knooppunten). De meeste knooppunten daarvan hebben twee CPU’s met elk 28 cores (processors) en 128 GB RAM. Libratus gebruikte tijdens de wedstrijd 600 nodes en ruim 2,5 petabyte (2500 terrabyte) aan gegevensopslag.
Op andere momenten dan de 20 dagen durende pokerwedstrijd werkt Bridge voor wetenschappelijk onderzoek. Gemiddeld gebruiken 2500 onderzoekers de rekenkracht van de supercomputer voor het doorrekenen van circa 650 projecten. Hun modellen en programma’s strekken zich uit tot allerlei terreinen, zoals DNA-onderzoek, militaire beslissingen, verbeteren van verkeersdoorstroming (oplossen van files) en het beladen van transporten. Vaak zijn dat situaties waarbij veel informatie onbekend is.
Een computer wint pokerspel, dat is mooi. Maar Libratus is ontwikkeld om te komen tot algemene kunstmatige intelligentie.
De pokerwedstrijd toonde aan dat Libratus en zijn opvolgers in de toekomst een bijdrage kunnen gaan leveren bij imperfecte informatie situaties in het dagelijks leven.
Zelf ook pokeren? Je kunt uiteraard bij Holland Casino terecht, maar de ‘rake' (de verplichte fooi aan het casino) ligt in een fysiek casino stukken hoger dan online. Daarnaast kun je online voor veel kleinere bedragen spelen en hoef je je niet aan die trage dealer te storen. Meet je pokerskills met medespelers in de poker room van Betsson, een van de weinige casino's die je tegen andere spelers laat spelen. Profiteer tijdelijk van een pokerbonus van tot wel € 2000! Geen zorgen, Liberatus zul je online niet tegenkomen.