Een computer uitgerust met kunstmatige intelligentie versloeg het afgelopen jaar dertien professionele pokerspelers. Niet één keer, maar vrijwel altijd. En in een van de moeilijke pokervormen, no-limit Texas Hold’em voor zes personen.
Dat is toch weleens eerder gedaan? Stond er op onlinecasinoground al niet eens een artikel over zoiets? Inderdaad. Libratus versloeg eerder al vijf spelers, maar dat was in een één-tegen-één-spel. Tuomos Sandholm en Noam Brown, de makers van Libratus gingen verder, en ontwikkelden Pluribus.
Brown werkt inmiddels voor de afdeling Kunstmatige Intelligentie van Facebook. Samen met zijn oude mentor van de Carnegie Mellon Universiteit ontwikkelde hij verder vanuit het succes van Libratus. Sandholm geeft al zestien jaar leiding aan een team dat computerpoker onderzoekt. Brown bracht een team van Facebook in.
Met Pluribus maakten ze nu een programma dat, door het succesvolle resultaat, verdergaat dan het (online) pokerspel. Het resultaat van hun onderzoek biedt vele nieuwe mogelijkheden om talrijke problemen uit de echte wereld op te lossen.
Poker wordt beschouwd als een imperfect informatiespel, in tegenstelling tot een spel als schaken. Je weet niet welke kaarten je tegenstander heeft en je moet snel beslissen vanuit weinig informatie. Bij Libratus ging het inderdaad om één tegenstander. Nu wilden Sandholm en Brown pokeren in een spel met vijf tegenspelers.
Daarbij onderkenden de wetenschappers bij het spel nog enkele extra problemen voor de computer. De tegenstander mag sluw zijn en bluffen. Het gaat bij poker immers om het analyseren van je medespelers en ze misleiden. Dat laatste is volgens velen een typisch menselijke eigenschap.
Om die gewenste eigenschappen optimaal te kunnen beoordelen vroegen ze dertien topspelers aan hun programma mee te werken. Er werden meerdere experimenten uitgevoerd. In vrijwel alle gevallen won de computer. In het leerproces van Pluribus speelden enkele professionele pokerspelers overigens individueel ook tegen meerdere kopieën van de computer.
Bij Libratus zat de verrassing voor de ene tegenstander nog in de ongebruikelijke zetten. De mix van gebruikte strategieën maakte hem onvoorspelbaar. Met Pluribus gingen Brown en Sandholm een paar flinke stappen verder, wat ook nodig was omdat ze tegen meerdere tegenspelers wilden spelen.
Bij Pluribus kon het niet alleen om strategieën gaan volgens Sandholm, die bij Pluribus vooral een ondersteunende rol had. Door de meerdere tegenstanders zou het onmogelijk zijn Pluribus te laten zoeken naar een optimale strategie (het Nash-evenwicht).
Je kunt namelijk, omdat het enorm veel computerkracht vergt, niet elke mogelijke hand en elke mogelijke strategie van de tegenstanders overwegen. En zeker niet voor een gehele beurt. Ze ontwikkelden daarom een werkwijze die bij elke nieuwe kaart de spelveranderingen onderzocht. In feite een zoektocht in een deelverzameling van mogelijkheden.
Het ging dus niet meer om het doorrekenen van talrijke mogelijkheden, maar om enkele mogelijkheden. En het kwam ook aan op vaardigheden, bijvoorbeeld om te (onder)handelen in onbekende situaties.
Door de nieuwe werkwijze bij Pluribus was de supercomputer, die bij Libratus alle berekeningen deed, niet meer nodig. Het team van Brown en Sandholm kon voor de kleinere zoektocht en berekeningen tijdens het spel, volstaan met een eenvoudige server.
De gebruikte techniek van Pluribus, en het feit dat het daarmee won van vijf tegenstanders, is de belangrijkste opbrengst van het onderzoek. En vanzelfsprekend een doorbraak voor kunstmatige intelligentie. Maar hoe werkt Pluribus tijdens een pokerwedstrijd?
Voor de wedstrijd berekende het een blauwdruk-strategie, dat is een methode waarbij meerdere kernelementen van strategieën worden geanalyseerd. Pluribus gebruikte daarvoor zes kopieën van zichzelf. Daarna zocht het gedetailleerder naar mogelijke zetten in een kleiner wordende zoekopdracht.
Tijdens de wedstrijd analyseert Pluribus slechts de vervolgstrategieën die elke tegenstander zou kunnen doen. Maar niet uitputtend, niet tot het einde van het spel. Er is plaats voor onzekerheid. Doordat het programma steeds slechts vijf vervolgstappen per speler bekijkt en op basis daarvan een beste strategie voor zichzelf berekent.
Die beste strategie laat ook onvoorspelbaarheid toe. Wanneer Pluribus alleen zou inzetten als hij de beste hand heeft, zouden de professionele tegenspelers dat snel door hebben. Hij bluft daarom, maar wel op basis van berekende mogelijkheden en de daarin gevonden balans.
Brown beschouwt bluffen overigens niet als een menselijke eigenschap. Het is eenvoudig wiskundig gedrag. Bluffen is niet oneerlijk, maar een manier om het meest te winnen.
Vanzelfsprekend is het gebruikte algoritme, de stappen om een taak te voltooien, belangrijk. Vanwege het succes van hun programma besloten Brown en Sandholm de broncode van hun programma niet vrij te geven.
Een van de redenen is dat het de bestaande pokeromgeving kan schaden. Studenten en andere spelers zouden het bijvoorbeeld kunnen gebruiken om te winnen van bestaande online pokerspellen. De professionele spelers, die hielpen bij het onderzoek, kennen het algoritme ook niet. Maar zij hebben wel geleerd van de speelwijze van Pluribus.
Topspeler Michael Gagliano zei na afloop: ‘er waren spelwijzen die een mens niet zou doen, met name in bet sizing. Het was ook fascinerend te zien welke strategieën de computer soms koos. Ik verwacht een enorme evolutie in het pokerspel door de rol van dit soort robots’. Gelukkig heb je als liefhebber van ‘echte' casinospellen geen last van dit soort technologische ontwikkelingen.
Brown en Sandholm hebben geen plannen om verder iets te doen met Pluribus. Zij en andere wetenschappers zien echter wel de vele mogelijkheden die hun resultaten en de gebruikte techniek hebben.
Die techniek kan voor allerlei doeleinden worden ingezet, zoals fraudedetectie en cyberbeveiliging. Maar het is ook bruikbaar bij de ontwikkeling van zelfrijdende auto’s, navigatiesystemen en nog veel meer. Delen van het algoritme worden daartoe wel beschikbaar gesteld aan collega wetenschappers.