Stratego, AI en interactieve spellen

Eind vorig jaar versloeg het Britse bedrijf DeepMind met een kunstmatig intelligent systeem het bordspel Stratego. Stratego is het moeilijkste imperfect informatiespel. Het was het enige spel dat nog niet met kunstmatige intelligentie was verslagen. Maar nu waarschuwt onder andere DeepMind voor het gevaar van kunstmatige intelligentie.

Dat Stratego moeilijk verslaanbaar was, kwam vooral doordat het spel enorm veel spelsituaties kent, namelijk 10⁵²⁵ (= 10 met 525 nullen). Ter vergelijking, Go heeft 10¹⁷⁵ spelsituaties. En om het plaatje nog vollediger te maken, Texas hold’em poker heeft 10¹⁶⁴ spelsituaties.

Stratego, het spel

Voor degenen die het bordspel Stratego niet kennen even een korte uitleg van het spel. Stratego is een spel voor twee persoon. Het bestaat uit een bord met 100 vakjes, waarvan er 8 ongebruikt in het midden een meertje vormen. Beide spelers krijgen 40 speelstukken, bestaande uit verschillende militaire rangen, een spion, enkele bommen en een vlag.

De spelers stellen de speelstukken naar eigen inzicht op. Waarbij ze vanzelfsprekend de vlag niet vooraan zetten. Want doel van het spel is de vlag van de tegenstander te veroveren. Om de beurt verplaatsen de spelers een stuk. Komt een stuk van een speler daarbij op een bezet vak van de ander, dan slaat hij het stuk en wint degene met de hoogste rang. Daarop zijn enkele uitzonderingen. Bijvoorbeeld als het andere stuk een bom is, die overigens niet mag worden verplaatst.

Imperfect informatiespel

Spelers kunnen elkaars speelstukken niet zien. Dat maakt Stratego een imperfect informatiespel. In tegenstelling tot bijvoorbeeld go en schaken, waarbij die spelstuk-informatie van de tegenstander wel beschikbaar is. Bij het slaan van een stuk wordt die informatie bij Stratego vanzelfsprekend wel bekend (de winnaar blijft staan, de verliezer verdwijnt van het bord). Het komt daarna aan op onthouden hoe de dan bekende stukken zich verplaatsen.

Beginstrategieën

Verder kent Stratego strategieën. Dat begint al bij het plaatsen van de 40 speelstukken aan het begin van spel. Het gaat er immers om de vlag te verdedigen. Sommige spelers omringen de vlag door bommen, die alleen verslagen kunnen worden door mineurs. Om de bommen plaatsen ze dan hoge militairen. Et cetera. Vanuit elke gedachte kan een speler een eigen opstellingsstrategie hebben.

In het naar eigen inzicht plaatsen van de speelstukken voor het begin van het spel onderscheidt Stratego zich ook van andere spelen. Zoals schaken, waar de slechts 16 speelstukken in een vaste beginopstelling staan. De eigen-implematiefase (zoals de onderzoekers het noemen, geeft (of gaf) een extra complicatie voor het instrueren van de kunstmatig intelligente spelomgeving.

Spelstrategieën

Tijdens het spelen kunnen ook strategieën worden gebruikt. Die kunnen berusten op aanval, verdediging, misleiding of bluf. Een speler kan bijvoorbeeld met zijn generaal (de hoogste rang na maarschalk) een opofferingsaanval beginnen. De generaal stormt dan door het veld van de tegenspeler. Met het risico op de maarschalk, de generaal of een bom te stuiten; een kans van 8 op 32.

Bluffen is ook een strategie die op verschillende manieren kan worden uitgevoerd. De onderzoekers van DeepMind halen in hun rapport daarvoor John Neumann aan, samen met Oskar Morgenstern bedenker van de speltheorie: het echte leven bestaat uit bluffen, uit kleine tactieken van bedrog, uit jezelf afvragen wat de andere man denkt dat jij gaat doen.

Bluffen kan bestaan uit het naar voren laten gaan van je verkenner, zoals de generaal in het vorige voorbeeld. Afhankelijk van wat je tegenstander daarbij denkt, zal er een reactie komen. Maar bluf kan ook al in de opstelling zitten, bijvoorbeeld door de bommen in een hoekje rondom een verkenner te plaatsen. Terwijl de vlag ergens aan de andere kant staat.

Stratego, een uitdaging

Het Britse DeepMind, opgericht in 2010, is sinds 2014 een volledige dochter van Alphabet Inc., ook het moederbedrijf van Google. Het bedrijf heeft de afgelopen jaren verschillende indrukwekkende prestaties geleverd op het gebied van kunstmatige intelligentie. In 2016 bouwde DeepMind bijvoorbeeld al het KI-syteem AlphaGo, waarmee het Go-grootmeester Lee Sedol versloeg.

DeepMind heeft ook enkele programma’s ontwikkeld waarbij KI-systemen de videospellen Dota, StarCraft en Capture the flag speelden. Dit zijn evenals Stratego imperfecte informatiespellen. De meeste beslissingen moeten echter bij deze real-time strategiespellen snel en instinctief worden genomen. En achter elkaar doorgaand, spelers doen dus niet om en om een zet zoals bij Stratego.

Bij Stratego wordt langzaam, weloverwogen en met logische beslissingen gespeeld. ‘Dat maakte het spel tot een uitdaging voor het team van 35 onderzoekers’, vertelt projectleider Julien Perolat. ‘Met Stratego boekten wij en andere KI-ontwikkelaars weinig vooruitgang door de complexe aspecten van het spel. Af en toe was er een succesje, maar dat kwam tot vorig jaar nooit boven het niveau van een amateur speler’.

DeepNash

De onderzoekers van DeepMind noemden hun Stratego-project DeepNash, naar het Nash-evenwicht dat ze in gedachten hadden bij de uitvoering. Het Nash-evenwicht is de situatie in de speltheorie waarbij geen van de spelers voordeel heeft door van strategie te veranderen.

De ontwikkelaars maakten er een leeralgoritme van dat ze Nash Dynamics noemden. Ze combineerden dit met een neuraal netwerk. Met een algoritme gebaseerd op de speltheorie speelde het systeem miljarden keer Stratego tegen zichzelf. Hierdoor kon het systeem in korte trainingstijd veel leren. Veel sneller dan wanneer het spel in real-time zou worden gespeeld tegen een menselijke tegenstander.

Het algoritme richtte zich op een optimale strategie. Dat garandeerde een winst van minstens 50% tegen een foutloos spelende tegenstander. Tijdens het spelen paste het systeem zich continu aan. Het aantal winnende beslissingen nam daardoor toe.

Menselijke tegenstanders

Na de training speelde DeepNash tegen andere geavanceerde Stratego-systemen en top Stratego-spelers op het Duitse spelplatform Gravon. Het systeem versloeg daarbij de andere robots overtuigend met 97% gewonnen spellen. Tegen de menselijke spelers schaarde het zich tussen de top-drie spelers met een winstpercentage van 84%.

De Nederlander Vincent de Boer, meervoudig wereldkampioen Stratego, was ondanks zijn deelname aan het project verrast door het spelniveau van DeepNash. Hij verwachtte niet dat een KI-systeem ook zijn WK-niveau zou kunnen bereiken. Maar hij speelde zelf tegen DeepNash. Daardoor was hij niet verrast toen het systeem de toppositie op Gravon behaalde.

Spelontwikkeling door Stratego

Na bovenstaande is wellicht duidelijk wat de gevolgen kunnen zijn van deze stap bij kunstmatige intelligentie. DeepNash trainde zichzelf met het ingestelde algoritme (programmeer-regels) in het spelen van een imperfect informatiespel. Dus met verborgen informatie over de stappen van de tegenstanders en, in het geval van Stratego, enorm veel spelsituaties (die 10⁵²⁵) en bij elke beurt nog talrijke opties. Daarbij heeft het systeem ook nog een onfeilbaar geheugen, in tegenstelling tot mensen, om zich stukken te herinneren die zijn geslagen en daardoor zichtbaar werden.

Wij denken dan dat dit een mooi uitgangspunt is voor de volgende generatie videospellen. Een slim systeem dat tegen een videospel speelt kan immers ook zelf het videospel zijn. Dat kan slimme, zichzelf aanpassende en nog betere interactieve videospellen opleveren. En ook aangepaste bestaande online gokspellen als poker en blackjack.

Maar het kan ook de reden zijn dat onderzoekers, ook die van DeepMind, nu waarschuwen voor de ontwikkelingen rond kunstmatige intelligentie. Want slimmer en sneller denkend dan wij als mens willen we (nog) niet. Helemaal niet als die robots in staat zijn zelf goede beslissingen te nemen.

Aanvullende informatie

Het rapport van het project DeepNash (pdf).
Vincent de Boer was drievoudig wereldkampioen Stratego en staat nu 4de op de wereldranglijst. Hij schreef in 2007 voor de TU Delft de thesis voor zijn Master of Science: ‘Invincible, the Stratego bot’ (pdf).
Geïnspireerd door Vincent de Boer schreef student kunstmatige intelligentie R. M. de Boer in 2012 de thesis ‘Reachable Level of Stratego Using Genetic Algorithms’ (pdf)
Richard Ratcliffe schreef in 2019 een boek uit getiteld: ‘Stratego, from beginner to winner’
Het aantal mogelijke spelsituaties is met 10⁵²⁵ bij Stratego astronomische hoog. Poker er heeft, volgens het rapport van DeepMind, 10¹⁶⁴ spelsituaties en dus 361 keer zo weinig (delen met machten is bij gelijkblijvend grondtal (in dit geval 10), aftrekken van de exponent (in dit geval 525 – 164)).
- Een 10 met 164 nullen is nog steeds een enorm getal. We kunnen ons er geen voorstelling van maken. Toch is het leuk een begin te maken. We nemen Texas Hold’em en beginnen met twee kaarten uit een spel van 52 kaarten. Bij de eerste kaart zijn er 52 en bij de tweede kaart nog 51 mogelijkheden. De combinatie kaarten die we nu in onze hand hebben komt uit 2652 mogelijkheden (52 x 51).
- Uit het dek van overgebleven 50 kaarten draaien we er vijf open. Het aantal combinaties van kaarten is C(50,5), dat is meer dan 2 miljoen (om precies te zijn 2.118.760). Even een opfrisser? Bij de combinatie van 5 uit 50 bereken, bereken je 50! (= 50 faculteit) / (50!-5!) x 5!) = (50! / 45! x 5!) = 1 x 2 x 3 etc t/m 48 x 49 x 50 (= een enorm getal) gedeeld door 5 faculteit (1 x 2 x 3 x 4 x 5 = 120) keer 45 faculteit (= nog een enorm getal). Met een rekenmachine gaat het handiger. En in excel is de formule: =combinaties(50;5).
- Het totale aantal combinaties met de zeven kaarten is 2652 x 2.1118.760 = ruim 5,5 miljard (ok, 5.619.473.120). Dat is dus met slechts 1 spel kaarten en één hand.

Auteur:

Rene van Maarsseveen | Expert online casino

Rene duikt het liefst compleet in een onderwerp. Dat doet hij vanuit een brede interesse en grote nieuwsgierigheid in verschillende onderwerpen. Hij legt hij het liefst onderzoeken naast elkaar over gokproblemen. Zo puzzelt Rene op een wiskundige strategie en schrijft dit uit tot een helder verhaal. Rene verbindt graag iGaming met andere thema’s waarmee OnlineCasinoGround zich onderscheidt.