L’utilizzo del reinforcement learning nei motori scacchistici ha costituito un’innovazione fondamentale in termini di efficienza e gioco posizionale. Il successo di AlphaZero e Leela Chess Zero ha messo in evidenza sia i limiti che i punti di forza dei tradizionali motori "brute force", come Stockfish prima dell’utilizzo della NNUE. Questa tesi mette a confronto i due paradigmi di motori scacchistici, in particolare ne analizza le prestazioni durante la risoluzione di problemi tattici (lo studio di Plaskett, una composizione scacchistica creata nel 1970) e di alcuni finali di scacchi il cui risultato è noto a priori. I risultati delle simulazioni dimostrano una netta superiorità di Stockfish nelle fasi tattiche della partita e nella risoluzione dei finali elementari. Lc0 e AlphaZero invece risultano molto più forti nei finali più complessi e dimostrano una eccellente comprensione posizionale; questo fatto si può notare soprattutto nel match fra Stockfish e AlphaZero, dove quest’ultimo sacrifica in maniera sistematica del materiale per ottenere un vantaggio nel lungo termine. Stockfish invece nel match si comporta in maniera più materialista, e spesso realizza di trovarsi in una posizione persa solo quando il vantaggio di AlphaZero è superiore a +1 (100 centesimi di pedone). L’altro risultato cruciale è l’efficienza di Lc0, in termini di nodi visualizzati durante il processo di selezione di una mossa: durante la risoluzione dello studio di Plaskett infatti, dopo che viene rivelata la prima mossa Lc0 visualizza solo 6×107 nodi prima di trovare la sequenza vincente, mentre Stockfish ne deve esplorare circa 30 volte di più, 1.897×109. In conclusione, la complementarità dei due approcci giustifica il successo dei motori ibridi come Stockfish NNUE, i quali incorporano i punti di forza di entrambi i paradigmi.

Il Reinforcement Learning applicato agli scacchi

DE BONA, FILIPPO
2024/2025

Abstract

L’utilizzo del reinforcement learning nei motori scacchistici ha costituito un’innovazione fondamentale in termini di efficienza e gioco posizionale. Il successo di AlphaZero e Leela Chess Zero ha messo in evidenza sia i limiti che i punti di forza dei tradizionali motori "brute force", come Stockfish prima dell’utilizzo della NNUE. Questa tesi mette a confronto i due paradigmi di motori scacchistici, in particolare ne analizza le prestazioni durante la risoluzione di problemi tattici (lo studio di Plaskett, una composizione scacchistica creata nel 1970) e di alcuni finali di scacchi il cui risultato è noto a priori. I risultati delle simulazioni dimostrano una netta superiorità di Stockfish nelle fasi tattiche della partita e nella risoluzione dei finali elementari. Lc0 e AlphaZero invece risultano molto più forti nei finali più complessi e dimostrano una eccellente comprensione posizionale; questo fatto si può notare soprattutto nel match fra Stockfish e AlphaZero, dove quest’ultimo sacrifica in maniera sistematica del materiale per ottenere un vantaggio nel lungo termine. Stockfish invece nel match si comporta in maniera più materialista, e spesso realizza di trovarsi in una posizione persa solo quando il vantaggio di AlphaZero è superiore a +1 (100 centesimi di pedone). L’altro risultato cruciale è l’efficienza di Lc0, in termini di nodi visualizzati durante il processo di selezione di una mossa: durante la risoluzione dello studio di Plaskett infatti, dopo che viene rivelata la prima mossa Lc0 visualizza solo 6×107 nodi prima di trovare la sequenza vincente, mentre Stockfish ne deve esplorare circa 30 volte di più, 1.897×109. In conclusione, la complementarità dei due approcci giustifica il successo dei motori ibridi come Stockfish NNUE, i quali incorporano i punti di forza di entrambi i paradigmi.
2024
Reinforcement Learning applied to chess
Reinforcement L.
Scacchi
Alphazero
File in questo prodotto:
File Dimensione Formato  
DeBona_Filippo.pdf

accesso aperto

Dimensione 2.55 MB
Formato Adobe PDF
2.55 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/91669