L’utilizzo del reinforcement learning nei motori scacchistici ha costituito un’innovazione fondamentale in termini di efficienza e gioco posizionale. Il successo di AlphaZero e Leela Chess Zero ha messo in evidenza sia i limiti che i punti di forza dei tradizionali motori "brute force", come Stockfish prima dell’utilizzo della NNUE. Questa tesi mette a confronto i due paradigmi di motori scacchistici, in particolare ne analizza le prestazioni durante la risoluzione di problemi tattici (lo studio di Plaskett, una composizione scacchistica creata nel 1970) e di alcuni finali di scacchi il cui risultato è noto a priori. I risultati delle simulazioni dimostrano una netta superiorità di Stockfish nelle fasi tattiche della partita e nella risoluzione dei finali elementari. Lc0 e AlphaZero invece risultano molto più forti nei finali più complessi e dimostrano una eccellente comprensione posizionale; questo fatto si può notare soprattutto nel match fra Stockfish e AlphaZero, dove quest’ultimo sacrifica in maniera sistematica del materiale per ottenere un vantaggio nel lungo termine. Stockfish invece nel match si comporta in maniera più materialista, e spesso realizza di trovarsi in una posizione persa solo quando il vantaggio di AlphaZero è superiore a +1 (100 centesimi di pedone). L’altro risultato cruciale è l’efficienza di Lc0, in termini di nodi visualizzati durante il processo di selezione di una mossa: durante la risoluzione dello studio di Plaskett infatti, dopo che viene rivelata la prima mossa Lc0 visualizza solo 6×107 nodi prima di trovare la sequenza vincente, mentre Stockfish ne deve esplorare circa 30 volte di più, 1.897×109. In conclusione, la complementarità dei due approcci giustifica il successo dei motori ibridi come Stockfish NNUE, i quali incorporano i punti di forza di entrambi i paradigmi.
Il Reinforcement Learning applicato agli scacchi
DE BONA, FILIPPO
2024/2025
Abstract
L’utilizzo del reinforcement learning nei motori scacchistici ha costituito un’innovazione fondamentale in termini di efficienza e gioco posizionale. Il successo di AlphaZero e Leela Chess Zero ha messo in evidenza sia i limiti che i punti di forza dei tradizionali motori "brute force", come Stockfish prima dell’utilizzo della NNUE. Questa tesi mette a confronto i due paradigmi di motori scacchistici, in particolare ne analizza le prestazioni durante la risoluzione di problemi tattici (lo studio di Plaskett, una composizione scacchistica creata nel 1970) e di alcuni finali di scacchi il cui risultato è noto a priori. I risultati delle simulazioni dimostrano una netta superiorità di Stockfish nelle fasi tattiche della partita e nella risoluzione dei finali elementari. Lc0 e AlphaZero invece risultano molto più forti nei finali più complessi e dimostrano una eccellente comprensione posizionale; questo fatto si può notare soprattutto nel match fra Stockfish e AlphaZero, dove quest’ultimo sacrifica in maniera sistematica del materiale per ottenere un vantaggio nel lungo termine. Stockfish invece nel match si comporta in maniera più materialista, e spesso realizza di trovarsi in una posizione persa solo quando il vantaggio di AlphaZero è superiore a +1 (100 centesimi di pedone). L’altro risultato cruciale è l’efficienza di Lc0, in termini di nodi visualizzati durante il processo di selezione di una mossa: durante la risoluzione dello studio di Plaskett infatti, dopo che viene rivelata la prima mossa Lc0 visualizza solo 6×107 nodi prima di trovare la sequenza vincente, mentre Stockfish ne deve esplorare circa 30 volte di più, 1.897×109. In conclusione, la complementarità dei due approcci giustifica il successo dei motori ibridi come Stockfish NNUE, i quali incorporano i punti di forza di entrambi i paradigmi.| File | Dimensione | Formato | |
|---|---|---|---|
|
DeBona_Filippo.pdf
accesso aperto
Dimensione
2.55 MB
Formato
Adobe PDF
|
2.55 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/91669