Il Reinforcement Learning applicato agli scacchi

L’utilizzo del reinforcement learning nei motori scacchistici ha costituito un’innovazione fondamentale in termini di efficienza e gioco posizionale. Il successo di AlphaZero e Leela Chess Zero ha messo in evidenza sia i limiti che i punti di forza dei tradizionali motori "brute force", come Stockfish prima dell’utilizzo della NNUE. Questa tesi mette a confronto i due paradigmi di motori scacchistici, in particolare ne analizza le prestazioni durante la risoluzione di problemi tattici (lo studio di Plaskett, una composizione scacchistica creata nel 1970) e di alcuni finali di scacchi il cui risultato è noto a priori. I risultati delle simulazioni dimostrano una netta superiorità di Stockfish nelle fasi tattiche della partita e nella risoluzione dei finali elementari. Lc0 e AlphaZero invece risultano molto più forti nei finali più complessi e dimostrano una eccellente comprensione posizionale; questo fatto si può notare soprattutto nel match fra Stockfish e AlphaZero, dove quest’ultimo sacrifica in maniera sistematica del materiale per ottenere un vantaggio nel lungo termine. Stockfish invece nel match si comporta in maniera più materialista, e spesso realizza di trovarsi in una posizione persa solo quando il vantaggio di AlphaZero è superiore a +1 (100 centesimi di pedone). L’altro risultato cruciale è l’efficienza di Lc0, in termini di nodi visualizzati durante il processo di selezione di una mossa: durante la risoluzione dello studio di Plaskett infatti, dopo che viene rivelata la prima mossa Lc0 visualizza solo 6×107 nodi prima di trovare la sequenza vincente, mentre Stockfish ne deve esplorare circa 30 volte di più, 1.897×109. In conclusione, la complementarità dei due approcci giustifica il successo dei motori ibridi come Stockfish NNUE, i quali incorporano i punti di forza di entrambi i paradigmi.

Il Reinforcement Learning applicato agli scacchi

DE BONA, FILIPPO

2024/2025

Abstract

L’utilizzo del reinforcement learning nei motori scacchistici ha costituito un’innovazione fondamentale in termini di efficienza e gioco posizionale. Il successo di AlphaZero e Leela Chess Zero ha messo in evidenza sia i limiti che i punti di forza dei tradizionali motori "brute force", come Stockfish prima dell’utilizzo della NNUE. Questa tesi mette a confronto i due paradigmi di motori scacchistici, in particolare ne analizza le prestazioni durante la risoluzione di problemi tattici (lo studio di Plaskett, una composizione scacchistica creata nel 1970) e di alcuni finali di scacchi il cui risultato è noto a priori. I risultati delle simulazioni dimostrano una netta superiorità di Stockfish nelle fasi tattiche della partita e nella risoluzione dei finali elementari. Lc0 e AlphaZero invece risultano molto più forti nei finali più complessi e dimostrano una eccellente comprensione posizionale; questo fatto si può notare soprattutto nel match fra Stockfish e AlphaZero, dove quest’ultimo sacrifica in maniera sistematica del materiale per ottenere un vantaggio nel lungo termine. Stockfish invece nel match si comporta in maniera più materialista, e spesso realizza di trovarsi in una posizione persa solo quando il vantaggio di AlphaZero è superiore a +1 (100 centesimi di pedone). L’altro risultato cruciale è l’efficienza di Lc0, in termini di nodi visualizzati durante il processo di selezione di una mossa: durante la risoluzione dello studio di Plaskett infatti, dopo che viene rivelata la prima mossa Lc0 visualizza solo 6×107 nodi prima di trovare la sequenza vincente, mentre Stockfish ne deve esplorare circa 30 volte di più, 1.897×109. In conclusione, la complementarità dei due approcci giustifica il successo dei motori ibridi come Stockfish NNUE, i quali incorporano i punti di forza di entrambi i paradigmi.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA DELL'INFORMAZIONE Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Reinforcement Learning applied to chess
			
	Parola chiave
	
				Reinforcement L.
Scacchi
Alphazero
			
	Relatore
	
				PILLONETTO, GIANLUIGI
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
DeBona_Filippo.pdf accesso aperto Dimensione 2.55 MB Formato Adobe PDF Visualizza/Apri	2.55 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/91669