Änderungen

Zur Navigation springen Zur Suche springen
Zeile 270: Zeile 270:  
===SARSA-Learning===
 
===SARSA-Learning===
 
* ähnlich dem Q-Learning
 
* ähnlich dem Q-Learning
* Unterschied: nehme den Q-Wert des Weges den ich gegangen bin (Q-Learning nimmt den maximalen Q-Wert zum lernen)
+
* Unterschied: nehme den Q-Wert des Weges, den ich gegangen bin (Q-Learning nimmt den maximalen Q-Wert zum lernen)
 
* State -> Action -> Reinforcement -> State -> Action
 
* State -> Action -> Reinforcement -> State -> Action
 
* Die Update Regel der Q Werte lautet: <br> <math> Q_{k+1}(s,a) := (1-\beta) \cdot Q_k(s,a) + \beta ( r+ \gamma \cdot Q_k(s',a')) </math>
 
* Die Update Regel der Q Werte lautet: <br> <math> Q_{k+1}(s,a) := (1-\beta) \cdot Q_k(s,a) + \beta ( r+ \gamma \cdot Q_k(s',a')) </math>
19

Bearbeitungen

Navigationsmenü