Änderungen

Zur Navigation springen Zur Suche springen
Keine Änderung der Größe ,  10:54, 31. Jul. 2009
Zeile 226: Zeile 226:     
'''Q-Learning-Algorithmus:'''
 
'''Q-Learning-Algorithmus:'''
* Initialisierung aller geschätzten <math>\hat Q(s,a)</math> mit 0 [Anm.: Bei unendlich häufiger Ausführung des Algorithmus nähern sich die geschätzen <math>\hat Q</math> den optimalen (welche den long-term reward maximieren) <math>Q^\ast</math> an.]
+
* Initialisierung aller geschätzten <math>\hat Q(s,a)</math> mit 0 [Anm.: Bei unendlich häufiger Ausführung des Algorithmus nähern sich die geschätzen <math>\hat Q</math> den optimalen (welche den Long-Term Reward maximieren) <math>Q^\ast</math> an.]
 
* beobachte den aktuellen State <math>s=s_t</math>
 
* beobachte den aktuellen State <math>s=s_t</math>
 
* Wiederhole:
 
* Wiederhole:
19

Bearbeitungen

Navigationsmenü