* Initialisierung aller geschätzten <math>\hat Q(s,a)</math> mit 0 [Anm.: Bei unendlich häufiger Ausführung des Algorithmus nähern sich die geschätzen <math>\hat Q</math> den optimalen (welche den long-term reward maximieren) <math>Q^\ast</math> an.]
+
* Initialisierung aller geschätzten <math>\hat Q(s,a)</math> mit 0 [Anm.: Bei unendlich häufiger Ausführung des Algorithmus nähern sich die geschätzen <math>\hat Q</math> den optimalen (welche den Long-Term Reward maximieren) <math>Q^\ast</math> an.]
* beobachte den aktuellen State <math>s=s_t</math>
* beobachte den aktuellen State <math>s=s_t</math>