* Reinforcements bestimmen, wie erwünscht der aktuelle Zustand ist
* Reinforcements bestimmen, wie erwünscht der aktuelle Zustand ist
** sie werden direkt aus der Umgebung bezogen
** sie werden direkt aus der Umgebung bezogen
−
* Values hingegen geben die Langzeit-Erwünschtheit an, nachdem die, am wahrscheinlichsten erreichten, Zustände mit ihren jeweiligen Reinforcements errechnet wurden
+
* Values hingegen geben die Langzeit-Erwünschtheit an, nachdem die am wahrscheinlichsten erreichten Zustände mit ihren jeweiligen Reinforcements errechnet wurden
** sie sind nur Schätzungen aus der Beobachtungsfolge, welche ein Agent über die gesamte Zeit macht
** sie sind nur Schätzungen aus der Beobachtungsfolge, welche ein Agent über die gesamte Zeit macht
** somit kann nicht nur kurzsichtig agiert werden sondern auch langfristig
** somit kann nicht nur kurzsichtig agiert werden sondern auch langfristig