Lernen in Neuronalen Agenten
Begriffliche Grundlagen
Verhalten
Entspricht dem natürlichsprachlichen Begriff des Verhaltens und umfasst alle strukturierten Interaktionen mit der Umwelt. Dabei kann man, sofern man das möchte, zwischen komplexem Verhalten und Basisverhalten unterscheiden (wobei sich komplexes Verhalten aus Basisverhalten zusammensetzt)
Agent
Ein Agent ist eine physische oder virtuelle Entität (Ferber 2001),
- die selbständig in einer Umwelt agieren kann
- die direkt mit anderen Agenten kommunizieren kann
- die durch eine Menge von Absichten angetrieben wird (in Form von individ. Zielen, Befriedigungs-/Überlebensfunktionen, die sie versucht zu optimieren)
- die eigene Ressourcen besitzt
- die fähig ist, ihre Umwelt wahrzunehmen (nur in einem best. Ausmaß!)
- die nur eine partielle Repräsentation der Umwelt (Modell) besitzt
- die bestimmte Fähigkeiten besitzt (oder erwirbt) und Dienste offerieren kann
- die sich ggf. selbst reproduzieren kann
- deren Verhalten darauf ausgerichtet ist, ihre Ziele unter Berücksichtigung der ihr zur Verfügung stehenden Ressourcen und Fähigkeiten zu befriedigen und die dabei auf ihre Wahrnehmung, ihre internen Modelle und ihre Kommunikation mit anderen Agenten (oder Menschen) angewiesen ist
Stability-Plasticity Dilemma
Ist das Problem auf neue Situationen reagieren zu können und diese zu lernen, dabei aber bereits angesammeltes Wissen zu bewahren.
Exploration-Exploitation Dilemma
Ebenfalls ein Standardproblem von lernenden Systemen. Um neues Wissen über meine Umwelt zu erlangen müsste ich ständig explorieren, andererseits sollte ich aber auch ständig bekannte Aktionen ausführen um bereits gelerntes Wissen anzuwenden (exploitation) Lösungsansätze kommen später
Ebenen des Lernens und der Wissensrepräsentation
prozedurales Wissen
- Verhaltenswissen bzw. Sensomotorische Intelligenz.
- Beschreibt für eine ganz konkrete sensorische Situation die möglichen Aktionen des Agenten
deklaratives Wissen
- deliberatives oder auch kognitives Wissen
- Stellt Repräsentation der Umwelt da
- dient der Planung von Verhalten
Aus deklarativem Wissen können Subziele einer Handlungsstrategie festgelegt werden, welche dann mit Hilfe des prozeduralen Wissens abgearbeitet werden. Zum Beispiel könnte ein, mittels deklarativem Wissen erstelltes, Subziel, auf dem Weg ein Wasserglas zu greifen, sein, den Arm auszustrecken. Das prozedurale Wissen beschreibt dann wie die Muskeln anzusteuern sind, um den Arm nach vorne zu bekommen.
Reinforcement Learning
Grundidee des RL
Für jede Ausgeführte Handlung (Oder auch am Ende eines Handlungsstranges) erhält ein Agent eine Belohnung oder Bestrafung (Reinforcement). Dieses Akkumuliert sich über die Zeit. Ziel Des Reinforcementlearning ist es nun, durch Lernen solche Entscheidungsstrategien zu finden, dass die akkumulierten Reinforcements optimiert werden.
Charakterisierung des RL
- Lernparadigma:
- irgendwo zwischen überwachtem Lernen und unüberwachtem Lernen
- nutzt ebenfalls ein Feedback, aber nur zur Bewertung des Verhaltens
- alleinige Aussage, ob das Verhalten gut war oder schlecht, aber nicht, wie es hätte sein müssen
- Grundsatz (noch mal in einem Satz):
- autonomes Lernen komplexer Wahrnehmungs-Verhaltens-Muster basierend auf einem unspezifischen skalaren Signal, welches das Systemverhalten bewertet
- Findet Anwendung in: Robotik, Optimaler Regelung, Spielen uvm.
General RL-Task
<graphviz> digraph G { Umgebung -> Agent [label="Zustand (State)"]; Umgebung -> Agent [style=dotted,label="Reinforcement"]; Agent -> Umgebung [label="Aktion"]; } </graphviz>
- Ziel: Zu lernen die Aktionen auszuführen die zum größten Lanzeit reward führen
-
- ... Langzeitreward
- ... Discountfaktor [0,1]
- ... reward zum Zeitpunkt t
- Durchführung: Ausführung einer Aktion und beobachten des Ergebnisses
- Anpassen der Policy, welche die Aktion ausgewählt hat, je nach dem ob das Reward positiv oder negativ ausgefallen ist, damit die Aktion öfter ausgeführt wird oder weniger oft, wenn der selbe Zustand wieder erreicht werden sollte.
- Die beste Aktion in einem Zeitschritt führt nicht immer zum besten Langzeitergebnis!