Robotvision
Version vom 18. Februar 2009, 16:44 Uhr von DarkGhost (Diskussion | Beiträge) (→Topologisch kodierte neuronale Felder im R^m & Neuronale Felddynamiken)
<hiddenlogin linktext="Login">nistudws0809:WS0809N!</hiddenlogin>
Neuronaler Instruktionssatz
- Basisoperationen bzw. Verarbeitungsprinzipien mit denen sich biologisch inspirierte Systeme:
- mathematisch Beschreiben lassen
- algorithmisch umsetzen lassen
- technisch nachbilden lassen
Funktionelle Abbildung R^n → R²
- Beschreibung der Abbildung der n-dimensionalen Sensor/Merkmalskarten auf 2-dimensionale Karten
- beschreiben lineare und nicht lineare, ortszeitliche Faltungsprozesse
- Typische Vertreter:
- Filteroperationen
- lokal operierende Klassifikatoren (Gesichtserkennung)
- beliebige lokale Abbildungen (Funktionsapproximation mit z.B. neuronalen Netzen)
- Beispiele für orts- und zeitinvariante Filter
- Boxoperator
- Gaußtiefpass
- Laplace-Operator
- Soebel-Operator
Der DoG Operator
- Zwei mögliche Realisierungen:
- erregendem Zentrum und hemmendem Saum (on-center)
- hemmendem Zentrum und erregendem Saum (off-center)
- Inspiriert durch die Retina und dem visuellem Cortex
- Wird gebildet durch die Differenz zweier Rotationssymetrischer 2D- Gaußverteilungen
- Das Integral über den DoG sollte 0 sein (inhibitorischer Anteil = exzitatorischer Anteil)
- ortsvarianter DoG Operator
- im Zentrom kleine DoG-RF und zum Rand hin immer größer werdend
Gabor-Wavelet-Funktionen
- Faltungskerne zur Detektion von orientierten Kanten, Linien bzw. Grauwertverläufen
- spezifisch angepasst auf bestimmte Orientierungen und Ortsfrequenzen
- enstehen durch Multiplikative Überlagerung von einer Gaußfunktion mit einer Komplexwertigen Exponentialfunktion (Sin-Cos Kombination)
- Bandpasscharakter
- ein Satz von Gabor-Wavelets wird als Jet bezeichnet
Funktionelle Abbildung R² → R²
- lokal nachbarschaftserhaltende Abbildung
- eingesetzt um für nachfolgende Operationen Invarianzleistungen zu erzielen
Retino-cortikale Projektion
- kommt aus der Biologischen Verarbeitung von Bildern im Gehirn
- nachgewiesen durch Tierversuche mit radioaktiver Glukose
- logarithmische Abbildung (Ebene (cortex) → Kreis (retina) r = e^x, y → )
- Eigenschaften:
- Skalierung → Erhalt der geometrischen Ähnlichkeit → Pseudoinvarianz
- Roation → Translation in y-Richtung → Erhalt der geometrischen Ähnlichkeit → pseudoinvarianz
- Translation → keine Formerhaltung (das heißt bei Einsatz ist ein aktives Sehsystem erforderlich)
Ortsvariante Informationsverarbeitung
- Zur reduktion des Datenstromes (Menschliches Sehsystem hat hohe Auflösung im Zentrum und geringe am Rand)
Auflösungspyramiden
- erlaubt kleinere Operatoren auf großen Bildern
- Auflösungspyramiden erhöhen die Ortsfrequenzen in Bildern
- Realisierung von Skalierungsinvarianzen (ein Operator kann sowohl kleine als aoch große Gesichter finden)
- Jedes Bild muss vor der Skalierung Tiefpassgefiltert werden da sonst das Nyquistkriterium verletzt werden könnte
Topologisch kodierte neuronale Felder im R^m & Neuronale Felddynamiken
- toplogisch kodierte neuronale Felder
- in Anlehnung an Fuzzy-Logic
- die Position eines Blobs (Gaußähnliche Verteilung von Werten auf der Karte) kodiert die Bedeutung
- die Breite des Blobs kodiert die Sicherheit
- die höhe des Blobs kodiert sein Gewicht
- erlaubt einfache Verhaltenskoordination durch additive oder multiplikative Überlagerung verschiedener Karten
- Felddynamiken
- selektion von Alternativen innerhalb einer m-dimensionalen Karte
- verschiedene spielarten AMARI-Dynamik → Regionsbasierter Ansatz
- KOHONEN-Dynamik → Punktbasierter Ansatz (das am stärksten Aktivierte Neuron gewinnt)
AMARI-Dynamik
- beschrieben durch eine DGL
- Der Faltungskern w bestimmt die Slektionseigenschaften
- Gauß → mehr Zentrale Bereiche
- DoG → "auffällige" hochfrequente Bereiche
- Selektion eines Gewinnerblob wenn
- Inputaktivität überschreitet
- eine Mindestamplitude
- räumliche Ausdehnung
- zeitdauer des Anliegens
- Zeitliche Vorgeschichte (Hystereseverhalten)
- Inputaktivität überschreitet
- Geweinnerblobs werden auch Räumlich verfolgt → effizientes Objekt-Tracking möglich
- Siehe auch Konsultation
- Implementierung
- die AMARI-Dynamik ist relativ unempfindlich gegenüber numerischen Lösungverfahren
- Typischerweise wird die Einschrittapproximation nach EULER eingesetzt
- Aus der DGL wird so eine iterativ lösbare Gleichung
Geschichtete 2D-Repräsentation
Konsultation
- Bewertung von optischen Flußvektoren
- Suche nach Minimum (Summer der Absoluten Differenzen (SAD))
- Mehrere Lösungen möglich ... durch Aggergation wird eine Lösung ausgewählt
- Minimas ersteinmal finden
- Sicherheitsspanne zwischen den Lösungen
- Amari-Dynamik
- Pixel eines Videodatenstroms werden Neuroknoten zugeordnet
- Jeder Input hat x,y und t als Inputparameter
- Jedes Inputneuron projeziert auf sein Korrespondierendes Neuron in der Amari schicht
- Jedes Neuron wird druch seine Nachbarn möglicherweise unterstützt (Gaus) ... durchsetzen der Mitte (Bei Rechteck im Input)
- Jedes Neuron wird durch seine Nachbarn unterstützt aber auch gehemmt (DoG) .. durchsetzen der Ecken (Bei Rechteck im Input)
- Wächterneuron
- Geht eigentlich auch ohne
- hämmd das ganze Feld um die "Grundlast" um Hintergrund zu unterdrücken
- Zeitlich versetzt
- Gleichung für jedes Neuron(Folie 2c-6)
- -z(r,t) ... Abklingterm (Neuron als leaky Integrator), RC-Glied als Analogie
- I(r,t) ... Input (1:1 vom Videobild)
- -h(t) ... Wächterneuron
- Integral (Nachbarschaft)
- w(r-r') ... Die Funktion der Nachbarschaft (zum simulieren des DOG wird die Gaußfunktion manchmal um H0 nach unten verschoben)
- z(r',t) ... Aktivierung des Neuron r' (Nachbar)
- S[] ... Sättigung zum Begrenzen der Aktivität
- Durch Nachbarschaft werden Peaks unterdrückt
- Aktivität muss sich erst aufbauen
- Gleichung Folie (2c-12)
- "Lösung" der DGL von 2c-6
- Gute Selektionseingenschaften ... besser als Maximumssuche
- Hystherese ist in der Amari Dynamik eingebaut
- Disparitätsauswahl
- WTA ... Winner takes all
- Durch die Nachbarn wieder unterstützt und der beste setzt sich durch
- Vektrofeldhistogram
- Hindernisse die weiter weg sind als D_max werden nicht berücksichtigt
- Particelfilter = Montecarlolocalisation
- Localisation
- Nur bei Karte begrenzt (kann mich halt nur auf der Karte befinden)
- Kalmanfilter
- Nur eine Gaußapproximation pro Filter möglich