Robotvision: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
Zeile 177: | Zeile 177: | ||
=== Tiefenwahrnehmung === | === Tiefenwahrnehmung === | ||
+ | # Okulomotorische Tiefeninformation | ||
+ | #* Akkomodation der Augen, um Scharf zu sehen → Nahbereich 0.2m - 3 m | ||
+ | #* Konvergenzbewegung der Augen, um ein Objekt zu fokusieren → Nahbereich bis max. 6 m | ||
+ | #* relative Höhe im Blickfeld (Auslenkung der Augen aus der Horizontallinie, um ein Objekt zu Fokusieren) | ||
+ | # Monokulare Tiefeninformation | ||
+ | #* Verdeckung von Objekten | ||
+ | #* relative Höhe/Größe im Gesichtsfeld | ||
+ | #* "Gewohnte" Größe | ||
+ | #* Lineare Perspektive | ||
+ | #* Schattierung, Texturgradient | ||
+ | #* Atmosphärische Perspektive | ||
+ | # Bewegungsinduzierte Tiefeninformation | ||
+ | #* Relativbewegung von beobachteten Objekten | ||
+ | # Binokulare, stereoskopische Tiefeninformation | ||
+ | #* Tiefeninformation ist in den leicht unterschiedlichen Bildern der selben Szene enthalten (Disparität) | ||
+ | # Polyokulare Tiefeninformation | ||
+ | #* Wie Binokulare Systeme nur das eine höhere Genauigkeit möglich ist, da mehrere Bilder verwendet werden können | ||
+ | |||
+ | ==== Binokulares Stereosehen ==== | ||
+ | * Grundbegriffe: | ||
+ | ** '''Basisabstand''': Abstand zwischen den Augen/Kameras | ||
+ | ** '''Binokulares visuelles Feld''': Region in der sich die Sichtbereiche beider Augen/Kameras überlappen | ||
+ | ** '''Retinale Disparität''': horizontale Verschiebung eines Objektes zwischen der Position auf der Bildebene im linken und rechten Auge | ||
+ | ** '''Horopter''': Imaginärere 3D Kurve im Raum auf der alle Punkte eine Disparität von Null haben | ||
+ | ** '''Gekreuzte Querdisparität''': Punkte die vor dem Horopter liegen (Bei der Projektion ins linke Auge werden die Punkte rechts von der Fixationsline abgebildet) | ||
+ | ** '''Ungekreuzute Querdisparität''': Punkte die hinter dem Horopter liegen (Bei der Projektion ins linke Auge werden die Punkte links von der Fixationslinie abgebildet) | ||
+ | ** '''Panums-Area''': Der Bereich um den Horopter , in dem eine fusion der Stereobilder möglich ist | ||
+ | |||
+ | * verwendete Kameras müssen Kalibriert werden um Unterschiede ausgleichen zu können | ||
+ | * Eine geeignete Kalibrierung kann die Korrespondenzanalyse stark vereinfachen | ||
+ | * Schritte zur Berechnung einer 2D-Tiefenkarte | ||
+ | *# Bildvorverarbeitung | ||
+ | *# Korrespondenzanalyse (erstellen eines Disparitätswürfel) | ||
+ | *# Aggregation (innerhalb des disparitätswürfels) | ||
+ | *# Disparitätsauswahl | ||
+ | *# Tiefenberechnung | ||
+ | |||
+ | ===== Parallelangeordnete Kameras ===== | ||
+ | * Fixationspunkt liegt im Unendlichen → immer gekreuzte Disparität | ||
+ | * jeder Punkt der Szene wird immer unterschiedlich abgebildet | ||
+ | * die Linie die die beiden abgebildeten Punkte verbindet heißt Epipolarlinie und sie verläuft immer parallel zur Basislinie | ||
+ | ** Damit müssen Korrespondenzen nur auf dieser Linie gesucht werden | ||
+ | * Nachteil der Anordnung: nur sehr kleines binokulares visuelles Feld | ||
+ | * Berechnung der Tiefe erfolgt mit Triangulation | ||
+ | |||
+ | ===== Kameras mit Fixationspunkt ===== | ||
+ | * Fixiertes Objekt hat stets die Disparität Null | ||
+ | * Rückschluss von den Bildkoordinaten ist recht aufwendig da die Orientierung der Kameras mit erfasst werden muss | ||
+ | * benötigt Active-Vision-System zur Kameranachführung | ||
+ | * Objekte werden auf der linken und rechten Bildebene unterschiedlich abgebildet → Korrespondenzproblem | ||
+ | |||
+ | ===== Methoden zur Korrespondenzanalyse ===== | ||
+ | * intensitätsbasiert | ||
+ | ** 2D Korrelation | ||
+ | ** Genauigkeit hängt von der Größe des Suchfensters ab | ||
+ | * Merkmalsbasiert | ||
+ | ** Berechnen von Charakteristischen Merkmalen aus den Intensitätsverteilung | ||
+ | ** Merkmale sollten robust gegenüber von Störungen sein | ||
+ | ** Unter Umständen werden nur wenige Merkmale gefunden → spärliche Tiefeninformation | ||
+ | ** Ein Merkmal kann mit jedem anderen Merkmal korrespondieren → sehr spezifische Merkmale nötig um Verwechslungen auszuschließen | ||
+ | * Phasenbasiert | ||
+ | ** Bestimmung der Phasenlage in lokalen Bildregionen (z.B. mit Gaborfilter) | ||
+ | ** Phasenverschiebung entspricht der disparität | ||
+ | * Probleme sind die selben wie beim Optische Fluss | ||
+ | * alle möglichen Korrespondenzen werden im Disparitätswürfel gespeichert | ||
+ | |||
+ | ===== Heuristiken für eine robuste Suche ===== | ||
+ | # Epipolar Constraint (bei parallelen kammeras müssen die Korrespondenzen auf einer Linie liegen) | ||
+ | # Compatibility Constraint (hohe Korrelation gefordert) | ||
+ | # Uniqueness Constraint (Ein Punkt kann nur einmal Matchen) | ||
+ | # Ordering Constraint (Reihenfolge der primitiven muss gleich der Reihenfolge auf der Bildzeile sein) | ||
+ | # Continuity Constrain (Disparität darf sich nicht sprunghaft ändern) | ||
+ | # Disparity Gradient Limit (Gradient darf eine bestimmte Schwelle nicht überschreiten) | ||
+ | # Geometric Similarity Constraint (Liniensegmente müssen in beiden Bildern ähnliche Orientierungen und Längen haben) | ||
+ | # Coarse-to-fine multiresolution matching scheme (Arbeiten auf auflösungspyramiden und mit der gröbsten Ebene Anfagen) | ||
+ | |||
+ | ===== Aggregation des Disparitätswürfels ===== | ||
+ | * Ziel ist die Nachbearbeitung der gestörten Einzelergebnisse | ||
+ | * Berücksichtigung der Heuristiken | ||
+ | * Aggregationsarten | ||
+ | ** Glättungsfilter 2D / 3D | ||
+ | ** 2D-Aggregation mittels Membran-Diffusion | ||
+ | *** iteratives Verfahren | ||
+ | *** nur eine Ebene im Disparitätswürfel → Fehler bei schrägen Flächen | ||
+ | *** berücksichtigt das koninuitäts kriterium | ||
+ | *** Faltungskern ist einem Tiefpassfilter ähnlich | ||
+ | ** 2D-Aggregation mittels Support Region | ||
+ | |||
+ | ===== Disparitätsauswahl ===== | ||
+ | * Ziel ist die Auswahl der richtigen Disparität für jede x-y-position aus dem Disparitätswürfel | ||
+ | * Arten | ||
+ | ** Max- Auswahl (nimm einfach den besten Match ... berücksichtigt Heuristiken nicht und hat Probleme bei Mehrdeutigkeiten) | ||
+ | ** WTA-Auswahl (Verrechnung von lokalen Hypothese aus der Nachbarschaft) | ||
+ | ** Dynamische Programmierung (Suche den Weg mit den geringsten Kosten durch den Disparitätswürfel) | ||
+ | |||
+ | ===== Tiefenberechnung ===== | ||
+ | * Berechnung des Teifenwertes aus der Disparität | ||
+ | * Representation meist in Grauwertbildern → Tiefenbilder | ||
+ | * Berechnung erfolgt mittels Triangulation | ||
+ | * <math> h_{b}=\frac{b\cdot f}{d}</math> | ||
+ | ** <math>h_b</math> ... Abstand zu Basislinie | ||
+ | ** b ... Basisabstand | ||
+ | ** d ... Disparität | ||
== Vision-basierte Roboternavigation == | == Vision-basierte Roboternavigation == |
Version vom 19. Februar 2009, 12:00 Uhr
<hiddenlogin linktext="Login">nistudws0809:WS0809N!</hiddenlogin>
Neuronaler Instruktionssatz
- Basisoperationen bzw. Verarbeitungsprinzipien mit denen sich biologisch inspirierte Systeme:
- mathematisch Beschreiben lassen
- algorithmisch umsetzen lassen
- technisch nachbilden lassen
- Randbehandlung der Operatoren
- auffüllen fehlender Werte
- mit Nullen, zufällige Werte
- Mittelwert
- Spiegelung
- Extrapolation
- Weglassen der Ränder (Ergebnis wird kleiner)
- Anpassen der Operatoren an den Rändern
- auffüllen fehlender Werte
Funktionelle Abbildung R^n → R²
- Beschreibung der Abbildung der n-dimensionalen Sensor/Merkmalskarten auf 2-dimensionale Karten
- beschreiben lineare und nicht lineare, ortszeitliche Faltungsprozesse
- Typische Vertreter:
- Filteroperationen
- lokal operierende Klassifikatoren (Gesichtserkennung)
- beliebige lokale Abbildungen (Funktionsapproximation mit z.B. neuronalen Netzen)
- Beispiele für orts- und zeitinvariante Filter
- Boxoperator
- Gaußtiefpass
- Laplace-Operator
- Soebel-Operator
Der DoG Operator
- Zwei mögliche Realisierungen:
- erregendem Zentrum und hemmendem Saum (on-center)
- hemmendem Zentrum und erregendem Saum (off-center)
- Inspiriert durch die Retina und dem visuellem Cortex
- Wird gebildet durch die Differenz zweier Rotationssymetrischer 2D- Gaußverteilungen
- Das Integral über den DoG sollte 0 sein (inhibitorischer Anteil = exzitatorischer Anteil)
- ortsvarianter DoG Operator
- im Zentrom kleine DoG-RF und zum Rand hin immer größer werdend
Gabor-Wavelet-Funktionen
- Faltungskerne zur Detektion von orientierten Kanten, Linien bzw. Grauwertverläufen
- spezifisch angepasst auf bestimmte Orientierungen und Ortsfrequenzen
- enstehen durch Multiplikative Überlagerung von einer Gaußfunktion mit einer Komplexwertigen Exponentialfunktion (Sin-Cos Kombination)
- Bandpasscharakter
- ein Satz von Gabor-Wavelets wird als Jet bezeichnet
Funktionelle Abbildung R² → R²
- lokal nachbarschaftserhaltende Abbildung
- eingesetzt um für nachfolgende Operationen Invarianzleistungen zu erzielen
Retino-cortikale Projektion
- kommt aus der Biologischen Verarbeitung von Bildern im Gehirn
- nachgewiesen durch Tierversuche mit radioaktiver Glukose
- logarithmische Abbildung (Ebene (cortex) → Kreis (retina) r = e^x, y → )
- Eigenschaften:
- Skalierung → Erhalt der geometrischen Ähnlichkeit → Pseudoinvarianz
- Roation → Translation in y-Richtung → Erhalt der geometrischen Ähnlichkeit → pseudoinvarianz
- Translation → keine Formerhaltung (das heißt bei Einsatz ist ein aktives Sehsystem erforderlich)
Ortsvariante Informationsverarbeitung
- Zur reduktion des Datenstromes (Menschliches Sehsystem hat hohe Auflösung im Zentrum und geringe am Rand)
Auflösungspyramiden
- erlaubt kleinere Operatoren auf großen Bildern
- Auflösungspyramiden erhöhen die Ortsfrequenzen in Bildern
- Realisierung von Skalierungsinvarianzen (ein Operator kann sowohl kleine als aoch große Gesichter finden)
- Jedes Bild muss vor der Skalierung Tiefpassgefiltert werden da sonst das Nyquistkriterium verletzt werden könnte
Topologisch kodierte neuronale Felder im R^m & Neuronale Felddynamiken
- toplogisch kodierte neuronale Felder
- in Anlehnung an Fuzzy-Logic
- die Position eines Blobs (Gaußähnliche Verteilung von Werten auf der Karte) kodiert die Bedeutung
- die Breite des Blobs kodiert die Sicherheit
- die höhe des Blobs kodiert sein Gewicht
- erlaubt einfache Verhaltenskoordination durch additive oder multiplikative Überlagerung verschiedener Karten
- Felddynamiken
- selektion von Alternativen innerhalb einer m-dimensionalen Karte
- verschiedene spielarten AMARI-Dynamik → Regionsbasierter Ansatz
- KOHONEN-Dynamik → Punktbasierter Ansatz (das am stärksten Aktivierte Neuron gewinnt)
AMARI-Dynamik
- beschrieben durch eine DGL
- Der Faltungskern w bestimmt die Selektionseigenschaften
- Gauß → mehr Zentrale Bereiche
- DoG → "auffällige" hochfrequente Bereiche
- Selektion eines Gewinnerblob wenn
- Inputaktivität überschreitet
- eine Mindestamplitude
- räumliche Ausdehnung
- zeitdauer des Anliegens
- Zeitliche Vorgeschichte (Hystereseverhalten)
- Inputaktivität überschreitet
- Geweinnerblobs werden auch Räumlich verfolgt → effizientes Objekt-Tracking möglich
- Siehe auch Konsultation
- Implementierung
- die AMARI-Dynamik ist relativ unempfindlich gegenüber numerischen Lösungverfahren
- Typischerweise wird die Einschrittapproximation nach EULER eingesetzt
- Aus der DGL wird so eine iterativ lösbare Gleichung
Geschichtete 2D-Repräsentation
- Verrechnung von 2D - Daten im R³ → form der Sensorfusion
- Die Karten werden mit Fuzzy-Operatoren Verrechnet
- Fuzzy-Und, Fuzzy-Oder, Gamma-Operator
- 3D-Amari-Dynamiken
- Benötigt für den Aufbau von Multi-Cue Ansätzen (z.B. Detektion von Gesichtern anhand von Farbe, Textur und Kopfsiluette)
Basisoperationen für die Visuelle Wahrnehmung der Umgebung
Bewegungsanalyse
- Ziel: Erfassen von Bewegungsgrößen innerhalb einer Sezene durch Zeitlicheauswertung von Bildsequenzen
- Interpretation der gefundenen Änderungen
- Bewegung des Objektes
- Eigenbewegung des Sehsystems
- Suchen der Bewegung in einem 3D-Raum durch stapeln der einzelnen Aufnahmen
- Typischer Ablauf
- Extraktion bestimmter Bildmerkmale (Textur, Ecken, Konturlinien Grauwert- oder Farbwertverläufe)
- Matching der Verwendeten Bildmerkmale in den anderen Bildern der Bildsequenz
- Aus dem Matching dann Bewegungsschätzungen ableiten
- Die Bildmerkmale sind vielfältigen Störungen unterworfen
- bildspezifische Störungen (Verdeckung, Beläuchtungsänderung, Bewegungsänderung durch Eigenbewegung)
- statistische Rauscheinflüsse (Pixelrauschen, Umweltschwankungen,...)
- Reduktion der Bildinformation (Quantisierung bei der Umwandlung)
Optischer Fluss
- Der optische Fluss ist die Scheinbewegung, die aus der zeitlichen Änderung von Helligkeitsmustern in Bildsequenzen entsteht
- Verschiebung der Bildkoordinaten ist von der Entfernung abhängig → implizite Tiefeninformation
- Das Bewegungsfeld in einem bild entsteht durch reale Bewegungen der Objekte welche auf die Bildebene projiziert werden
- Beschreibung erfolgt durch ein Vektorfeld
- Die Schätzung des optischen Flusses basiert auf dem Korrespondenzproblem
- Verschiedene Spielarten für Schätzung der Bewegung möglich
- Merkmalsbasiert
- Sift
- Surf
- helligkeitsbasiert
- Korrelationsansatz
- phasenbasiert
- differentiell
- Merkmalsbasiert
- Typischer Ablauf
- Vorselektion mit Hilfe eines Interest Operators um die geeignete Bildregionen zu finden (z.B. besonderst starke Grauwertänderungen)
- Berechnung der Flussverktoren an den selektierten Stellen (z.B. mit Korrelationsverfahren(SAD))
- Bewertung der Berechneten Flussvektoren auf ihre Eignung für die Nachfolgenden Berechnungsschritte
- Es werden nur Vektroen ausgewählt für die die Korrelation über einer Schwelle liegt und der zweitbeste einen bestimmten Sicherheitsabstand vom besten gefundenen Wert hat
Das Korrespondenzproblem
- Problem: Auffinden von Bildpunkten in aufeinanderfolgenden Bildern, die in der realen Umwelt den gleichen Ursprung haben
Das Apertur- (Blenden) Problem
- Intensitätsänderungen können bei der Bildanalyse nicht eindeutig detektiert werden wenn zu kleine Bildauschnitte verwendet werden
- die Verschiebung von geraden linien kann nicht exakt bestimmt werden wenn die Eckpunkte nicht bekannt sind
Spielarten des Korrespondenzproblems
- bei deformierbaren Körpern kann man nicht auf die innere Bewegung schließen, da keine eindeutigen Merkmale vorhanden sind
- bei periodische Texturen kann ein Lokale Operator nicht entscheiden ob es sich um eine einfach oder vielfache Bewegung der Periode handelt (Verwechslungsgefahr)
- viele ähnliche Objekte können nur durch Hochgeschwindigkeitsaufnahmen unterschieden werden bei denen sich die Objekte langsamer bewegen als der mittlere Abstand zwischen diesen ist. (Auch hier gilt: Verwechslungsgefahr)
- Weitere Probleme:
- Homogene unstrukturierte Bereiche
- Perspektivische Ansichtsänderung
- Lokale Helligkeitschwankungen
- Bildrauschen
- Kameraverzeichnung
Korrelationsbasierte Schätzverfahren
- Suche nach Bildregionen im Folgebild
- Ähnlichkeitsmaß ist die Korrelation der Grauwertgebirge
- Wird für alle möglichen Verschiebungen berechnet
- sehr Rechenaufwendig
- mögliche Verschiebungen müssen auf sinnvolle Bewegungen begrenzt werden
- sinnvolle Definiton der Größe
- Mögliche Korrelationsmaße
- Kreuzkorrelation
- Kovarianz
- Summe der absoluten Differenzen
- Summe der quadratischen Differenzen
- Normierte Kreuzkorrelation
- Summe der absoluten Streuungsdifferenzen
Tiefenwahrnehmung
- Okulomotorische Tiefeninformation
- Akkomodation der Augen, um Scharf zu sehen → Nahbereich 0.2m - 3 m
- Konvergenzbewegung der Augen, um ein Objekt zu fokusieren → Nahbereich bis max. 6 m
- relative Höhe im Blickfeld (Auslenkung der Augen aus der Horizontallinie, um ein Objekt zu Fokusieren)
- Monokulare Tiefeninformation
- Verdeckung von Objekten
- relative Höhe/Größe im Gesichtsfeld
- "Gewohnte" Größe
- Lineare Perspektive
- Schattierung, Texturgradient
- Atmosphärische Perspektive
- Bewegungsinduzierte Tiefeninformation
- Relativbewegung von beobachteten Objekten
- Binokulare, stereoskopische Tiefeninformation
- Tiefeninformation ist in den leicht unterschiedlichen Bildern der selben Szene enthalten (Disparität)
- Polyokulare Tiefeninformation
- Wie Binokulare Systeme nur das eine höhere Genauigkeit möglich ist, da mehrere Bilder verwendet werden können
Binokulares Stereosehen
- Grundbegriffe:
- Basisabstand: Abstand zwischen den Augen/Kameras
- Binokulares visuelles Feld: Region in der sich die Sichtbereiche beider Augen/Kameras überlappen
- Retinale Disparität: horizontale Verschiebung eines Objektes zwischen der Position auf der Bildebene im linken und rechten Auge
- Horopter: Imaginärere 3D Kurve im Raum auf der alle Punkte eine Disparität von Null haben
- Gekreuzte Querdisparität: Punkte die vor dem Horopter liegen (Bei der Projektion ins linke Auge werden die Punkte rechts von der Fixationsline abgebildet)
- Ungekreuzute Querdisparität: Punkte die hinter dem Horopter liegen (Bei der Projektion ins linke Auge werden die Punkte links von der Fixationslinie abgebildet)
- Panums-Area: Der Bereich um den Horopter , in dem eine fusion der Stereobilder möglich ist
- verwendete Kameras müssen Kalibriert werden um Unterschiede ausgleichen zu können
- Eine geeignete Kalibrierung kann die Korrespondenzanalyse stark vereinfachen
- Schritte zur Berechnung einer 2D-Tiefenkarte
- Bildvorverarbeitung
- Korrespondenzanalyse (erstellen eines Disparitätswürfel)
- Aggregation (innerhalb des disparitätswürfels)
- Disparitätsauswahl
- Tiefenberechnung
Parallelangeordnete Kameras
- Fixationspunkt liegt im Unendlichen → immer gekreuzte Disparität
- jeder Punkt der Szene wird immer unterschiedlich abgebildet
- die Linie die die beiden abgebildeten Punkte verbindet heißt Epipolarlinie und sie verläuft immer parallel zur Basislinie
- Damit müssen Korrespondenzen nur auf dieser Linie gesucht werden
- Nachteil der Anordnung: nur sehr kleines binokulares visuelles Feld
- Berechnung der Tiefe erfolgt mit Triangulation
Kameras mit Fixationspunkt
- Fixiertes Objekt hat stets die Disparität Null
- Rückschluss von den Bildkoordinaten ist recht aufwendig da die Orientierung der Kameras mit erfasst werden muss
- benötigt Active-Vision-System zur Kameranachführung
- Objekte werden auf der linken und rechten Bildebene unterschiedlich abgebildet → Korrespondenzproblem
Methoden zur Korrespondenzanalyse
- intensitätsbasiert
- 2D Korrelation
- Genauigkeit hängt von der Größe des Suchfensters ab
- Merkmalsbasiert
- Berechnen von Charakteristischen Merkmalen aus den Intensitätsverteilung
- Merkmale sollten robust gegenüber von Störungen sein
- Unter Umständen werden nur wenige Merkmale gefunden → spärliche Tiefeninformation
- Ein Merkmal kann mit jedem anderen Merkmal korrespondieren → sehr spezifische Merkmale nötig um Verwechslungen auszuschließen
- Phasenbasiert
- Bestimmung der Phasenlage in lokalen Bildregionen (z.B. mit Gaborfilter)
- Phasenverschiebung entspricht der disparität
- Probleme sind die selben wie beim Optische Fluss
- alle möglichen Korrespondenzen werden im Disparitätswürfel gespeichert
Heuristiken für eine robuste Suche
- Epipolar Constraint (bei parallelen kammeras müssen die Korrespondenzen auf einer Linie liegen)
- Compatibility Constraint (hohe Korrelation gefordert)
- Uniqueness Constraint (Ein Punkt kann nur einmal Matchen)
- Ordering Constraint (Reihenfolge der primitiven muss gleich der Reihenfolge auf der Bildzeile sein)
- Continuity Constrain (Disparität darf sich nicht sprunghaft ändern)
- Disparity Gradient Limit (Gradient darf eine bestimmte Schwelle nicht überschreiten)
- Geometric Similarity Constraint (Liniensegmente müssen in beiden Bildern ähnliche Orientierungen und Längen haben)
- Coarse-to-fine multiresolution matching scheme (Arbeiten auf auflösungspyramiden und mit der gröbsten Ebene Anfagen)
Aggregation des Disparitätswürfels
- Ziel ist die Nachbearbeitung der gestörten Einzelergebnisse
- Berücksichtigung der Heuristiken
- Aggregationsarten
- Glättungsfilter 2D / 3D
- 2D-Aggregation mittels Membran-Diffusion
- iteratives Verfahren
- nur eine Ebene im Disparitätswürfel → Fehler bei schrägen Flächen
- berücksichtigt das koninuitäts kriterium
- Faltungskern ist einem Tiefpassfilter ähnlich
- 2D-Aggregation mittels Support Region
Disparitätsauswahl
- Ziel ist die Auswahl der richtigen Disparität für jede x-y-position aus dem Disparitätswürfel
- Arten
- Max- Auswahl (nimm einfach den besten Match ... berücksichtigt Heuristiken nicht und hat Probleme bei Mehrdeutigkeiten)
- WTA-Auswahl (Verrechnung von lokalen Hypothese aus der Nachbarschaft)
- Dynamische Programmierung (Suche den Weg mit den geringsten Kosten durch den Disparitätswürfel)
Tiefenberechnung
- Berechnung des Teifenwertes aus der Disparität
- Representation meist in Grauwertbildern → Tiefenbilder
- Berechnung erfolgt mittels Triangulation
-
- ... Abstand zu Basislinie
- b ... Basisabstand
- d ... Disparität
Visuelle Hindernisvermeidung
Visuelle Selbstlokalisation
Konsultation
- Bewertung von optischen Flußvektoren
- Suche nach Minimum (Summer der Absoluten Differenzen (SAD))
- Mehrere Lösungen möglich ... durch Aggergation wird eine Lösung ausgewählt
- Minimas ersteinmal finden
- Sicherheitsspanne zwischen den Lösungen
- Amari-Dynamik
- Pixel eines Videodatenstroms werden Neuroknoten zugeordnet
- Jeder Input hat x,y und t als Inputparameter
- Jedes Inputneuron projeziert auf sein Korrespondierendes Neuron in der Amari schicht
- Jedes Neuron wird druch seine Nachbarn möglicherweise unterstützt (Gaus) ... durchsetzen der Mitte (Bei Rechteck im Input)
- Jedes Neuron wird durch seine Nachbarn unterstützt aber auch gehemmt (DoG) .. durchsetzen der Ecken (Bei Rechteck im Input)
- Wächterneuron
- Geht eigentlich auch ohne
- hämmd das ganze Feld um die "Grundlast" um Hintergrund zu unterdrücken
- Zeitlich versetzt
- Gleichung für jedes Neuron(Folie 2c-6)
- -z(r,t) ... Abklingterm (Neuron als leaky Integrator), RC-Glied als Analogie
- I(r,t) ... Input (1:1 vom Videobild)
- -h(t) ... Wächterneuron
- Integral (Nachbarschaft)
- w(r-r') ... Die Funktion der Nachbarschaft (zum simulieren des DOG wird die Gaußfunktion manchmal um H0 nach unten verschoben)
- z(r',t) ... Aktivierung des Neuron r' (Nachbar)
- S[] ... Sättigung zum Begrenzen der Aktivität
- Durch Nachbarschaft werden Peaks unterdrückt
- Aktivität muss sich erst aufbauen
- Gleichung Folie (2c-12)
- "Lösung" der DGL von 2c-6
- Gute Selektionseingenschaften ... besser als Maximumssuche
- Hystherese ist in der Amari Dynamik eingebaut
- Disparitätsauswahl
- WTA ... Winner takes all
- Durch die Nachbarn wieder unterstützt und der beste setzt sich durch
- Vektrofeldhistogram
- Hindernisse die weiter weg sind als D_max werden nicht berücksichtigt
- Particelfilter = Montecarlolocalisation
- Localisation
- Nur bei Karte begrenzt (kann mich halt nur auf der Karte befinden)
- Kalmanfilter
- Nur eine Gaußapproximation pro Filter möglich