Multimodale Mensch-Maschine-Kommunikation
Version vom 21. Februar 2009, 15:17 Uhr von DarkGhost (Diskussion | Beiträge) (→MMK- ein Mustererkennungsproblem)
<hiddenlogin>login: nistudws0809 pass: WS0809N!</hiddenlogin>
Klausurergebnisse für die Klausur vom 08.02.2008
MMK- ein Mustererkennungsproblem
<graphviz> digraph G {
subgraph cluster0 {
Vorverarbeitung -> Merkmalsextraktion -> "Netzwerkein- und \n ausgabekodierung" label = "Problemabhängige und netzwerkbezogene Datenaufbareitung"
}
Sensorik -> Vorverarbeitung "Netzwerkein- und \n ausgabekodierung" -> Klassifikation "Netzwerkein- und \n ausgabekodierung" -> Funktionsappriximation
} </graphviz>
Sensorik
- Transformation der physikalischen Welt (Kamera, Laserscanner, Mikrofone)
- Erzeugen einen Satz von Messdaten (Mustervektoren)
- ggf. auch Trainingsvektoren
Problemspezifische Vorverarbeitung
- Schwellwertoperationen
- Filteroperationen
- Interpolation / Extrapolation
- Fehlende Abstastwerte
- Randbehandlung
- Auflösungspyramiden
- Dekorrelation der vorhandenen Datenvektoren
- Dimensionsreduktion (PCA,ICA)
- Normierung
- Größe Lage, Lautstärke, dauer, Beleuchtung,....
Merkmalsexktraktion
- Gewinnung charakteristischer Merkmale aus den Datenvektoren
- Abstraktion der Welt zu Merkmalsvektoren
- Einsatz von Techniken zur Merkmalstransofrmation
- Einführung und Verwendung dekorrelierter orthonormaler Basissysteme im Merkmalsraum
- Bestimmung der orthogonalen Raumrichtungen entlang der größten Varianz
- Merkmalsselektion (Signifikanzanalyse)
- Suche nach der minimalen Menge von Datenkanälen bei bestmöglichster Beschreibung
Netzwerkein- und ausgabekodierung
- zur Vereinfachung des Lernproblems wird die Dimension der merkmalsraumes erhöht damit z.B. eine lineare Seperation der Klassen möglich wird
- vereinfacht die Netzwerke und beschläunigt das Lernen
Klassifikation / Kategorisierung
- Wenn Klassen bekannt sind
- Zusammenfassen der Merkmalsvektoren zu Klassen, wenn das möglich ist
- dazu müssen die Klassen separierbar sein
- Nicht alle Netzwerke können alle "Klassenformen" separieren
- Zusammenfassen der Merkmalsvektoren zu Klassen, wenn das möglich ist
- Wenn keine Klassen bekannt sind
- Quantisieren des Eingaberaums (Cluster-Bildung) → Voronoi Parzellierung (SOFM, NG, GNG, ART, LVQ)
- Attributierung der gefundenen Cluster anhand repräsentativer Beispiele
Funktionsapproximation
- Statt Klassifikation wird eine Funktion geschätzt
- n-dimensionale Funktionen werden häufig mit neuronalen Netzen approximiert
- Notwendig wenn dinge "geschätzt" werden sollen (Zeige Posen)
Leistungsbewertung von Klassifikatoren
- Summe der quadratischen Fehler
- Mittlerer quadratischer Fehler
Crossvalidation Techniken
- Standardverfahren:
- teilen des Datensatzes in:
- 50% Lernstichprobe
- 25% Testdaten (zum Testen nach dem Lernen)
- 25% Validierungsdatensatz (zum Verhindern von Überspezialisierung)
- teilen des Datensatzes in:
- N-fold-Crossvalidation:
- Teilen des Datensatzes in N Mengen
- Training mit N-1 Mengen 1 Menge zum Test
- alle möglichen Permutationen durchgehen
- Fehler wird über alle N-Datensätze ermittelt
- Leave-one-out:
- N-fold-Crossvalidation bei dem N = Anzahl der Samples
- Virtual Leave-one-out:
- N-fold-Crossvalidation bei dem N = Anzahl der Samples und mit allen Datensätzen trainiert wird
Bewertung von binären Klassifikatoren
- Konfusionsmatrix
| Klasse 1 Klasse 2 Sum --------+--------------------+---------------------+---- Klasse 1|True Positives (tp) | False Negatives (fn)| P +--------------------+--*------------------+---- Klasse2 |False Positives (fp)| True Negatives (tn) | N
- False Positive Rate
- True Positive Rate
- Precision
- Balanced Error Rate
ROC -Kurve
- FPR an der Abzisse
- TPR an der Ordinate
TPR ↑ 1-. . . . . | /. | / . | / . | / . |/ . +---------|-→ FPR 0 1
- Diagonale ist raten
- je "nordwestlicher" ein Punkt liegt desto besser ist der Klassifikator
Vision-basierte Personendetektion
Vision-basiertes Personentracking
Posen/Gestenerkennung
Gesichtsausdruckserkennung
Personenidentifikation
Konsultation
- 3a-29
- decision surface
- Entscheidungsoberfläche auf der dann ein Minimumgesucht werden muss
- Seine Aussage: "Nicht so dolle --- fliegt raus"
- decision surface
- Boostrapping
- Gesichter und nicht Gesichter im initial Trainingssatz
- Fehlerhafte "nicht Gesichter" werden dann hinzugefügt falls sie fehlerhaft erkannt wurden
- 3a - 68
- Kopien der Hiddenschicht .... mehr Hiddenneuronen
- Hiddenmarkovmodelle
- MoG
- Flexieblere Variante gegenüber von Vorenoi Regionen
- Gaußverteilung muss aber auch erst gelernt werden
- Vorenoi Regionen
- Zu einem Hiddenmarkovneuron können mehrere Regionen gehören
- MoG
- 6a-26
- S_I und S_M müssen beide größer Minimum (da Winkel instabil wird für kleine Intensitäten)sein da S_I und S_M immer größer 0 sind
- 6b-3
- nicht Signifikant und kommt nicht dran
- 6b-16
- Prediktorbild zur Beschleunigung des Gradientenabstiegs