1 Der Expectation Maximization (EM) Algorithmus
Der EM Algorithmus wird häufig verwendet, um komplizierte Maximum Likelihood Schätzprobleme zu vereinfachen bzw. überhaupt erst möglich zu machen. In diesem Kapitel stellen wir den EM Algorithmus zur Schätzung von Gaußschen Mischverteilungen vor, da der EM Algorithmus hier wohl seine bekannteste Anwendung hat. Bereits die originale Arbeit zum EM Algorithmus (Dempster, Laird, und Rubin 1977) beschäftigt sich mit der Schätzung von Gaußschen Mischverteilungen.
Mögliche Anwendungen von Gaußschen Mischverteilungen:
Generell: Auffinden von Gruppierungen (zwei oder mehr) in den Daten (Clusteranalyse). Zum Beispiel:
- Automatisierte Videobearbeitungen (z.B. Bildeinteilungen in Vorder- und Hintergrund)
- Automatisierte Erkennung von Laufstilen
- etc.
Lernziele für dieses Kapitel
Sie können …
- ein Anwendungsfeld des EM Algorithmuses benennen.
- die Probleme der klassischen Maximum Likelihood Methode zur Schätzung von Gaußschen Mischverteilungen benennen und erläutern.
- die Grundidee des EM Algorithmuses erläutern.
- den EM Algorithmus zur Schätzung von Gaußschen Mischverteilungen anwenden.
- die Grundidee der Vervollständigung der Daten durch latente Variablen erläutern.
Begleitlektüre(n)
Zur Vorbereitung der Klausur ist es grundsätzlich aussreichend das Kursskript durchzuarbeiten - aber Lesen hat ja noch nie geschadet. Dieses Kapitel basiert hauptsächlich auf:
- Kapitel 9 in Pattern Recognition and Machine Learning (Bishop 2006).
Die pdf-Version des Buches ist frei erhältlichen: pdf-Version
Weiteren guten Lesestoff zum EM Algoithmus gibt es z.B. hier:
- Kapitel 8.5 in Elements of Statistical Learning: Data Mining, Inference and Prediction (Hastie, Tibshirani, und Friedman 2009).
Die pdf-Version des Buches ist frei erhältlichen: pdf-Version
R-Pakete für diese Kapitel
Folgende R-Pakete werden für dieses Kapitel benötigt:
pkgs <- c("tidyverse", # Die tidyverse-Pakete
"palmerpenguins", # Pinguin-Daten
"scales", # Transparente Farben: alpha()
"RColorBrewer", # Hübsche Farben
"mclust", # Schätzung/Verwendung
# Gaußschen Mischverteilungen
"MASS") # Erzeugung von Zufallszahlen aus
# einer multiv. Normalverteilung
install.packages(pkgs)
Literatur
Bishop, Christopher M. 2006. Pattern Recognition and Machine Learning. Springer Science & Business Media.
Dempster, Arthur P, Nan M Laird, und Donald B Rubin. 1977. „Maximum likelihood from incomplete data via the EM algorithm“. Journal of the Royal Statistical Society: Series B 39 (1): 1–22.
Hastie, Trevor, Robert Tibshirani, und Jerome Friedman. 2009. The Elements of Statistical Learning: Data mining, Inference, and Prediction. Springer Science & Business Media.