1 Der Expectation Maximization (EM) Algorithmus

Der EM Algorithmus wird häufig verwendet, um komplizierte Maximum Likelihood Schätzprobleme zu vereinfachen bzw. überhaupt erst möglich zu machen. In diesem Kapitel stellen wir den EM Algorithmus zur Schätzung von Gaußschen Mischverteilungen vor, da der EM Algorithmus hier wohl seine bekannteste Anwendung hat. Bereits die originale Arbeit zum EM Algorithmus (Dempster, Laird, und Rubin 1977) beschäftigt sich mit der Schätzung von Gaußschen Mischverteilungen.

Mögliche Anwendungen von Gaußschen Mischverteilungen:

  • Generell: Auffinden von Gruppierungen (zwei oder mehr) in den Daten (Clusteranalyse). Zum Beispiel:

    • Automatisierte Videobearbeitungen (z.B. Bildeinteilungen in Vorder- und Hintergrund)
    • Automatisierte Erkennung von Laufstilen
    • etc.

Lernziele für dieses Kapitel

Sie können …

  • ein Anwendungsfeld des EM Algorithmuses benennen.
  • die Probleme der klassischen Maximum Likelihood Methode zur Schätzung von Gaußschen Mischverteilungen benennen und erläutern.
  • die Grundidee des EM Algorithmuses erläutern.
  • den EM Algorithmus zur Schätzung von Gaußschen Mischverteilungen anwenden.
  • die Grundidee der Vervollständigung der Daten durch latente Variablen erläutern.

Begleitlektüre(n)

Zur Vorbereitung der Klausur ist es grundsätzlich aussreichend das Kursskript durchzuarbeiten - aber Lesen hat ja noch nie geschadet. Dieses Kapitel basiert hauptsächlich auf:

Weiteren guten Lesestoff zum EM Algoithmus gibt es z.B. hier:

R-Pakete für diese Kapitel

Folgende R-Pakete werden für dieses Kapitel benötigt:

pkgs <- c("tidyverse",      # Die tidyverse-Pakete
          "palmerpenguins", # Pinguin-Daten
          "scales",         # Transparente Farben: alpha()
          "RColorBrewer",   # Hübsche Farben
          "mclust",         # Schätzung/Verwendung 
                            # Gaußschen Mischverteilungen
          "MASS")           # Erzeugung von Zufallszahlen aus 
                            # einer multiv. Normalverteilung
install.packages(pkgs)

Literatur

Bishop, Christopher M. 2006. Pattern Recognition and Machine Learning. Springer Science & Business Media.

Dempster, Arthur P, Nan M Laird, und Donald B Rubin. 1977. „Maximum likelihood from incomplete data via the EM algorithm“. Journal of the Royal Statistical Society: Series B 39 (1): 1–22.

Hastie, Trevor, Robert Tibshirani, und Jerome Friedman. 2009. The Elements of Statistical Learning: Data mining, Inference, and Prediction. Springer Science & Business Media.