Zuletzt aktualisiert am 05.12.2025 6 Minuten Lesezeit

Supervised Learning

Supervised Learning (überwachtes Lernen) ist ein Teilgebiet des maschinellen Lernens, bei dem ein Algorithmus anhand von gelabelten Trainingsdaten lernt. Das bedeutet: Jeder Eingabe im Trainingsdatensatz ist bereits die korrekte Ausgabe zugeordnet. Der Algorithmus erkennt Muster und Zusammenhänge zwischen Eingabe und Ausgabe, um später Vorhersagen für neue, unbekannte Daten zu treffen.

Wie funktioniert Supervised Learning?

Beim überwachten Lernen arbeitet der Algorithmus mit einem Datensatz, der aus Eingabedaten (Features) und zugehörigen Zielwerten (Labels) besteht. Der Lernprozess läuft in mehreren Schritten ab:

  1. Datenaufbereitung: Ein Datensatz mit Eingabe-Ausgabe-Paaren wird erstellt und in Trainings- und Testdaten aufgeteilt
  2. Training: Der Algorithmus analysiert die Trainingsdaten und passt seine internen Parameter an
  3. Optimierung: Eine Verlustfunktion (Loss Function) misst den Unterschied zwischen Vorhersage und tatsächlichem Wert
  4. Validierung: Das trainierte Modell wird mit Testdaten evaluiert, die es noch nicht gesehen hat
  5. Anwendung: Das fertige Modell kann Vorhersagen für neue Eingabedaten treffen

Ein wichtiger Aspekt ist die Generalisierung: Das Modell soll nicht nur die Trainingsdaten auswendig lernen, sondern die zugrundeliegenden Muster verstehen. Nur so kann es zuverlässige Vorhersagen für neue Daten treffen.

Arten von Supervised Learning

Supervised Learning wird je nach Art der vorherzusagenden Werte in zwei Hauptkategorien unterteilt: Klassifikation und Regression.

Klassifikation

Bei der Klassifikation ordnet das Modell Eingabedaten einer von mehreren vordefinierten Kategorien zu. Die Ausgabe ist ein diskreter Wert, also eine Klasse oder Kategorie. Typische Anwendungsbeispiele sind:

  • Spam-Erkennung: E-Mails werden als "Spam" oder "Kein Spam" klassifiziert
  • Bilderkennung: Objekte in Bildern werden identifiziert (Hund, Katze, Auto)
  • Medizinische Diagnose: Befunde werden als positiv oder negativ eingestuft
  • Betrugserkennung: Transaktionen werden als legitim oder verdächtig markiert

Regression

Bei der Regression sagt das Modell einen kontinuierlichen numerischen Wert voraus. Anders als bei der Klassifikation gibt es keine festen Kategorien, sondern einen Wertebereich. Beispiele hierfür sind:

  • Immobilienpreise: Vorhersage des Verkaufspreises basierend auf Lage, Größe und Ausstattung
  • Temperaturvorhersage: Prognostizierte Temperatur für einen bestimmten Tag
  • Absatzprognosen: Erwartete Verkaufszahlen für ein Produkt
  • Aktienkurse: Geschätzter Kursverlauf basierend auf historischen Daten

Wichtige Algorithmen im Supervised Learning

Für Supervised Learning existieren zahlreiche Algorithmen, die je nach Problemstellung und Datenbeschaffenheit eingesetzt werden. Hier sind die wichtigsten:

Lineare und logistische Regression

Die lineare Regression ist einer der einfachsten Algorithmen und eignet sich für Regressionsprobleme mit linearen Zusammenhängen. Sie berechnet eine Gerade, die den Zusammenhang zwischen Eingabe und Ausgabe am besten beschreibt. Die logistische Regression wird hingegen für binäre Klassifikationsprobleme verwendet und gibt Wahrscheinlichkeiten aus.

Entscheidungsbäume und Random Forest

Entscheidungsbäume (Decision Trees) treffen Vorhersagen, indem sie die Daten schrittweise nach bestimmten Kriterien aufteilen. Du kannst sie dir wie ein Flussdiagramm vorstellen: An jedem Knoten wird eine Frage gestellt, und je nach Antwort geht es in einen anderen Zweig. Random Forest kombiniert viele Entscheidungsbäume und mittelt deren Ergebnisse für bessere Genauigkeit.

                    [Ist Einkommen > 50k?]
                    /                    \
                  Ja                      Nein
                  /                        \
    [Kredit-Score > 700?]           [Anstellung > 2 Jahre?]
         /        \                      /          \
        Ja        Nein                 Ja           Nein
        /          \                   /             \
  [Genehmigt]  [Prüfen]          [Prüfen]      [Abgelehnt]

Support Vector Machines

Support Vector Machines (SVM) finden eine optimale Trennlinie (oder Hyperebene in höheren Dimensionen) zwischen verschiedenen Klassen. Sie maximieren den Abstand zwischen den Klassen und sind besonders effektiv bei komplexen, nicht-linearen Trennungen durch den sogenannten Kernel-Trick.

k-Nearest Neighbors

Der k-Nearest Neighbors (k-NN) Algorithmus ist intuitiv verständlich: Um einen neuen Datenpunkt zu klassifizieren, schaut er sich die k nächsten Nachbarn im Trainingsdatensatz an und entscheidet per Mehrheitsvotum. Für Regression wird der Durchschnitt der Nachbarwerte berechnet.

Neuronale Netze

Neuronale Netze bestehen aus mehreren Schichten von künstlichen Neuronen, die miteinander verbunden sind. Durch Training werden die Gewichtungen zwischen den Neuronen angepasst. Deep Learning bezeichnet neuronale Netze mit vielen Schichten, die komplexe Muster in Daten erkennen können - von Bildern über Sprache bis zu Zeitreihen.

Praxisbeispiel: Spam-Erkennung

Ein klassisches Beispiel für Supervised Learning ist die Spam-Erkennung. Der Ablauf sieht typischerweise so aus:

# Vereinfachtes Beispiel mit scikit-learn
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# Trainingsdaten: E-Mail-Texte und deren Labels
texte = [
    "Gewinnen Sie 1 Million Euro!",
    "Meeting morgen um 10 Uhr",
    "Gratis iPhone - jetzt klicken!",
    "Projektbericht im Anhang"
]
labels = ["spam", "kein_spam", "spam", "kein_spam"]

# Feature-Extraktion: Text in Zahlenwerte umwandeln
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texte)

# Modell trainieren
modell = MultinomialNB()
modell.fit(X, labels)

# Neue E-Mail klassifizieren
neue_mail = ["Kostenlos Geld verdienen!"]
X_neu = vectorizer.transform(neue_mail)
vorhersage = modell.predict(X_neu)
print(vorhersage)  # Ausgabe: ['spam']

In diesem Beispiel lernt der Algorithmus anhand von gelabelten E-Mails, welche Wörter typisch für Spam sind. Neue E-Mails kann er dann basierend auf diesen Mustern klassifizieren.

Supervised vs. Unsupervised Learning

Supervised Learning ist nur eine von mehreren Lernmethoden im Machine Learning. Der wichtigste Unterschied zum Unsupervised Learning (unüberwachtes Lernen) liegt in den Trainingsdaten:

Aspekt Supervised Learning Unsupervised Learning
Trainingsdaten Gelabelt (mit korrekten Antworten) Ungelabelt (ohne Antworten)
Ziel Vorhersage bekannter Kategorien/Werte Erkennung versteckter Strukturen
Typische Aufgaben Klassifikation, Regression Clustering, Dimensionsreduktion
Beispiele Spam-Filter, Preisvorhersage Kundensegmentierung, Anomalie-Erkennung

Beim Unsupervised Learning muss der Algorithmus selbst Strukturen und Muster in den Daten entdecken, ohne vorgegebene Antworten. Beim Supervised Learning kennt er hingegen die richtigen Antworten und lernt, diese zu reproduzieren.

Vor- und Nachteile

Vorteile

  • Hohe Genauigkeit: Durch gelabelte Daten lernt das Modell präzise Zusammenhänge
  • Messbare Leistung: Ergebnisse können direkt mit den korrekten Antworten verglichen werden
  • Gut etabliert: Viele bewährte Algorithmen und Werkzeuge verfügbar
  • Interpretierbarkeit: Bei einigen Algorithmen (z.B. Entscheidungsbäumen) sind die Entscheidungen nachvollziehbar

Nachteile

  • Labeling-Aufwand: Erstellung gelabelter Datensätze ist zeitaufwendig und teuer
  • Datenqualität entscheidend: Falsche oder verzerrte Labels führen zu schlechten Modellen
  • Bias-Gefahr: Vorurteile in den Trainingsdaten werden vom Modell übernommen
  • Begrenzte Flexibilität: Das Modell kann nur Kategorien vorhersagen, die es im Training gesehen hat

Supervised Learning in der Praxis

Machine Learning und insbesondere Supervised Learning werden heute in vielen Branchen eingesetzt. Für Fachinformatiker für Daten- und Prozessanalyse gehört das Verständnis dieser Methoden zum Kernwissen. Aber auch Fachinformatiker für Anwendungsentwicklung arbeiten zunehmend mit ML-Modellen, etwa bei der Integration von Vorhersage-APIs in Anwendungen.

Typische Anwendungsfelder in Unternehmen sind:

  • Kundenservice: Chatbots und automatische Ticket-Klassifikation
  • E-Commerce: Produktempfehlungen und Preisoptimierung
  • Finanzwesen: Kreditwürdigkeitsprüfung und Betrugserkennung
  • Produktion: Qualitätskontrolle und vorausschauende Wartung
  • Gesundheitswesen: Diagnoseunterstützung und Bildanalyse

Quellen und weiterführende Links