Zuletzt aktualisiert am 17.02.2026 6 Minuten Lesezeit

Supervised Learning

Supervised Learning (überwachtes Lernen) ist ein Teilgebiet des maschinellen Lernens, bei dem ein Algorithmus anhand von gelabelten Trainingsdaten lernt. Das bedeutet: Jeder Eingabe im Trainingsdatensatz ist bereits die korrekte Ausgabe zugeordnet. Der Algorithmus erkennt Muster und Zusammenhänge zwischen Eingabe und Ausgabe, um später Vorhersagen für neue, unbekannte Daten zu treffen.

Wie funktioniert Supervised Learning?

Beim überwachten Lernen arbeitet der Algorithmus mit einem Datensatz, der aus Eingabedaten (Features) und zugehörigen Zielwerten (Labels) besteht. Der Lernprozess läuft in mehreren Schritten ab:

Datenaufbereitung: Ein Datensatz mit Eingabe-Ausgabe-Paaren wird erstellt und in Trainings- und Testdaten aufgeteilt
Training: Der Algorithmus analysiert die Trainingsdaten und passt seine internen Parameter an
Optimierung: Eine Verlustfunktion (Loss Function) misst den Unterschied zwischen Vorhersage und tatsächlichem Wert
Validierung: Das trainierte Modell wird mit Testdaten evaluiert, die es noch nicht gesehen hat
Anwendung: Das fertige Modell kann Vorhersagen für neue Eingabedaten treffen

Ein wichtiger Aspekt ist die Generalisierung: Das Modell soll nicht nur die Trainingsdaten auswendig lernen, sondern die zugrundeliegenden Muster verstehen. Nur so kann es zuverlässige Vorhersagen für neue Daten treffen.

Arten von Supervised Learning

Supervised Learning wird je nach Art der vorherzusagenden Werte in zwei Hauptkategorien unterteilt: Klassifikation und Regression.

Klassifikation

Bei der Klassifikation ordnet das Modell Eingabedaten einer von mehreren vordefinierten Kategorien zu. Die Ausgabe ist ein diskreter Wert, also eine Klasse oder Kategorie. Typische Anwendungsbeispiele sind:

Spam-Erkennung: E-Mails werden als "Spam" oder "Kein Spam" klassifiziert
Bilderkennung: Objekte in Bildern werden identifiziert (Hund, Katze, Auto)
Medizinische Diagnose: Befunde werden als positiv oder negativ eingestuft
Betrugserkennung: Transaktionen werden als legitim oder verdächtig markiert

Regression

Bei der Regression sagt das Modell einen kontinuierlichen numerischen Wert voraus. Anders als bei der Klassifikation gibt es keine festen Kategorien, sondern einen Wertebereich. Beispiele hierfür sind:

Immobilienpreise: Vorhersage des Verkaufspreises basierend auf Lage, Größe und Ausstattung
Temperaturvorhersage: Prognostizierte Temperatur für einen bestimmten Tag
Absatzprognosen: Erwartete Verkaufszahlen für ein Produkt
Aktienkurse: Geschätzter Kursverlauf basierend auf historischen Daten

Wichtige Algorithmen im Supervised Learning

Für Supervised Learning existieren zahlreiche Algorithmen, die je nach Problemstellung und Datenbeschaffenheit eingesetzt werden. Hier sind die wichtigsten:

Lineare und logistische Regression

Die lineare Regression ist einer der einfachsten Algorithmen und eignet sich für Regressionsprobleme mit linearen Zusammenhängen. Sie berechnet eine Gerade, die den Zusammenhang zwischen Eingabe und Ausgabe am besten beschreibt. Die logistische Regression wird hingegen für binäre Klassifikationsprobleme verwendet und gibt Wahrscheinlichkeiten aus.

Entscheidungsbäume und Random Forest

Entscheidungsbäume (Decision Trees) treffen Vorhersagen, indem sie die Daten schrittweise nach bestimmten Kriterien aufteilen. Du kannst sie dir wie ein Flussdiagramm vorstellen: An jedem Knoten wird eine Frage gestellt, und je nach Antwort geht es in einen anderen Zweig. Random Forest kombiniert viele Entscheidungsbäume und mittelt deren Ergebnisse für bessere Genauigkeit.

                    [Ist Einkommen > 50k?]
                    /                    \
                  Ja                      Nein
                  /                        \
    [Kredit-Score > 700?]           [Anstellung > 2 Jahre?]
         /        \                      /          \
        Ja        Nein                 Ja           Nein
        /          \                   /             \
  [Genehmigt]  [Prüfen]          [Prüfen]      [Abgelehnt]

Support Vector Machines

Support Vector Machines (SVM) finden eine optimale Trennlinie (oder Hyperebene in höheren Dimensionen) zwischen verschiedenen Klassen. Sie maximieren den Abstand zwischen den Klassen und sind besonders effektiv bei komplexen, nicht-linearen Trennungen durch den sogenannten Kernel-Trick.

k-Nearest Neighbors

Der k-Nearest Neighbors (k-NN) Algorithmus ist intuitiv verständlich: Um einen neuen Datenpunkt zu klassifizieren, schaut er sich die k nächsten Nachbarn im Trainingsdatensatz an und entscheidet per Mehrheitsvotum. Für Regression wird der Durchschnitt der Nachbarwerte berechnet.

Neuronale Netze

Neuronale Netze bestehen aus mehreren Schichten von künstlichen Neuronen, die miteinander verbunden sind. Durch Training werden die Gewichtungen zwischen den Neuronen angepasst. Deep Learning bezeichnet neuronale Netze mit vielen Schichten, die komplexe Muster in Daten erkennen können - von Bildern über Sprache bis zu Zeitreihen.

Praxisbeispiel: Spam-Erkennung

Ein klassisches Beispiel für Supervised Learning ist die Spam-Erkennung. Der Ablauf sieht typischerweise so aus:

# Vereinfachtes Beispiel mit scikit-learn
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# Trainingsdaten: E-Mail-Texte und deren Labels
texte = [
    "Gewinnen Sie 1 Million Euro!",
    "Meeting morgen um 10 Uhr",
    "Gratis iPhone - jetzt klicken!",
    "Projektbericht im Anhang"
]
labels = ["spam", "kein_spam", "spam", "kein_spam"]

# Feature-Extraktion: Text in Zahlenwerte umwandeln
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texte)

# Modell trainieren
modell = MultinomialNB()
modell.fit(X, labels)

# Neue E-Mail klassifizieren
neue_mail = ["Kostenlos Geld verdienen!"]
X_neu = vectorizer.transform(neue_mail)
vorhersage = modell.predict(X_neu)
print(vorhersage)  # Ausgabe: ['spam']

In diesem Beispiel lernt der Algorithmus anhand von gelabelten E-Mails, welche Wörter typisch für Spam sind. Neue E-Mails kann er dann basierend auf diesen Mustern klassifizieren.

Supervised vs. Unsupervised Learning

Supervised Learning ist nur eine von mehreren Lernmethoden im Machine Learning. Der wichtigste Unterschied zum Unsupervised Learning (unüberwachtes Lernen) liegt in den Trainingsdaten:

Aspekt	Supervised Learning	Unsupervised Learning
Trainingsdaten	Gelabelt (mit korrekten Antworten)	Ungelabelt (ohne Antworten)
Ziel	Vorhersage bekannter Kategorien/Werte	Erkennung versteckter Strukturen
Typische Aufgaben	Klassifikation, Regression	Clustering, Dimensionsreduktion
Beispiele	Spam-Filter, Preisvorhersage	Kundensegmentierung, Anomalie-Erkennung

Beim Unsupervised Learning muss der Algorithmus selbst Strukturen und Muster in den Daten entdecken, ohne vorgegebene Antworten. Beim Supervised Learning kennt er hingegen die richtigen Antworten und lernt, diese zu reproduzieren.

Vor- und Nachteile

Vorteile

Hohe Genauigkeit: Durch gelabelte Daten lernt das Modell präzise Zusammenhänge
Messbare Leistung: Ergebnisse können direkt mit den korrekten Antworten verglichen werden
Gut etabliert: Viele bewährte Algorithmen und Werkzeuge verfügbar
Interpretierbarkeit: Bei einigen Algorithmen (z.B. Entscheidungsbäumen) sind die Entscheidungen nachvollziehbar

Nachteile

Labeling-Aufwand: Erstellung gelabelter Datensätze ist zeitaufwendig und teuer
Datenqualität entscheidend: Falsche oder verzerrte Labels führen zu schlechten Modellen
Bias-Gefahr: Vorurteile in den Trainingsdaten werden vom Modell übernommen
Begrenzte Flexibilität: Das Modell kann nur Kategorien vorhersagen, die es im Training gesehen hat