Machine Learning ist eine Technik zur Datenanalyse, mit der Computer die Fähigkeit erwerben, aus Erfahrung zu lernen. Machine-Learning-Algorithmen verwenden rechnergestützte Methoden, um Informationen direkt aus Daten zu »lernen«, ohne eine vorgegebene Gleichung als Modell zu nutzen. Mit wachsender Anzahl von Stichproben, die zum Lernen zur Verfügung stehen, steigern diese Algorithmen adaptiv ihre Leistung.
Machine-Learning-Algorithmen finden natürliche Muster in Daten, die Erkenntnisse generieren und die Entscheidungsfindung sowie Prognosen unterstützen können. Anwendungsbereiche sind beispielsweise medizinische Diagnosen, Börsenhandel, Vorhersagen von Stromlasten.
Machine Learning verwendet zwei Arten von Techniken:
Ein Algorithmus des überwachten Machine Learning verwendet eine bekannte Menge von Eingabe- und Ausgabedaten, den sogenannten Trainingsdatensatz, um damit ein Modell so zu trainieren, dass dieses Modell fundierte Vorhersagen der Antwortwerte für neue Datensätze treffen kann.
Die Verwendung größerer Trainingsdatensätze und die Optimierung von Modell-Hyperparametern kann oft die Vorhersagekraft des Modells erhöhen und sicherstellen, dass es für neue Datensätze gut verallgemeinert werden kann.
Beim überwachten Lernen werden Klassifikations- und Regressionstechniken verwendet, um die prädiktiven Modelle zu entwickeln.
Nicht überwachtes Machine Learning findet Muster oder innere Strukturen in Daten. Es wird verwendet, um Rückschlüsse aus (u.U. sehr großen) Datenmengen zu ziehen. Die Eingabedaten sind nicht gekennzeichnet und es existieren keine klassifizierten Ausgabedaten, mit denen ein Modell trainiert werden könnten.
Clustering ist die häufigste Technik des nicht überwachten Lernens. Es wird für explorative Datenanalysen verwendet, um verborgene Muster oder Gruppierungen in Daten zu finden. Anwendungen für die Clusteranalyse sind beispielsweise Gensequenzanalyse, Marktforschung und Objekterkennung.