Industrial Data Science Vorlesung
Im Wintersemester war ich erneut an der Vorlesung “Industrial Data Science” an der TU Dortmund beteiligt.
Es handelt sich dabei um ein interdisziplinäres Modul mit den Fakultäten Maschinenbau, Statistik und Informatik.
Mit vier Vorlesungseinheiten habe ich hier etwas ein Viertel der Veranstaltung gehalten, vorwiegend vertiefende Teile.
Für meine Teile habe ich Vorlesungsaufzeichnungen, die ich jetzt auch (teilweise aber in einer “zensierten” Version) derzeit auch auf YouTube hochgeladen habe. Die Vorlesungssprache dieses Moduls ist Deutsch.
Begleitet wird die Vorlesung von einem Übungsbetrieb, und die Prüfung erfolgte dieses Semester in einer Online-Klausur aufgrund von Corona.
9-1 Klassifikation Einleitung, Overfitting und Evaluation – Industrial Data Science
- Klassifikation – Einleitung
- Überwachtes Lernen – Klassifikation
- Unterschied Klassifikation vs. Clusteranalyse und Regression
- Klassifikation: Naive Vorgehensweise
- Klassifikation: Training und Test
- Selbstbetrug bei der Klassifikation
- Klassifikation: Verbesserte Vorgehensweise
- Kreuzvalidierung – und alles ist gut?
- Kreuzvalidierung
- Beispiel: Regelbasiertes Entscheidungssystem
9-2 Entscheidungsbäume Grundlagen – Industrial Data Science
- Entscheidungsbäume
- Motivation
- Beispiel: Entscheidungsbaum
- Entscheidungsbäume als Regelbasierte Systeme
- Grundlagen
9-3 Lernen von Entscheidungsbäumen – Industrial Data Science
- Lernen von Entscheidungsbäumen
- Konstruktion eines Entscheidungsbaumes /1
- Konstruktion eines Entscheidungsbaumes /2
- Beispiel (Datensatz von )
- Splitmöglichkeiten für kategoriale Attribute
- Splitmöglichkeiten für numerische Attribute
- Der beste Split – Beispiel
- Qualitätsmaße für Splits
- Unreinheitsmaße: Gini-Index
- Gini-Index: Beispiel
- Informationsgewinn
- Informationsgewinn: Beispiel
- Informationsgewinn und Gain-Ratio
- Gain-Ratio: Beispiel
- Klassifikationsfehler als Splitkriterium
- Vergleich von Splitkriterien
9-4 Beispiel für Entscheidungsbäume –Industrial Data Science
- Beispiel für Entscheidungsbäume
- Entscheidungsbäume auf Koordinaten in R²
- Entscheidungsbäume: Beispiel Iris-Daten
9-5 Random Forests und Gradient Boosting – Industrial Data Science
- Ensembles und Meta-Lernen
- Fehler-Rate von Ensembles
- Random Forests
- Random Forest: Beispiel
- Boosting
- Gradient Boosting: Beispiel
9-6 Zusammenfassung Entscheidungsbäume – Industrial Data Science
10-0 Motivation Warenkorbanalyse – Industrial Data Science
10-1 Warenkorbanalyse Einleitung – Industrial Data Science
- Frequent Itemset Mining
- Motivation
- Assoziationsregeln
- Transaktionelles Datenmodell
- Itemsets als Filter
- Assoziationsregeln
- Einfache Assoziationsregeln: Beispiel
- Naïve Vorgehensweise
- Kombinatorische Explosion
- Berechnung Häufiger Itemsets
10-2 Apriori-Algorithmus zur Warenkorbanalyse – Industrial Data Science
- Apriori-Algorithmus
- Reduktion (``Pruning’’) mit dem Apriori-Prinzip
- Apriori-Algorithmus /2
- Effiziente Generierung von Kandidaten: apriori-gen
- Vermeidung von Redundanzen
- Kandidatengenerierung: Beispiel mit minsupp=50%
10-3 Beispiel Warenkorbanalyse – NetFlix – Industrial Data Science
10-4 Assoziationsregeln – Industrial Data Science
- Assoziationsregeln
- Erzeugen von Assoziationsregeln
- Erzeugen von Assoziationsregeln /2
- Erzeugen von Assoziationsregeln /3
- Erzeugen von Assoziationsregeln /4
- Interessantheit von Assoziationsregeln
- Interessantheit von Assoziationsregeln /2
- Interessantheit von Assoziationsregeln: Added Value
- Interessantheit von Assoziationsregeln: Lift
- Interessantheit von Assoziationsregeln: Conviction
10-5 Fazit Warenkorbanalyse & Assoziationsregeln – Industrial Data Science
11-1 Motivation Clusteranalyse – Industrial Data Science
- Motivation Clusteranalyse
- Anwendungsbereiche für die Clusteranalyse
- Was ist ein Cluster?
- Vorgehensweise bei der Clusteranalyse
- Vielfältige Clusteralgorithmen
11-2 Subjektivität von Clustern – Es gibt nicht das “richtige” Clustering – Industrial Data Science
11-3 Hierarchisches Clustering – Industrial Data Science
- Hierarchisches Clustering
- Distanzen & Ähnlichkeiten
- Hierarchisches Clustering – AGNES
- Linkage: Distanzen von Clustern
11-4 Beispiel Hierarchisches Clustering mit AGNES – Industrial Data Science
11-5 k-Means Clustering – Industrial Data Science
- k-Means Clustering
- Der Standard-Algorithmus für k-Means (Lloyds Algorithmus)
- Beispiel: k-Means Clustering
- Beispiel: k-Means Clustering
- k-Means: Vorteile und Nachteile
11-6 Gaußsche Mischmodelle im Clustering – Industrial Data Science
- Gaußsche Mischmodelle
- Modellierung mit Normalverteilungen
- Beispiel: Gaussian Mixture Modeling
- Diskussion Gaussian Mixture Modeling
11-7 Dichtebasiertes Clustering mit DBSCAN – Industrial Data Science
- Dichtebasiertes Clustering
- Dichtebasiertes Clustering: Kernidee
- Dichtebasiertes Clustering: Grundlagen
- Diskussion Dichtebasierte Verfahren
11-8 Themenanalyse / Topic Modeling mit LDA – Industrial Data Science
- Themenanalyse
- Topic Models
- Topic Modeling: Aufgabenstellung
- Generatives Modell der Latent Dirichlet Allocation (LDA)
- LDA: Latent Dirichlet Allocation
- Beispiel: Dirichlet-Verteilung
- Diskussion: Topic Modeling
11-9 Fazit Clusteranalyse – Industrial Data Science
13-1 Motivation Lineare Klassifikation – Industrial Data Science
13-2 Stützvektormaschinen / Support Vector Machines / SVM – Industrial Data Science
- Stützvektormaschinen
- Naïver Ansatz
- Stützvektoren bei Trennbaren Daten
- Berechnung der Maximum Margin Hyperplane (MMH)
- Berechnung der Maximum Margin Hyperplane (MMH) /2
- Breite des Randes der Maximum Margin Hyperplane (MMH)
- Quadratisches Optimierungsproblem der SVM
13-3 Soft-Margin und Kernelfunktionen bei SVMs – Industrial Data Science
- Soft-Margin und Kernelfunktionen
- Soft Margin SVM
- Nichtlineare SVM
- Nichtlineare SVM /2
- Kernelfunktionen
13-4 Einleitung Neuronale Netze – Industrial Data Science
- Neuronale Netze
- Bio-Chemischer Hintergrund von Neuronalen Netzen (vereinfacht)
- Bio-Chemischer Hintergrund von Neuronalen Netzen (vereinfacht) /2
- Allgemeine (künstliche) Neuronale Netze
- Threshold Logic Units
- Gewichtsmatrizen
13-5 Aktivierungsfunktionen für Neuronale Netze – Industrial Data Science
- Aktivierungsfunktionen
- Das Problem mit TLUs
- Beispiele für Aktivierungsfunktionen
- Beispiele für Aktivierungsfunktionen /2
- Beispiele für Aktivierungsfunktionen /3
13-6 Trainieren Neuronaler Netze mittels Backpropagation – Industrial Data Science
- Trainieren Neuronaler Netze
- Stochastic Gradient Descent
- Backpropagation
- Trainieren mittels Backpropagation