Machine Learning in Materials Processing &amp; Characterization

Philipp Pelz

Abstract

This course teaches how machine learning can be applied to experimental data from materials processing and characterization. The focus lies on images, spectra, time-series, and processing parameters, and on understanding how physical data formation interacts with learning algorithms. Students learn to build robust, uncertainty-aware ML pipelines for real experimental workflows, avoiding common pitfalls such as data leakage, overfitting, and spurious correlations.

ECLIPSE Lab Teaching

Machine Learning in Materials Processing & Characterization

Application-focused course on ML for experimental materials data, from images and spectra to process signals.

Semester

Summer Semester 2026

Format

2h lecture + 2h exercises

Credits

5 ECTS

Audience

Students in Materials Science, data science, and computational engineering

Prerequisites

Helpful: Mathematical Foundations of AI & ML or equivalent background

StudOn GitHub / Materials All Teaching KI in Materialtechnologie

How to use this course site. Use this page as the central hub for syllabus, lecture structure, reading, notebooks, and course materials. Formal announcements and enrollment remain on StudOn; code and openly shared resources live in the linked GitHub repository.

1 Machine Learning in Materials Processing & Characterization

5th Semester – 5 ECTS · 2h lecture + 2h exercises per week
Coordinated with “Mathematical Foundations of AI & ML” (MFML)
and “Materials Genomics” (MG)

1.1 Synergy Map

MFML provides the mathematical spine: loss functions, neural networks, generalization, uncertainty, Gaussian Processes.
This course (ML-PC) applies these concepts to experimental data: images, spectra, and processing signals.
Materials Genomics focuses on crystal structures, databases, and discovery.

ML-PC is therefore application-driven, not algorithm-driven.

1.2 Companion books

Sandfeld (2024): Materials Data Science

1.3 Week-by-Week Curriculum (14 weeks)

1.3.1 Unit I — Experimental Data as a Learning Problem (Weeks 1–3)

1.3.1.1 Week 1 – What makes materials data special?

Lecture: Tuesday, 14.04.2026, 14:15-15:45 | Exercise: Thursday, 16.04.2026, 16:15-17:45

Slides: Open

Types of experimental data: micrographs, EBSD, EDS, EELS, XRD, process logs, thermal histories.
PSPP (Processing–Structure–Property–Performance) as a data dependency graph.
Why ML failure modes are common in experimental science.

Summary:

Transition from physics-based to data-driven modeling
Experimental data challenges: multi-modal, high acquisition cost, sparse
PSPP (Processing → Structure → Property → Performance) as a data dependency graph
Data scales and measurement uncertainty
CRISP-DM workflow adapted for scientific labs

Exercise:
Inspect real microscopy and process datasets; identify sources of bias and noise.

1.3.1.2 Week 2 – Physics of data formation

Lecture: Tuesday, 21.04.2026, 14:15-15:45 | Exercise: Thursday, 23.04.2026, 16:15-17:45

Slides: Open

Image and signal formation in characterization: resolution, contrast, artifacts.
Sampling, aliasing, noise as physical priors (not preprocessing tricks).
Relation to MFML refresher on PCA and covariance.

Summary:

Physical signal formation as a learning prior
Resolution, noise, sampling as physical (not algorithmic) constraints
PCA and SVD for low-dimensional structure in high-dimensional data

Exercise:
Fourier inspection of micrographs; effects of sampling and filtering.

1.3.1.3 Week 3 – Data quality, labels, and leakage

Lecture: Tuesday, 28.04.2026, 14:15-15:45 | Exercise: Thursday, 30.04.2026, 16:15-17:45

Slides: Open

Annotation uncertainty and inter-annotator variance.
Train/test leakage in materials workflows.
Why “good accuracy” often means a broken pipeline.

Summary:

Measurement chain → data cleaning: missing values, outliers, duplicates (“fix at source”)
Transformation toolbox: centering, min–max / z-score scaling, non-dimensionalization, log, differentiation, FFT, triggering
Labels and uncertainty: inter-annotator variance, probabilistic labels, Bayesian view (priors, likelihoods, posteriors)
Bias–variance tradeoff with parsimony and regularization
Data leakage in materials workflows: pre-processing, temporal, group/spatial
Validation: holdout, K-fold, LOOCV, stratified
Error measures:
- Regression: MAE, MSE, RMSE, \(R^2\)
- Classification / segmentation: confusion matrix, precision/recall, F1/Dice, IoU, categorical cross-entropy

Exercise:
Construct a deliberately flawed ML pipeline and diagnose its failure.

1.3.2 Unit II — Representation Learning for Microstructures (Weeks 4–6)

(Aligned with early neural networks in MFML)

1.3.2.1 Week 4 – From classical microstructure metrics to learned representations

Lecture: Tuesday, 05.05.2026, 14:15-15:45 | Exercise: Thursday, 07.05.2026, 16:15-17:45

Slides: Open

Grain size, phase fractions, orientation maps.
Limits of hand-crafted microstructure features.
Transition to learned representations.

Summary:

Classical stereological metrics (grain size, phase fractions) and their limits
Transition to learned representations
The artificial neuron: weights, biases, non-linear activations
Multi-Layer Perceptrons (MLPs) as automatic feature learners

Exercise:
Compare classical features vs simple NN-based features for microstructure tasks.

1.3.2.2 Week 5 – Neural networks for microstructure images

Lecture: Tuesday, 12.05.2026, 14:15-15:45 | Exercise: Thursday, 14.05.2026, 16:15-17:45 (cancelled - Himmelfahrt)

Slides: Open

CNN intuition: filters as structure detectors.
Example tasks: phase segmentation, defect detection, porosity identification.
Overfitting risks with small datasets.

Summary:

Convolutional Neural Networks (CNNs) for materials characterization
Hierarchical structure detectors: edges → textures → phase morphologies
Filters and pooling; parameter efficiency vs. MLPs
Case studies: phase segmentation, defect detection
Practical challenges: high-resolution, noisy micrographs

Exercise:
Train a small CNN on microstructure images; analyze failure cases.

1.3.2.3 Week 6 – Data scarcity & transfer learning

Lecture: Tuesday, 19.05.2026, 14:15-15:45 | Exercise: Thursday, 21.05.2026, 16:15-17:45

Slides: Open

Why materials datasets are small.
Transfer learning from natural images vs self-supervised pretraining.
When transfer learning helps—and when it does not.

Summary:

Data scarcity as the materials informatics bottleneck
Transfer learning from natural-image pretrained models
Self-supervised pretraining as an alternative
Data augmentation tailored to scientific data
When cross-domain transfer succeeds vs. fails

Exercise:
Fine-tune a pretrained model; compare against training from scratch.

1.3.3 Unit III — Learning from Processing Data (Weeks 7–8)

1.3.3.1 Week 7 – Time-series and process monitoring

Lecture: Tuesday, 26.05.2026, 14:15-15:45 (self-study — Pfingstdienstag public holiday) | Exercise: Thursday, 28.05.2026, 16:15-17:45 (in class)

Slides: Open

Self-study lecture: the Tuesday slot is cancelled (Pfingstdienstag). Work through the slide deck independently; the Thursday exercise runs in class and consolidates the material.

Processing signals: temperature cycles, AM melt pool signals, SPS, rolling.
Regression and sequence models as surrogates.
Relation to MFML concepts of generalization.

Summary:

Time-series ML for process monitoring and prediction
RNNs and LSTMs for sequential dependencies
Preprocessing: signal smoothing, triggering on noisy logs
Case studies: additive manufacturing, process stability
Real-time anomaly detection from processing history

Exercise: Predict a process outcome from time-series data using regression or simple RNNs.

1.3.3.2 Week 8 – Inverse problems and process maps

Lecture: Tuesday, 02.06.2026, 14:15-15:45 (in class) | Exercise: Thursday, 04.06.2026, 16:15-17:45 (self-study — Fronleichnam public holiday)

Slides: Open

Self-study exercise: the Thursday slot is cancelled (Fronleichnam). The exercise is provided for independent work; a solution is released afterwards.

Process → structure inverse problems.
ML-guided process maps (e.g. AM laser power vs scan speed).
Physics-informed vs unconstrained regression.

Summary:

Inverse problems: target microstructure / performance → processing parameters
Forward (causal) vs. inverse (often ill-posed, multi-valued)
Physics-informed learning: physical transformations and constraints
Process maps and process corridors for safe operating regions

Exercise: Construct a simple ML-based process map; compare constrained vs unconstrained models.

1.3.4 Unit IV — Characterization, Transformers, and Uncertainty (Weeks 9–11)

1.3.4.1 Week 9 – ML for characterization signals

Lecture: Tuesday, 09.06.2026, 14:15-15:45 | Exercise: Thursday, 11.06.2026, 16:15-17:45

Slides: Open

Spectral data: XRD, EELS, EDS.
Denoising, peak finding, dimensionality reduction.
Using ML without destroying physical meaning.

Summary:

Unsupervised ML on high-dimensional spectra (XRD, EDS, EELS)
K-Means and t-SNE for phase identification and visualization
Autoencoders: compressing spectra into a low-dimensional latent space
Denoising and feature extraction at high throughput without losing physics

Exercise: Apply PCA/NMF to spectral datasets; interpret components physically.

1.3.4.2 Week 10 – Transformers for materials characterization

Lecture: Tuesday, 16.06.2026, 14:15-15:45 | Exercise: Thursday, 18.06.2026, 16:15-17:45

Slides: Open

Why attention: long-range correlations beyond CNN receptive fields.
Scaled dot-product attention and the Vision Transformer (ViT).
Flash Attention for tractable long sequences.

Summary:

Self-attention and the Vision Transformer (ViT) for materials imaging
Flash Attention: long sequences without the L×L memory blow-up
Applications: ViT on 4D-STEM diffraction; cross-attention across LPBF layer stacks
Scaling alternatives (Mamba / state-space models) — and when not to reach for a transformer

Exercise: Apply a small ViT / attention model to a characterization dataset (e.g. 4D-STEM patches); compare against a CNN baseline.

1.3.4.3 Week 11 – Uncertainty-aware regression & Gaussian Processes

Lecture: Tuesday, 23.06.2026, 14:15-15:45 | Exercise: Thursday, 25.06.2026, 16:15-17:45

Slides: Open

Aleatoric vs epistemic uncertainty in experiments.
Gaussian Processes as uncertainty-aware surrogates.
Exploration vs exploitation in experimental design.
Connection to materials acceleration platforms.

Exercise: Compare GP regression and NN ensembles for a process-parameter problem.

1.3.5 Unit V — Physics, Trust, and Synthesis (Weeks 12–13)

1.3.5.1 Week 12 – Physics-informed and constrained ML

Lecture: Tuesday, 30.06.2026, 14:15-15:45 | Exercise: Thursday, 02.07.2026, 16:15-17:45

Slides: Open

Embedding physical constraints into ML models.
Penalty terms, soft constraints, hybrid approaches.
Failure modes of unconstrained models.

Exercise: Train a constrained model for a processing or characterization task.

1.3.5.2 Week 13 – Integration, limits, and reflection

Lecture: Tuesday, 07.07.2026, 14:15-15:45 | Exercise: Thursday, 09.07.2026, 16:15-17:45

Slides: Open

Explainability for experimental ML (CAMs, SHAP).
Why ML fails in real labs.
Where ML genuinely changes materials processing.

Exercise: Mini-project presentations and critical discussion.

1.3.5.3 Week 14 – Buffer, review, and mini-project work

Tuesday, 14.07.2026, 14:15-15:45 | Thursday, 16.07.2026, 16:15-17:45

No new material. Reserved as a buffer to absorb schedule slippage from the Week 7 / Week 8 public-holiday self-study sessions, for review of difficult topics on request, and for mini-project consultation and presentations.

1.4 Learning Outcomes

Students completing this course will be able to:

Interpret materials processing and characterization data as learning problems.
Build ML pipelines for microstructure analysis, process prediction, and spectral data.
Understand the physics of data formation to avoid common ML pitfalls.
Evaluate generalization, robustness, and uncertainty in experimental ML models.
Apply Gaussian Processes and neural networks as surrogate models.
Integrate physical constraints into ML workflows.
Critically assess claims about ML in materials processing and characterization.

1.5 Lab Possibilities

Microscopy datasets: noise, metadata, units, and artifacts.
Fourier inspection of SEM/TEM images.
Broken vs correct ML pipelines (data leakage case studies).
Feature extraction vs learned representations.
Fine-tuning pretrained CNNs on microstructures.
Process–property regression with uncertainty.
GP-based process maps.
Spectral decomposition (NMF) of EELS/XRD data.
ML-assisted autofocus or EBSD pattern classification.
Multi-modal fusion of images, spectra, and process parameters.

References

Sandfeld, Stefan. 2024. Materials Data Science: Introduction to Data Mining, Machine Learning, and Data-Driven Predictions for Materials Science and Engineering. Springer Nature.