Materials Genomics
Unit 2: Simulation Methods as Data Generators

Prof. Dr. Philipp Pelz

FAU Erlangen-Nürnberg

02. Learning objectives

03. Why simulations dominate materials data generation

04. Recap from Unit 1

05. Simulation as a map from assumptions to data

06. Length and time scales in materials modeling

07. FEM outputs

08. MD outputs

09. MC outputs

10. DFT outputs

11. Cost vs accuracy vs scale

12. Hidden bias from simulation choices

13. What becomes an ML target

14. What remains metadata

15. Simulation consistency vs physical accuracy

16. Which method for which property

17. Failure mode: mismatched fidelity

18. Failure mode: missing provenance

19. Bridge to databases

20. Bridge to Week 3

21. Bridge to Week 4

22. Feature leakage risks

23. Train/val/test with structure families

24. Distribution shift in crystal data

25. Target examples

26. Physical constraints in predictions

27. Error analysis by structure class

28. Uncertainty in structure-property models

29. Outliers and anomaly handling

30. Data provenance importance

31. FAIR perspective (light)

32. Minimal baseline workflow

33. Metrics choice by target type

34. Model card for materials task

35. Common failure mode #1

36. Common failure mode #2

37. Common failure mode #3

38. Mitigation checklist

39. Case sketch: crystal subset study

40. Case sketch: split comparison

41. MFML dependency map

42. Link to upcoming MG Unit 3

43. Exercise scaffold: task setup

44. Exercise scaffold: parsing step

45. Exercise scaffold: feature table

46. Exercise scaffold: split + model

47. Exercise scaffold: diagnostics

48. Exam-oriented key statements

49. Summary slide

50. References + reading assignment

Materials GenomicsUnit 2: Simulation Methods as Data Generators

02. Learning objectives

03. Why simulations dominate materials data generation

04. Recap from Unit 1

05. Simulation as a map from assumptions to data

06. Length and time scales in materials modeling

07. FEM outputs

08. MD outputs

09. MC outputs

10. DFT outputs

11. Cost vs accuracy vs scale

12. Hidden bias from simulation choices

13. What becomes an ML target

14. What remains metadata

15. Simulation consistency vs physical accuracy

16. Which method for which property

17. Failure mode: mismatched fidelity

18. Failure mode: missing provenance

19. Bridge to databases

20. Bridge to Week 3

21. Bridge to Week 4

22. Feature leakage risks

23. Train/val/test with structure families

24. Distribution shift in crystal data

25. Target examples

26. Physical constraints in predictions

27. Error analysis by structure class

28. Uncertainty in structure-property models

29. Outliers and anomaly handling

30. Data provenance importance

31. FAIR perspective (light)

32. Minimal baseline workflow

33. Metrics choice by target type

34. Model card for materials task

35. Common failure mode #1

36. Common failure mode #2

37. Common failure mode #3

38. Mitigation checklist

39. Case sketch: crystal subset study

40. Case sketch: split comparison

41. MFML dependency map

42. Link to upcoming MG Unit 3

43. Exercise scaffold: task setup

44. Exercise scaffold: parsing step

45. Exercise scaffold: feature table

46. Exercise scaffold: split + model

47. Exercise scaffold: diagnostics

48. Exam-oriented key statements

49. Summary slide

50. References + reading assignment

Materials Genomics
Unit 2: Simulation Methods as Data Generators