Künstliche Intelligenz in der Chemie: Wie intelligent sind große Sprachmodelle wirklich? Blog#233
Die Leistungsfähigkeit großer Sprachmodelle (Large Language Models, LLMs) in der Chemie hat in den letzten Jahren deutlich zugenommen. LLMs sind KI-Systeme, die auf riesigen Textmengen trainiert werden und dadurch Sprache, Wissen und Zusammenhänge erfassen und wiedergeben können. Bekannte Beispiele sind ChatGPT oder Claude.
Bemerkenswert ist auch, dass die menschlichen Teilnehmer bei einigen Aufgaben Internetrecherchen nutzen durften, während die KI-Systeme ausschließlich auf ihr trainiertes Wissen angewiesen waren. Die Studie zeigte zudem eine deutliche Korrelation zwischen Modellgröße und Leistungsfähigkeit. Da die Untersuchungen 2024 stattfanden und inzwischen leistungsfähigere KI-Modelle verfügbar sind, ist davon auszugehen, dass ein aktueller Test einen noch größeren Leistungsunterschied zugunsten der KI-Modelle ergeben würde.
Ein zentrales Defizit ist die oft wenig realistische Selbsteinschätzung der KI-Modelle. GPT‑4 etwa überschätzte in sicherheitsrelevanten chemischen Fragen seine Zuverlässigkeit deutlich – ein Risiko, wenn es um Labor- oder Prozessentscheidungen geht. Auch fehlt bislang so etwas wie eine chemische Intuition: In einem Test zur Molekülauswahl in der Arzneimittelforschung traf die KI Entscheidungen, die statistisch kaum besser als Zufall waren und erheblich von den Einschätzungen erfahrener Chemiker abwichen. Ursache ist das Fehlen praktischer Erfahrung und kontextueller Sensibilität – Eigenschaften, die menschliches Forschen prägen und die Entwicklung künftiger Modelle noch herausfordern werden.
Die ChemBench-Studie zeigt, dass KI-Modelle in vielen analytischen und datenbasierten Aufgaben bereits heute besser abschneiden als gut ausgebildete Chemiker. Sie sind daher schon jetzt ein verlässliches Werkzeug – etwa zur Literaturauswertung, Versuchsplanung oder Datenanalyse.
Gleichzeitig bestehen Defizite beim räumlichen Verständnis, bei Selbstreflexion und Entscheidungsfähigkeit. Diese Bereiche müssen in künftigen Modellgenerationen gezielt verbessert werden – durch realitätsnahe Trainingsdaten, die Integration von 3D-Struktur- und Simulationsinformationen sowie eine engere Anbindung an experimentelle Ergebnisse.
Eine im Mai 2025 im renommierten Fachjournal Nature Chemistry veröffentlichte Studie (LINK) gibt nun erstmals einen umfassenden Einblick, wie gut diese Systeme tatsächlich in der Lage sind, chemisches Wissen nicht nur zu reproduzieren, sondern auch wissenschaftlich anzuwenden und zu interpretieren. Dafür entwickelte ein internationales Forschungsteam die Benchmark-Plattform ChemBench, die über 2.700 realitätsnahe Aufgaben aus allen Bereichen der Chemie umfasst. Ziel war es, die Leistungsfähigkeit und Denkweise moderner KI-Modelle im direkten Vergleich mit menschlichen Chemikern zu untersuchen.
KI-Modelle übertreffen Expertenwissen – wenn auch mit Einschränkungen
In der Studie bearbeiteten 19 erfahrene Chemiker – überwiegend Doktoranden und Postdoktoranden – sowie mehrere KI-Systeme denselben Aufgabensatz aus ChemBench-Mini mit insgesamt 236 Prüfungsfragen. Das Ergebnis war bemerkenswert: Leistungsstarke Sprachmodelle wie ChatGPT o1-preview erzielten fast doppelt so viele richtige Antworten wie die besten menschlichen Teilnehmer!
![]() |
| Ergebnisse der Chemieprüfung: Das ChatGPT-Modell o1-preview übertrifft – ebenso wie einige andere aktuelle Systeme – die Leistungen selbst der besten menschlichen Experten deutlich. Die Prüfungsfragen sind öffentlich einsehbar: LINK. |
Bemerkenswert ist auch, dass die menschlichen Teilnehmer bei einigen Aufgaben Internetrecherchen nutzen durften, während die KI-Systeme ausschließlich auf ihr trainiertes Wissen angewiesen waren. Die Studie zeigte zudem eine deutliche Korrelation zwischen Modellgröße und Leistungsfähigkeit. Da die Untersuchungen 2024 stattfanden und inzwischen leistungsfähigere KI-Modelle verfügbar sind, ist davon auszugehen, dass ein aktueller Test einen noch größeren Leistungsunterschied zugunsten der KI-Modelle ergeben würde.
Allerdings offenbarten die Ergebnisse auch signifikante Schwächen der KI, insbesondere bei Fragestellungen, die räumliches Verständnis erfordern, etwa bei der Interpretation von NMR-Spektren, die eine intellektuelle Erfassung dreidimensionaler Molekülstrukturen voraussetzen. Große Sprachmodelle verarbeiten Moleküle primär in linearen Darstellungen (zum Beispiel SMILES-Codes) und erfassen die zugrundeliegenden räumlichen Beziehungen derzeit nur unzureichend. In Zukunft ist zu erwarten, dass multimodale Modelle mit 3D-Strukturinformationen, quantenchemischen Daten und Simulationsergebnissen trainiert werden. Dadurch könnten sie ein besseres Verständnis molekularer Geometrien entwickeln und zunehmend Aufgaben der Strukturaufklärung oder Reaktionsvorhersage übernehmen.
Ein zentrales Defizit ist die oft wenig realistische Selbsteinschätzung der KI-Modelle. GPT‑4 etwa überschätzte in sicherheitsrelevanten chemischen Fragen seine Zuverlässigkeit deutlich – ein Risiko, wenn es um Labor- oder Prozessentscheidungen geht. Auch fehlt bislang so etwas wie eine chemische Intuition: In einem Test zur Molekülauswahl in der Arzneimittelforschung traf die KI Entscheidungen, die statistisch kaum besser als Zufall waren und erheblich von den Einschätzungen erfahrener Chemiker abwichen. Ursache ist das Fehlen praktischer Erfahrung und kontextueller Sensibilität – Eigenschaften, die menschliches Forschen prägen und die Entwicklung künftiger Modelle noch herausfordern werden.
Implikationen für die chemische Ausbildung und Forschung
Die überlegene Leistungsfähigkeit von KI in Wissensfragen stellt traditionelle Lehr- und Lernmethoden infrage. Routineaufgaben wie das Wiedergeben von Reaktionsmechanismen oder die Datensuche können KIs heute schon effizienter lösen als Studierende. Daher schlagen die Autoren der Studie eine grundlegende Neuausrichtung der chemischen Ausbildung vor: Der Fokus müsse stärker auf kritisches Denken, Analysekompetenz und das tiefere Verständnis chemischer Zusammenhänge gelegt werden, während die Inhalte der reinen Wissensvermittlung zunehmend von Maschinen übernommen werden können.Fazit
Gleichzeitig bestehen Defizite beim räumlichen Verständnis, bei Selbstreflexion und Entscheidungsfähigkeit. Diese Bereiche müssen in künftigen Modellgenerationen gezielt verbessert werden – durch realitätsnahe Trainingsdaten, die Integration von 3D-Struktur- und Simulationsinformationen sowie eine engere Anbindung an experimentelle Ergebnisse.
Um das volle Potenzial dieser Technologien auszuschöpfen, sollten chemische Ausbildung sowie Forschung und Entwicklung künftig konsequent auf eine integrierte Zusammenarbeit von Mensch und KI ausgerichtet werden.
_____________________________________________________________________________
Verantwortlicher: Klaus Rudolf; Kommentare und Fragen bitte an: rudolfklausblog@gmail.com
Auf diesem Blog teile ich meine persönlichen Meinungen und Erfahrungen . Es ist wichtig zu betonen, dass ich weder Arzt noch Finanzberater bin. Jegliche Informationen, die ich in meinem Blog vorstelle, stellen weder Anlageempfehlungen noch Therapieempfehlungen dar. Für fundierte Entscheidungen in Bezug auf Gesundheitsfragen oder Finanzanlagen empfehle ich, sich umfassend zu informieren und bei Bedarf einen professioniellen Experten zu konsultieren.
