Maschinelles Lernen: Neues Paper mit Prof. Grimm veröffentlicht
In der biologischen Forschung hat der Einsatz künstlicher Intelligenz unzählige Möglichkeiten und Chancen eröffnet und ist für das Verständnis komplexer biologischer Systeme unverzichtbar geworden. Durch die Anwendung von Methoden des maschinellen Lernens (ML) auf biomolekulare Daten können Forschende Muster und Beziehungen beispielsweise in DNA, RNA- und Proteinsequenzen erkennen. Dies hat in vielen Bereichen der biologischen Forschung zu bedeutenden Fortschritten geführt, beispielsweise bei der Vorhersage von 3D-Proteinstrukturen.
In der praktischen Anwendung stoßen Forschende jedoch immer wieder auf das Problem, dass die berichteten Ergebnisse von ML-basierten Prädiktoren oft zu optimistisch sind und sich nicht mit unabhängigen Daten reproduzieren lassen. Ein Hauptgrund hierfür sind sogenannte „Datenlecks“ – sprich der unerlaubte Transfer von Informationen zwischen Trainings- und Testdaten. Dies führt zu übermäßig optimistischen Leistungsschätzungen, die in der Praxis nicht validiert werden können.
Ein Team von Forschenden der Technischen Universität München (TUM), der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), der Hochschule Weihenstephan-Triesdorf (HSWT), des Helmholtz-Institut für Pharmazeutische Forschung Saarland (HIPS) und der Universität des Saarlandes (UdS) hat sich daher mit der Frage beschäftigt, wie diese Fallstricke bei der Anwendung von ML-basierten Ansätzen vermieden werden können, die insbesondere in biologischen Anwendungen schnell zu Datenlecks und damit zu überoptimistischen Ergebnissen führen können.
„Gerade in biologischen und medizinischen Anwendungen sind Datenlecks, die zu unrealistischen Einschätzungen der Leistungsfähigkeit von ML-Ansätzen führen, besonders gefährlich“, sagt Prof. Olga Kalinina vom HIPS/UdS, „da sie hier potenziell sogar Patientensicherheit gefährden können.“
Vor diesem Hintergrund stellen die Forschenden sieben Fragen vor, die bei der Konstruktion von Modellen des maschinellen Lernens in der Biologie helfen sollen, Datenlecks zu vermeiden. Indem sie diese Fragen auf konkrete Beispiele anwenden, demonstrieren die Forschenden ihre Nützlichkeit und bieten einen Leitfaden für die robuste und reproduzierbare Forschung im Bereich des maschinellen Lernens in der Biologie. „Unser Ziel ist es, das Bewusstsein für mögliche Probleme durch Datenlecks zu schärfen und zur Entwicklung zuverlässiger maschineller Lernmodelle beizutragen. Wir hoffen, dass unsere Fragen Forschenden dabei helfen, komplexen und versteckte Abhängigkeiten in biologischen Daten zu erkennen und so Datenlecks zu vermeiden“, sagt Prof. Grimm, Leiter der Professur für Bioinformatik am TUM Campus Straubing und der HSWT.
„Heutzutage ist es dank populärer Software und Programmierframeworks einfacher geworden, einen validen ML-Workflow zu gewährleisten. In der Praxis erhöht ihre Benutzerfreundlichkeit jedoch das Risiko wissenschaftlich inkorrekter Anwendungen und falscher Ergebnisse“, bemerkt Prof. David Blumenthal vom Department Artificial Intelligence in Biomedical Engineering der FAU.
„Umgekehrt kann die Komplexität biologischer Daten zu Datenlecks führen, wenn sie von Datenwissenschaftlerinnen und -wissenschaftlern ohne ausreichende Qualifikation in der jeweiligen Anwendungsdomäne übersehen werden. Aus diesen Gründen empfehlen wir dringend eine interdisziplinäre Zusammenarbeit zwischen Expertinnen und Experten aus beiden Bereichen“, sagt Prof. Markus List, Professor für Data Science in Systems Biology an der TUM in Freising.
Zusammenfassend erläutert Prof. Haselbeck, Professor für Smart Farming an der HSWT: „Besonders hervorheben möchte ich die sehr gute interinstitutionelle Zusammenarbeit. Wir hoffen, mit unserer Arbeit die Qualität und Zuverlässigkeit zukünftiger maschineller Lernmodelle für biologische Anwendungen zu verbessern.“
Weitere Informationen zum Artikel:
Bernett, J., Blumenthal, D.B., Grimm, D.G. et al. Guiding questions to avoid data leakage in biological machine learning applications. Nat Methods 21, 1444–1453 (2024). https://doi.org/10.1038/s41592-024-02362-y