Den Code des Lebens knacken: Neues KI-Modell entschlüsselt die versteckte Sprache der DNA

17.08.2024

Die DNA enthält die grundlegenden Informationen für das Leben. Zu verstehen, wie diese Informationen gespeichert und organisiert sind, war und ist eine der größten wissenschaftlichen Herausforderungen des letzten Jahrhunderts. Mit GROVER, einem neuen Large Language Model (LLM), das mit menschlicher DNA trainiert wurde, können Forschende nun versuchen, die in unserem Genom verborgenen komplexen Informationen zu entschlüsseln. Entwickelt von einem Team am Biotechnologischen Zentrum (BIOTEC) der Technischen Universität Dresden, behandelt GROVER menschliche DNA wie Sprache und lernt seine Regeln und Zusammenhänge, um funktionale Informationen über die DNA-Sequenzen abzuleiten (1).

KI und Large Language Models tragen zum Verständnis nicht-kodierender DNA-Bereiche bei

„DNA hat viele Funktionen, die über die Proteincodierung hinausgehen. Einige Sequenzen regulieren Gene, andere dienen strukturellen Zwecken, die meisten Sequenzen erfüllen mehrere Funktionen gleichzeitig. Derzeit verstehen wir die Bedeutung des größten Teils der DNA nicht. Für die Bereiche außerhalb von Genen scheinen wir erst an der Oberfläche gekratzt zu haben. Hier können KI und Large Language Models helfen“, sagt Dr. Anna Poetsch, Forschungsgruppenleiterin am BIOTEC.

GROVER entschlüsselt „Sprache" der DNA

LLMs wie GPT haben unser Verständnis von Sprache verändert. Ausschließlich mit Text trainiert, entwickelten die Sprachmodelle die Fähigkeit, die Sprache in vielen Kontexten zu nutzen. Das Poetsch-Team trainierte ein LLM auf einem Referenz-Humangenom. Das resultierende Werkzeug namens GROVER, oder „Genome Rules Obtained via Extracted Representations“, kann verwendet werden, um biologische Bedeutung aus der DNA zu extrahieren.

„GROVER hat die Regeln der DNA gelernt. In Bezug auf Sprache sprechen wir über Grammatik, Syntax und Semantik. Für die DNA bedeutet dies, die Regeln der Sequenzen zu lernen, die Reihenfolge der Nukleotide und Sequenzen sowie deren Bedeutung. Ähnlich wie GPT-Modelle menschliche Sprachen lernen, hat GROVER im Grunde gelernt, ‚DNA zu sprechen‘“, erklärt Erstautorin Dr. Melissa Sanabria.

Lesen Sie mehr zu diesem Thema:

Künstliche Intelligenz: Unterscheidung zwischen Erregern von Entzündungen

Erschienen am 25.04.2024 • Lesen Sie hier, wie KI Infektionen nach ihrer Verursachung durch Bakterien, Viren oder andere Faktoren unterscheidet!

Erschienen am 25.04.2024 • Lesen Sie hier, wie KI Infektionen nach ihrer Verursachung durch Bakterien, Viren oder andere Faktoren...

Jetzt lesen

Präzise Vorhersagen und Einblicke in epigenetische Prozesse

Das Team zeigte, dass GROVER nicht nur die folgenden DNA-Sequenzen präzise vorhersagen kann, sondern auch verwendet werden kann, um Informationen biologischer Bedeutung aus Kontext zu extrahieren. So kann man z.B. den Start von Genen oder Proteinbindungsstellen auf der DNA identifizieren. GROVER lernt zudem epigenetische Prozesse, welche als „nicht kodierend" betrachtet werden.

Fragmentierung der DNA in „Wörter“

„Wir haben das gesamte Genom analysiert und nach Buchstabenkombinationen gesucht, die am häufigsten vorkommen. Wir begannen mit zwei Buchstaben und durchsuchten die DNA immer wieder, um sie zu den häufigsten mehrbuchstabigen Kombinationen aufzubauen. Auf diese Weise haben wir in etwa 600 Zyklen die DNA in ‚Wörter‘ fragmentiert, die es GROVER ermöglichen, die nächste Sequenz am besten vorherzusagen“, erklärt Dr. Sanabria.

GROVER soll Genomik und personalisierte Medizin voranbringen

GROVER verspricht, die verschiedenen Ebenen des genetischen Codes freizuschalten. Die DNA enthält wichtige Informationen darüber, was uns als Mensch ausmacht, unsere Krankheitsanfälligkeiten und unsere Reaktionen auf Behandlungen. „Wir glauben, dass das Verständnis der Regeln der DNA durch ein Sprachmodell uns helfen wird, die Tiefen der biologischen Bedeutung aufzudecken, die in der DNA verborgen ist. Das sollte sowohl die Genomik als auch die personalisierte Medizin voranbringen“, sagt Dr. Poetsch.Quelle:

Technische Universität Dresden

Literatur:(1) Sanabria et al. (2024): DNA language model GROVER learns sequence context in the human genome. Nat Mach Intell, DOI: https://doi.org/10.1038/s42256-024-00872-0

Stichwörter

Künstliche Intelligenz (KI)