Google für Proteinsequenzen: wie eine biologische Suchmaschine die Naturwissenschaften revolutioniert

Hajk-Georg Drost vor dem 'DIAMOND-Miner', der Workstation in seinem Labor, auf der die ersten Benchmarks für die Veröffentlichung in Nature Methods durchgeführt wurden.
Supercomputer am MPCDF in Garching | Die experimentelle Studie zur Simulation der Proteinsuche auf der Ebene des Lebensbaums in der Ära des Biogenoms der Erde wurde in Zusammenarbeit mit Klaus Reuter und John Kennedy am MPCDF unter Verwendung von >20.000 CPU-Kernen durchgeführt.

"Um das Aussterben bedrohter Tier-, Pilz- und Pflanzenarten zu verhindern, ist die einzige kurzfristige Möglichkeit zur Erhaltung der biologischen Vielfalt das Erbgut der noch lebenden Spezies zu entschlüsseln, diese Informationen zu speichern und zu versuchen möglichst viel daraus zu lernen“, erklärt Hajk-Georg Drost die Grundmotivation seiner Arbeit am Max-Planck-Institut (MPI) für Biologie in Tübingen. Sein Doktorand Benjamin Buchfink und er haben die nächste Generation von „DIAMOND“ entwickelt, eine biologische Suchmaschine für Proteinsequenzen. Die Software ermöglicht es Proteinabfolgen mit allen bisher erforschten Organismen im Stammbaum des Lebens zu vergleichen. Dadurch könnten wichtige Erkenntnisse für die Erforschung der Biodiversität sowie für die Medizin im Kampf gegen Krankheiten gewonnen werden.

Das Kernkonzept der biologischen Suchmaschine „DIAMOND“ (Double Index Alignment of Next Generation Sequencing) wurde ursprünglich für spezifische Mikrobiom-Analysen von Benjamin Buchfink in der Forschungsgruppe von Daniel Huson, Professor für algorithmische Bioinformatik an der Universität Tübingen entwickelt. Mit der Grundversion der Software im Gepäck kam Benjamin Buchfink ans MPI und wurde Teil der 2019 neu von Hajk-Georg Drost gegründeten Forschungsgruppe Computational Biology in der Abteilung für Molekulare Biologie. Als Gruppenleiter entdeckte Hajk-Georg sofort das Potential, das in DIAMOND und seinem Programmierer lag: „Benjamin ist der beste C++ Programmierer, den ich kenne“, gibt er stolz zu.

Als Hajk-Georg von DIAMOND hörte, sah er sofort die Anwendung für das Earth Biogenome Projekt und die Weiterentwicklung von DIAMOND in den Bereich der Biodiversitätsgenomik (Wissenschaftsdisziplin, die sich mit dem Vergleich des Erbguts innerhalb verschiedener Spezies der biologischen Vielfalt befasst). Das Earth Biogenome Projekt hat zum Ziel zwischen 2020 und 2030 die Genome von 1,5 Millionen eukaryotischen Spezies zu entschlüsseln, um so deren genetischen Aufbau vor dem Aussterben zu konservieren und die Informationen der biologischen Vielfalt zu retten. Eukaryoten sind alle Lebewesen, die einen Zellkern aufweisen, wie beispielsweise Tiere, Pflanzen, Algen oder Pilze. „Die große Vision dahinter ist, möglichst viel aus diesen Informationen für die Zukunft der molekularen Lebenswissenschaften zu lernen“, betont Hajk-Georg. „Allerdings ergibt die Suche gegen 1,5 Millionen eukaryotischer Genome eine riesige Datenmenge, die leicht mehrere hundert Terrabyte und für sehr ambitionierte Fragestellungen sogar bis zu mehreren Petabytes erzeugen kann. Mit der derzeit etablierten Software ,BLAST‘ würde es über 100 Jahre dauern alle 1,5 Millionen Genome miteinander zu vergleichen. Wenn wir aber für die Zukunft aus dem Erbgut derzeit lebender Arten etwas lernen wollen, dann haben wir dafür keine 100 Jahre Zeit.“

MPCDF in Garching | Die Zukunft der Biologie ist datengesteuert und wird sich weiterhin auf intelligente Open-Source-Software stützen, die in der Computing-Cloud skaliert werden kann.

Tatsächlich gelang es Benjamin und Hajk-Georg, DIAMOND mit neuen Ambitionen immer weiter zu entwickeln und bedeutend schneller und exakter zu machen. In Zusammenarbeit mit Klaus Reuter und John Kennedy von der Max Planck Computing and Data Facility (MPCDF) in Garching konnten die beiden Bioinformatiker die Skalierbarkeit von DIAMOND mit einem Supercomputer untersuchen und zeigen, dass DIAMOND bis zu 10000-mal schneller arbeitet als der bisherige Goldstandard BLAST – wertvolle Zeit, die den Forschenden dabei hilft sich auf die nächsten Probleme im Kampf gegen das Artensterben zu fokussieren, anstatt auf ihre Sequenzsuchergebnisse warten zu müssen. Die Studie dazu wurde 2021 in der Fachzeitschrift Nature Methods veröffentlicht.

Der Alltag von Hajk-Georg und Benjamin spielt sich ausschließlich vor dem Computer ab. „Es kommt vor, dass man an einem kritischen Teil des Programm-Codes, mehrere Tage arbeitet, obwohl es letztlich nur ein paar Zeilen Code sind. Das kann sehr frustrierend sein“, erzählt Benjamin auf die Frage nach Rückschlägen im Entwicklungsprozess. „Wenn diese eine Zeile Code aber später den Unterschied macht, ob das Tool 1000-mal schneller läuft, dann lohnt es sich“, fügt er hinzu.

Für Hajk-Georg ist die Software DIAMOND eine von vielen seiner Gruppe, an denen er parallel arbeitet. Seine breitaufgestellte Neugier und Ambitionen sind nicht neu. Bereits mit den Ergebnissen seiner eigenen Bachelorarbeit an der Universität Halle schaffte es Hajk-Georg 2012 in eine Publikation auf der Titelseite des international renommierten Fachmagazins Nature. Auch in seiner weiteren wissenschaftlichen Laufbahn an der Universität Cambridge in England veröffentlichte er mehrfach wichtige Erkenntnisse in der Genomik und Epigenetik und entwickelte Open-Source-Software, mit deren Hilfe grundlegende Fragen in allen Bereichen der Biologie und Medizin beantwortet werden können.

Für die Zukunft wünschen sich Hajk-Georg und Benjamin mehr Manpower. „Nur dank der großzügigen Ressourcen unserer Abteilung, unserer wundervollen Kollaborationspartner und der Max-Planck-Gesellschaft generell schaffen wir es als kleines Team tausenden Lebenswissenschaftler:innen bei ihrer Forschung helfen zu können. Dennoch finde ich es schade, dass es trotz der enormen akademischen Wertschöpfung so wenig Investitionen im Bereich der Softwareentwicklung, der Modellierung in der Bioinformatik und in den Lebenswissenschaften generell gibt“, bemerkt Hajk-Georg. Es ist beachtlich, welch großes Problem der Naturwissenschaft die beiden Bioinformatiker mit dem neuen DIAMOND gelöst haben. „Wenn wir nur zwei oder drei Leute zusätzlich wären, könnten wir noch so viel mehr und schneller entwickeln“, berichtet Hajk-Georg und erläutert weiter: „Projektanträge habe ich bereits gestellt und hoffe sehr, dass auch die Förderinstitutionen das Potential erkennen.“
Und sie haben viel vor: Mit Hilfe des MPCDF in Garching möchten sie die großen Ergebnisdatenmengen von DIAMOND analog zu Google, Facebook und Amazon in eine effiziente Datenbankinfrastruktur bringen. Das würde die Datenanalyse des Earth Biogenome Projektes und vielen weiteren Studien in den Lebenswissenschaften erheblich vereinfachen.