Effizientere Suche in Genom- und Proteinsequenzen

Wissenschaftler haben eine Art Suchmaschine für Gen- und Proteinsequenzen entwickelt. Günstig und einfach soll die Bedienung für die Anwender sein. Der Bedarf ist riesig. Doch einige Fragen sind noch ungeklärt.

Genome können heutzutage schnell, einfach und günstig sequenziert werden. So kommt es, dass im US-amerikanischen Sequence Read Archive (SRA) bereits 50 Petabasen an Sequenzdaten gespeichert sind. Das European Nucleotide Archive kommt sogar auf 55 Petabasen. Anders ausgedrückt: 55 Billiarden Basenpaare. Schätzungen gehen davon aus, dass es in nicht einmal vier Jahren doppelt so viele sein werden.

Doch bisher gibt es keine gute Möglichkeit, diese Daten mit einer Suchmaschine zu durchforsten. Wer also herausfinden möchte, in welchem Organismus eine bestimmte Gensequenz vorliegt, der kann nicht einfach alle Sequenzdaten automatisch durchsuchen. Stattdessen muss man mit Hilfe von Metadaten, also Inhalts-Beschreibungen, zunächst die Sequenzdaten identifizieren, in denen man einen Treffer vermutet. Dann kann man diese herunterladen oder auf der Cloud nach der Zielsequenz durchsuchen. Dieses Vorgehen ist langwierig, teuer und ineffizient. Die Rohdaten hingegen stehen bisher nicht für eine Volltextsuche zur Verfügung. Dies ist ein eklatanter „bottleneck“ für die Forschung.

Geschickt komprimieren und indizieren

Ein Team von Wissenschaftlern aus der Schweiz hat jetzt eine neue Suchmaschine vorgestellt, die genau dieses Problem beheben kann. Geleitet wurde das Projekt von Dr. André Kahles, Bioinformatiker an der ETH Zürich, gemeinsam mit Gunnar Rätsch, Professor für Bioinformatik an der ETH Zürich. Die Studie wurde auf dem Preprint-Servier Biorxiv.org veröffentlicht.

#####1#####

Weil Hochdurchsatzsequenzierungen immer günstiger werden, kommen ständig neue Gensequenzdaten hinzu.

Bildquelle: © GrumpyBeere / Pixabay

Das Team entwickelte eine Methode namens Metagraph, mit der sich die riesige Datenmenge komprimieren lässt. Um zu zeigen, dass ihre Idee funktioniert, indizierten sie etwa 10 Prozent der zurzeit verfügbaren Sequenzdaten, also etwa 5 Petabasen. Darin enthalten waren unter anderem die gesamten bisher verfügbaren Genome von Pflanzen, Pilzen, Mikroben, Menschen sowie das Metagenom des menschlichen Darms. Das Modell fand in mehr als 90 Prozent der Fälle für eine eingegebene Sequenz, also den Input, in der Datenbank den originalen Eintrag dazu.

Ein moderner Laptop reicht aus

„Zum ersten Mal ist es jetzt möglich, effizient nach einer Nukleotidsequenz in nahezu allen bereits sequenzierten rohen Genomdaten über alle Taxa hinweg zu suchen“, schreiben die Autoren in Ihrem Paper. „Was bis vor ein paar Jahren noch als Herausforderung angesehen wurde, also das Indizieren und Suchen in einem Datensatz von mehreren tausend Sequenzen, kann jetzt einfach auf einem modernen Laptop durchgeführt werden.“

Und Metagraph kann auch kompliziertere Suchanfragen ausführen. Ein Beispiel dafür ist: „Finde alle Sequenzen, die in Probe x und y vorliegen, aber nicht in Probe z.“ Die Anwendungsmöglichkeiten sind riesig. Es ließe sich zum Beispiel nach Gensequenzen suchen, die mit Krankheiten in Verbindung gebracht werden. Die Software kann zurzeit von allen kostenlos heruntergeladen oder auf dieser Webseite genutzt werden. Die Wissenschaftler schätzen, dass eine einzelne Suchabfrage knapp 10 Euro-Cent kosten würde.

Finanzierung und Unterhalt sind offene Fragen

Die weltweite Verfügbarkeit, die niedrige technische Hürde und der berechnete geringe Preis: All das ist ein Gewinn für die wissenschaftliche Gemeinschaft. Die größten Freudensprünge machen aber vielleicht diejenigen, die in armen Ländern arbeiten und mit wenig finanziellen Mitteln und Rechenpower für ihre Forschung ausgestattet sind.

Metagraph hat erfolgreich demonstriert, dass die Idee funktioniert. Auch die restlichen 95 % der aktuell verfügbaren Genom- und Proteinsequenzdaten könnten auf die gleiche Weise indexiert und damit durchsuchbar gemacht werden. Es muss sich jetzt nur jemand finden, der die Kosten dafür übernehmen kann. Auch das Hosting, regelmäßige Updates und die allgemeine Instandhaltung müssen finanziert werden.

Eine Arbeitsgruppe allein kann das niemals stemmen. Ein großer nationaler oder internationaler Akteur müsste die Verantwortung übernehmen. In ihrem Paper rechnen die Bioinformatiker vor, dass es 25 Prozent günstiger wäre, die Metagraph-indexierten Daten in einer Cloud zu speichern als beispielsweise die rohen SRA-Daten. Ob das Ansporn genug ist, wird sich zeigen.

Quelle:
Karasikov, M. et al.: Indexing All Life’s Known Biological Sequences. bioRxiv 2020.10.01.322164; doi: https://doi.org/10.1101/2020.10.01.322164

Zum Weiterlesen auf Pflanzenforschung.de:

Titelbild: Google für Gene: Die Suchmaschine Metagraph macht Sequenzdaten von DNA, RNA und Proteinen durchsuchbar. (Bildquelle: © Gerd Altmann / Pixabay)

Effizientere Suche in Genom- und Proteinsequenzen

MetaGraph: Google für Gene