Relationale Datenbanken spielen im Bereich Big Data eine wichtige Rolle. Ihre Grenzen liegen in sehr heterogenen Datenbeständen, wie es zum Beispiel in der biomedizinischen Forschung der Fall ist. Graphdatenbanken können mit ihrer Eigenschaft, Zusammenhänge besser zu visualisieren, diese Lücke schließen.
Große Datenmengen benötigen spezielle Software, um sie sinnvoll für die medizinische Forschung auswerten zu können. Eines der digitalen Hilfsmittel sind zum Beispiel Graphmodelle einer Zelle, mit Hilfe derer man völlig neue Erkenntnisse sammeln kann. Dabei geht es auch darum, Zusammenhänge und Beziehungen aufzudecken, denn „in der Biologie hängt alles mit allem zusammen“, sagt Dr. Martin Preusse, der das Start-up Knowing Health gegründet hat. Die Software-Lösungen für den medizinischen Bereich setzen hier statt einer relationalen eine Graphdatenbank ein. Bisher konnten sehr unterschiedliche Datensätze mit einem relationalen Modell nur mit extrem hohem Aufwand verknüpft werden. Das ändert sich mit einer Graphdatenbank, mit der sich, neben dem geringeren Aufwand, auch bisher unentdeckte Zusammenhänge erkennen lassen.
Graphdatenbanken operieren mit menschlichen Visualisierungstechniken
Graphdatenbanken operieren mit Mitteln, die Menschen häufig einsetzen, um komplexe Vorgänge begreif- und beschreibbar zu machen. Zusammenhänge und Prozesse werden in Form von Knotenpunkten, Kanten und Attributen dargestellt. Eine graphische und farbige Darstellung machen es dem Menschen in vielen Fällen leichter, komplexe Zusammenhänge zu erfassen. Zusätzlich können die anklickbaren Punkte oder Verbindungskanten mit weiteren Attributen oder Informationen versehen werden, wodurch eine weitere Tiefendimension entsteht. „Das entspricht der Art, wie die meisten Menschen komplexe Vorgänge zu erklären und zu verstehen versuchen: Wir fangen an, Bilder zu zeichnen, bei denen Punkte, die etwas repräsentieren, durch Pfeile oder Striche miteinander verbunden werden, um Zusammenhänge darzustellen“, erklärt Bruno Ungermann. Er arbeitet für Neo4j, einer weit verbreiteten Open-Source-Graphdatenbank.
Einsatzgebiet Diabetes-Forschung
Speziell in der medizinischen Forschung ist der Einsatz einer solchen Technik besonders interessant, denn hier fallen besonders viele heterogene Daten an. Neben der klassischen Begutachtung des Patienten kommen zusätzlich Laboruntersuchungen, Befragungen, bildgebende Verfahren, Tiermodelle und Analyseverfahren zum Einsatz. Insbesondere genetische Analysen kommen immer häufiger zum Einsatz. Neben der klassischen Genanalyse ist in jüngster Zeit vor allem die Analyse der Gentranskription in den Fokus gerückt. Unter Gentranskription versteht man die Umsetzung genetischer Informationen in biochemische Prozesse, wie die Enzymbildung. Auch der Einfluss von Verhalten oder Umwelt auf die Gentranskription und entsprechender genetischer Veränderungen der Nachfahren, die sogenannte Epigenetik, wird mittlerweile verstärkt erforscht. Der stetig größer werdende Bestand an Fachliteratur und Forschungsdaten muss dabei immer wieder durchforstet werden.
Behandlungsmethoden verbessern und Präventionsmaßnahmen optimieren
Graphdatenbanken können helfen, Behandlungsmethoden zu optimieren und Spätfolgen zu verringern. Zum Einsatz kommt die Software zum Beispiel bei der Erforschung von Diabetes. „Wir haben am Helmholtz-Zentrum in München gesehen, wie dort mithilfe von Neo4j DNA-Sequenzdaten mit Daten aus der systematischen Erfassung von Stoffwechselprodukten (Metabolics-Daten) zusammengeführt werden, um Abfragen auf diesen Datenbestand durchzuführen“, erklärt Dr. Alexander Jarasch, Leiter Bioinformatik und Datenmanagement vom Diabetis Zentrum Deutschland. Deren Erfolge erschienen so vielversprechend, dass auch er und sein Team anfingen, mit Neo4j zu experimentieren. Aus dem Versuch ist mittlerweile eine eigene Graphdatenbank. In DZDconnect fließen normalisierte und standardisierte Metadaten aus verschiedenen Quellen ein, aus denen dann ein Graphmodell erstellt werden kann.
Neue Zusammenhänge erschließen
Auch Graphdatenbanken haben ihre Grenzen, auch wenn sie technisch fast unbegrenzt skalierbar sind. Eine solche Datenbank wird nicht einfach eine neue Therapieform hervorbringen. Vielmehr ist es mit ihr möglich, Zusammenhänge aufzudecken, die bisher unerkannt geblieben sind. Diese neuen Erkenntnisse könnten in der weiteren Forschung aber durchaus helfen, neue Therapien und Präventionsmaßnahmen zu entwickeln. Dies geschieht aktuell gerade bei der Erforschung von Diabetes im Zusammenhang mit einer Fettleber ohne Alkoholmissbrauch. „Es könnte sein, dass wir daraus einen neuen Indikator für eine Diabetes-Erkrankung neben den heute gebräuchlichen Blutwerten gewinnen“, sagt Jarasch