Neue Podcast-Folge Radio CityLAB: Post-COVID verstehen
Können offene Daten von Wetterstationen dabei helfen, komplexe Krankheitsbilder wie Long Covid besser zu erforschen? Unser Team will genau das herausfinden: Im Rahmen der Post-COVID Challenge vom Bundesministerium des Inneren und für Heimat (BMI) entwickeln wir aktuell ein Datenmodell, das Data Science mit Medizinforschung verbindet.
In diesem Auszug der aktuellen Podcastfolge von Radio CityLAB Podcast erklären Max Eckert und Lisa Stubert, welches spannende Beispiel die Idee zum Modell überhaupt ins Rollen gebracht hat. Die ganze Folge gibt es natürlich auch zum Anhören.
Benjamin Seibel:
Es gibt also eine komplexe Problemstellung mit übergebenen Datenbeständen, technischen sowie rechtlichen Hürden. Das Ziel ist, die Nutzung von Daten für die Post-COVID-Forschung zu vereinfachen. Die zentrale Frage ist also, Lisa, welchen Lösungsansatz verfolgt ihr im Post-COVID-Projekt? Und wie hängen medizinische Daten mit offenen Daten zusammen?
Lisa Stubert:
Man merkt wahrscheinlich, dass wir uns wirklich tief in die Welt der Gesundheitsdaten eingearbeitet haben. Dabei hatten wir auch einen großartigen Partner an unserer Seite, das Berlin Institute of Health (BIH). Unser eigentliches Steckenpferd liegt aber im Bereich Open Data.
Die Idee ist, dass sich durch das Verknüpfen von Informationen aus dem Medizinbereich und offenen Daten ganz neue Fragestellungen beantworten lassen. Zum Beispiel: Wie wirkt sich Post-COVID eigentlich auf den Bildungsbereich aus? Oder gibt es vielleicht Umweltfaktoren, die mit dem Auftreten von Post-COVID in Zusammenhang stehen?
Max Eckert:
Was uns durch unsere Arbeit allerdings klar geworden ist, ist, dass für viele Forschende aus dem Medizinbereich die offenen Daten gar nicht so offen sind, weil sie nicht unbedingt damit arbeiten können.
Wir wollen ihnen also ein Tool zur Verfügung stellen, dass ihnen die Möglichkeit gibt, selbst mit den Daten arbeiten zu können.
Lisa Stubert:
Es gab eine ganz interessante Studie, die wir uns in unserem Projekt angeguckt haben: da wurde das Vorkommen von Schlaganfällen mit Luftdruckdaten in Zusammenhang gebracht.
Und anhand dieses tollen Beispiels können wir jetzt illustrieren, wie unser Datenmodell einen Mehrwert bringen kann. Luftdruckdaten sind nämlich offene Daten, die vom Deutschen Wetterdienst stammen. In Deutschland gibt es 400 Wetterstationen, und die Luftdruckdaten werden pro Station erhoben, das heißt auf Adressbasis.
Wenn ich nun aber mit den Daten arbeiten möchte, zum Beispiel im Zusammenhang mit Post-COVID-Patient:innen, dann habe ich einen Datensatz, der auf der räumlichen Basis von sogenannten Postleitregionen basiert.
Wie bekomme ich jetzt heraus, wie diese adressbasierten Standorte und die Postleitregionen zusammenpassen? Ich könnte vielleicht erstmal schauen, welcher Standort sich in der jeweiligen Postleitregion befindet. Es gibt aber auch Regionen, in denen es mehrere Standorte von Wettermessstationen gibt.
Deshalb muss ich die Daten aggregieren, vielleicht einen Mittelwert bilden oder eine andere statistische Kennzahl hinzufügen, die im Kontext meiner Forschungsfrage sinnvoll ist. Und daran merkt man schon, wie viel Arbeit notwendig ist, um Daten so zu verarbeiten, dass eine gemeinsame Auswertung der Informationen möglich wird. Und genau da setzt unser Datenmodell an.
Benjamin Seibel:
Und wie sieht das Datenmodell im Endeffekt aus?
Lisa Stubert:
Auch das ist spannend. Ich glaube, wenn man fünf verschiedene Leute fragt, was ein Datenmodell eigentlich ist, bekommt man mindestens drei unterschiedliche Antworten – würde ich behaupten.
Wir haben uns im Projekt darauf geeinigt, das Datenmodell als ein ganzheitliches Endprodukt zu betrachten, das für uns aus drei Komponenten besteht.
1. Der Metadatenkatalog
Für unser erstes Proof of Concept haben wir uns ein Set an Datensätzen ausgesucht, die wir in einem Katalog ablegen. Dabei geht es nicht darum, die Daten selbst zu beschreiben, sondern ihre Struktur festzuhalten – also auf welche Art und Weise sie strukturiert sind.
2. Die Werkzeuge
Als Werkzeuge bezeichnen wir Programmierskripte, die darauf ausgelegt sind, die offenen Datensätze so umzuwandeln, dass sie mit den Post-COVID-Daten kompatibel sind. So können wir anschließend ermitteln, wie der Luftdruck bei Patient:in xy zu einem bestimmten Zeitpunkt tatsächlich war.
3. Das Frontend
Und dann gibt es noch eine dritte und letzte Komponente – das Frontend. Das Endprodukt soll eine Webseite sein, auf der man den Metadatenkatalog durchsuchen kann.
Auf der Webseite kann man auch die Werkzeuge bedienen und die Daten so konfigurieren, wie man sie für die eigene Forschungsfrage benötigt.
Das ist das Datenmodell, das wir anstreben und von dem wir hoffen, dass es für viele Interessierte nützlich sein wird.
Max Eckert:
Wir wollen Leute empowern, diese offenen Daten zu Nutzen und durch unser Datenmodell die Hürden, die Lisa angesprochen hat, zu verkleinern. Durch unsere Arbeit sind Lisa und ich natürlich sehr voreingenommen: wir finden offene Daten super!
Offene Verwaltungsdaten sind ein Datenschatz, der unbedingt gehoben werden muss.
Unserer Hypothese nach haben diese Daten ein großes Potenzial für die Medizinforschung und konnten bisher nicht genutzt werden, weil es dafür Menschen brauchte, die Data Science draufhaben. Diese Personen, haben allerdings nicht die Sicht von Medizinforschenden und so wollen wir diese zwei Welten zusammenbringen und durch unser Datenmodell verbinden.
Wie es ab hier weitergeht, lässt sich im Podcast Radio CityLAB nachhören.
Post-COVID-Datenmodell für die Dateninstitut-Challenge
Wie können Daten dabei helfen, relevante Informationen für alle transparent und verfügbar zu machen? Das erforschen wir mit unserem Ansatz für ein Post-COVID-Datenmodell zusammen mit dem Berlin Institute of Health at Charité (BIH). Dieser dient als konkreter Use Case für die Dateninstitut-Challenge vom Bundesministerium des Innern und für Heimat (BMI).