Blog
  • Thema Reallabor

Neue Podcast-Folge Radio CityLAB: Post-COVID verstehen

  • Rubrik Interview
  • Veröffentlichungsdatum 06.12.2024
Marie Liebscher

Können offene Daten von Wetterstationen dabei helfen, komplexe Krankheitsbilder wie Long Covid besser zu erforschen? Unser Team will genau das herausfinden: Im Rahmen der Post-COVID Challenge vom Bundesministerium des Inneren und für Heimat (BMI) entwickeln wir aktuell ein Datenmodell, das Data Science mit Medizinforschung verbindet.

In diesem Auszug der aktuellen Podcastfolge von Radio CityLAB Podcast erklären Max Eckert und Lisa Stubert, welches spannende Beispiel die Idee zum Modell überhaupt ins Rollen gebracht hat. Die ganze Folge gibt es natürlich auch zum Anhören. 

V.l.n.r.: Dr. Benjamin Seibel, Leiter des CityLAB und Host des Radio CityLAB Podcast; Lisa Stubert, Bereichsleitung Public Data; Max Bruno Eckert, Data Scientist

Benjamin Seibel:
Es gibt also eine komplexe Problemstellung mit übergebenen Datenbeständen, technischen sowie rechtlichen Hürden. Das Ziel ist, die Nutzung von Daten für die Post-COVID-Forschung zu vereinfachen. Die zentrale Frage ist also, Lisa, welchen Lösungsansatz verfolgt ihr im Post-COVID-Projekt? Und wie hängen medizinische Daten mit offenen Daten zusammen?

Lisa Stubert:
Man merkt wahrscheinlich, dass wir uns wirklich tief in die Welt der Gesundheitsdaten eingearbeitet haben. Dabei hatten wir auch einen großartigen Partner an unserer Seite, das Berlin Institute of Health (BIH). Unser eigentliches Steckenpferd liegt aber im Bereich Open Data.
Die Idee ist, dass sich durch das Verknüpfen von Informationen aus dem Medizinbereich und offenen Daten ganz neue Fragestellungen beantworten lassen. Zum Beispiel: Wie wirkt sich Post-COVID eigentlich auf den Bildungsbereich aus? Oder gibt es vielleicht Umweltfaktoren, die mit dem Auftreten von Post-COVID in Zusammenhang stehen?

Max Eckert:

Wir wollen ihnen also ein Tool zur Verfügung stellen, dass ihnen die Möglichkeit gibt, selbst mit den Daten arbeiten zu können.

Lisa Stubert:
Es gab eine ganz interessante Studie, die wir uns in unserem Projekt angeguckt haben: da wurde das Vorkommen von Schlaganfällen mit Luftdruckdaten in Zusammenhang gebracht.

Und anhand dieses tollen Beispiels können wir jetzt illustrieren, wie unser Datenmodell einen Mehrwert bringen kann. Luftdruckdaten sind nämlich offene Daten, die vom Deutschen Wetterdienst stammen. In Deutschland gibt es 400 Wetterstationen, und die Luftdruckdaten werden pro Station erhoben, das heißt auf Adressbasis.

Wenn ich nun aber mit den Daten arbeiten möchte, zum Beispiel im Zusammenhang mit Post-COVID-Patient:innen, dann habe ich einen Datensatz, der auf der räumlichen Basis von sogenannten Postleitregionen basiert.

Info: Postleitregionen

Wie bekomme ich jetzt heraus, wie diese adressbasierten Standorte und die Postleitregionen zusammenpassen? Ich könnte vielleicht erstmal schauen, welcher Standort sich in der jeweiligen Postleitregion befindet. Es gibt aber auch Regionen, in denen es mehrere Standorte von Wettermessstationen gibt.

Deshalb muss ich die Daten aggregieren, vielleicht einen Mittelwert bilden oder eine andere statistische Kennzahl hinzufügen, die im Kontext meiner Forschungsfrage sinnvoll ist. Und daran merkt man schon, wie viel Arbeit notwendig ist, um Daten so zu verarbeiten, dass eine gemeinsame Auswertung der Informationen möglich wird. Und genau da setzt unser Datenmodell an.

Benjamin Seibel:
Und wie sieht das Datenmodell im Endeffekt aus?

Lisa Stubert:
Auch das ist spannend. Ich glaube, wenn man fünf verschiedene Leute fragt, was ein Datenmodell eigentlich ist, bekommt man mindestens drei unterschiedliche Antworten – würde ich behaupten.

1. Der Metadatenkatalog
Für unser erstes Proof of Concept haben wir uns ein Set an Datensätzen ausgesucht, die wir in einem Katalog ablegen. Dabei geht es nicht darum, die Daten selbst zu beschreiben, sondern ihre Struktur festzuhalten – also auf welche Art und Weise sie strukturiert sind.

2. Die Werkzeuge
Als Werkzeuge bezeichnen wir Programmierskripte, die darauf ausgelegt sind, die offenen Datensätze so umzuwandeln, dass sie mit den Post-COVID-Daten kompatibel sind. So können wir anschließend ermitteln, wie der Luftdruck bei Patient:in xy zu einem bestimmten Zeitpunkt tatsächlich war.

3. Das Frontend
Und dann gibt es noch eine dritte und letzte Komponente – das Frontend. Das Endprodukt soll eine Webseite sein, auf der man den Metadatenkatalog durchsuchen kann.
Auf der Webseite kann man auch die Werkzeuge bedienen und die Daten so konfigurieren, wie man sie für die eigene Forschungsfrage benötigt.

Das ist das Datenmodell, das wir anstreben und von dem wir hoffen, dass es für viele Interessierte nützlich sein wird.

Max Eckert:

Offene Verwaltungsdaten sind ein Datenschatz, der unbedingt gehoben werden muss.

Unserer Hypothese nach haben diese Daten ein großes Potenzial für die Medizinforschung und konnten bisher nicht genutzt werden, weil es dafür Menschen brauchte, die Data Science draufhaben. Diese Personen, haben allerdings nicht die Sicht von Medizinforschenden und so wollen wir diese zwei Welten zusammenbringen und durch unser Datenmodell verbinden.


Wie es ab hier weitergeht, lässt sich im Podcast Radio CityLAB nachhören.

V.l.n.r. Pauline Boos, Benjamin Seibel, Lisa Stubert und Max Bruno Eckert im Podcaststudio.

Post-COVID-Datenmodell für die Dateninstitut-Challenge

Wie können Daten dabei helfen, relevante Informationen für alle transparent und verfügbar zu machen? Das erforschen wir mit unserem Ansatz für ein Post-COVID-Datenmodell zusammen mit dem Berlin Institute of Health at Charité (BIH). Dieser dient als konkreter Use Case für die Dateninstitut-Challenge vom Bundesministerium des Innern und für Heimat (BMI).


Zielgruppe

Zivilgesellschaft, Wissenschaft, Verwaltung