Blog
  • Thema Reallabor

Offene Daten besser nutzen: Wie KI das Data Handling vereinfacht

  • Rubrik Aus der Stiftung
  • Veröffentlichungsdatum 04.03.2026
Nora Hunger

Einmal kurz die Relativitätstheorie erklären oder einen ausgefeilten Förderantrag schreiben – dass uns Large Language Modelle dabei helfen können, ist bekannt. Aber wie sieht es beim Umgang mit Balkendiagrammen, CSV-Dateien oder Datenaggregationen aus? Unsere Kollegin Nora Hunger berichtet, wie die Datenarbeit, mithilfe von KI, auf ein neues Level gebracht werden kann und was man dabei unbedingt beachten werden sollte.

Mehrer Personen sitzen um einen Tisch beim Open Data- und KI-Workshop.
© Barbara König / mit:forschen!

Gerade bei offenen Daten entstehen im Arbeitsalltag häufig Hürden. Passende Datensätze sind schwer auffindbar, technische Fachbegriffe wie WMS-Dienste oder GeoJSON wirken komplex und nicht immer ist klar, wie sich ein Datensatz am Ende weiterverwenden lässt.

Bei der Open Data Informationsstelle (ODIS) erproben wir seit einiger Zeit, wie KI den Umgang mit offenen Daten erleichtern kann. Im vergangenen Jahr waren wir, Lisa Stubert und Nora Hunger, zu diesem Thema mit einem Workshop im Naturkundemuseum Berlin zu Gast. Im Rahmen des Campus Citizen Science der Citizen-Science-Plattform mit:forschen! Gemeinsam Wissen schaffen haben sich dort Akteur:innen aus Stadtplanung, Forschung und Zivilgesellschaft mit sehr unterschiedlichen Datenkenntnissen versammelt. Gemeinsam mit ihnen wollten wir Datensätzen finden und explorieren, die Daten aufbereiten und visualisieren – und nicht zuletzt Neues aus der Datenanalyse lernen. Welche Ansätze beim Data Handling mit KI besonders hilfreich sind und was bei der Arbeit mit offenen Daten zu beachten ist, teilen wir hier.

Wie hilft KI beim Finden und Explorieren von Datensätzen?

Jede gute Datenanalyse beginnt mit dem richtigen Datensatz und den zu finden ist oft gar nicht so leicht.

Mit dem GeoExplorer, den wir bei der ODIS entwickelt haben, können mithilfe einer KI-gestützten Stichwortsuche passende Geodatensätze aus dem Geoportal Berlin gefunden und erkundet werden.

Auch Large Language Modelle (LLM) können bei einer ersten inhaltlichen Orientierung unterstützen. Datensätze lassen sich hochladen, Fachbegriffe und Attribute erklären, oder mögliche Anwendungsmöglichkeiten skizzieren. Das LLM kann auch Inhalte übersetzen oder eine erste Einschätzung liefern, mit wie viel Aufwand beim Bereinigungs- und Analyseprozess zu rechnen ist.

Analysiere diese CSV-Datei und liste alle enthaltenen Attribute + Beschreibungen auf. Erkläre mir außerdem Fachbegriffe.

Liste konkrete Anwendungsfälle für Forschung und Öffentlichkeit auf. Beschreibe jeweils Chancen und mögliche Einschränkungen bei der Nutzung.

Wer komplexere Datenabfragen durchführen möchte, kann mit overpass-turbo gezielte Anfragen an OpenStreetMap stellen und Datensätze von dort herunterladen, seien es Parkbänke, Trinkbrunnen oder alle Dönerbuden in Berlin. Das Tool selbst ist kein KI-System, lässt sich jedoch gut mit KI kombinieren, etwa beim Formulieren solcher Abfragen.

Schreibe mir eine overpass-turbo-Anfrage mit der ich alle Dönerläden in Berlin finden kann.

Der Austausch mit der KI funktioniert wie ein Dialog: Man kann Rückfragen stellen oder nach Spezifikationen und präziseren Antworten fragen. Es kann also einige Iterationen dauern, bis man das gewünschte Ergebnis erhält.

Das sind sehr viele Dönerläden. Nach welchen Kriterien kann ich noch filtern?

Schreibe mir eine Anfrage, sodass nur Dönerläden angezeigt werden, die auch 24/7 geöffnet haben.

Wie unterstützt KI bei der Aufbereitung und Visualisierung von Daten?

Sind passende Daten gefunden, beginnt meist die eigentliche Arbeit. CSV- oder JSON-Dateien müssen zunächst bereinigt, Formate vereinheitlicht oder Werte aggregiert werden, bevor eine Analyse möglich ist.

Um Daten einfach zu visualisieren, gibt es kostenlose Tools wie Datawrapper (auf der ODIS-Website finden sich weitere Ressourcen und Tutorials zu Datenvisualisierungen mit Datawrapper). LLMs können die Datensätze in das dafür vorgesehene Format bringen.

Bringe die Daten ins richtige Format, sodass ich damit in Datawrapper weiterarbeiten kann. Erstelle mir dazu eine CSV-Datei.

Manchmal helfen erste Visualisierungen schon, um einen Datensatz besser zu verstehen und nachfolgende Analyseschritte sinnvoll zu gestalten. KI kann auch Vorschläge für geeignete Diagrammtypen machen oder erste Auswertungen vorbereiten.

Ich möchte ein Diagramm zu diesem Datensatz erstellen: Welche Diagramme bieten sich an?

Erstelle mir ein Histogramm zu den Öffnungszeiten der Dönerläden. Die Daten findest du in der CSV-Datei.

Kannst du mir eine Markerkarte erstellen, auf der die Dönerläden Berlins abgebildet sind?

Solche ersten Visualisierungen dienen vor allem der Exploration. Auffälligkeiten, Lücken oder Ausreißer werden schneller sichtbar und helfen, weitere Analyseschritte gezielter zu planen. Zeitaufwendige Formatierungs- und Vorbereitungsarbeiten lassen sich so deutlich beschleunigen.

Wie kann KI bei der Datenanalyse unterstützen?

Sind die Daten bereinigt, kann die “richtige Datenarbeit” starten. Oft reicht ein einzelner Datensatz jedoch nicht aus, um aussagekräftige Erkenntnisse zu gewinnen und muss mit anderen Daten kombiniert oder räumlich beziehungsweise zeitlich ausgewertet werden.

Auch hier kann KI bei typischen wiederkehrenden Aufgaben helfen.

Ich habe hier eine CSV-Datei zu Dönerläden in Berlin. Sag mir in welchem Bezirk sich die meisten Standorte befinden. Erstelle mir dazu ein Kreisdiagramm.

Auf diese Art können weitere räumliche oder zeitliche Analysen, aber auch Rankings, Berechnungen oder Einordnungen zur Datenqualität und Biases, also Verzerrungen in den Daten, durchgeführt werden. Geprüft werden kann beispielsweise auch, ob der Datensatz vollständig ist oder Duplikate enthält. Auch hier lohnt es sich, Sprachmodelle nach Anregungen für weitere Analyseschritte zu fragen.

Erstelle mir eine Tabelle, die zu jedem Dönerladen den nächstgelegenen Laden ausgibt, um die Wettbewerbsdichte darzustellen.

Enthält der Datensatz Duplikate?

Welche Datenanalysen sind mit diesem Datensatz noch möglich?

Vibe Coding, MCP-Server & Co. – Was in Zukunft noch möglich ist

Wer Datenanalysen mit Python umsetzt, kann Sprachmodelle auch für Code nutzen. Studien sehen sogar das Potenzial, dass Tools wie ChatGPT das manuelle Programmieren in Datenanalyseprozessen in Zukunft verdrängen könnten.

Der Prozess, ohne tiefergehende Programmierkenntnisse mit Hilfe von KI zu programmieren, wird Vibe Coding genannt. Dabei tritt man in einen Dialog mit der KI und entwickelt gemeinsam mittels „Trial-and-Error" Skripte. So können vollständige Python-Skripte zur Datenanalyse geschrieben werden.

Mittlerweile gibt es Dutzende solcher Tools, wie beispielsweise Open Code, Cline oder Kilo Code. Diese drei Tools sind Open Source und können kostenfrei mit lokalen LLMs genutzt werden. Sie unterstützen dabei, Code zur Datenanalyse zu schreiben oder sogar erste prototypische Anwendungen zu programmieren.

Die Welt um Sprachmodelle entwickelt sich stetig weiter und neue technische Ansätze und Methoden sind in der Entstehung. In aller Munde sind derzeit zum Beispiel die Stichworte "Agentische KI" und "MCP-Server" (Model Context Protocol Server). “Agentische KI” ist in der Lage nicht nur passive Anfragen zu beantworten, sondern kann auch spezifische Aufgabenstellungen, die auf individuelle Anforderungen ausgerichtet sind, autonom ausführen.

Dazu ist MCP nötig, ein offener Standard, der es ermöglicht KI-Modelle mit verschiedenen Datenquellen zu verbinden. Auch bei der ODIS wird derzeit erprobt, wie ein MCP-Server für das Open Data Portal aussehen kann. Wir wollen herausfinden, ob sich offene Daten dadurch direkter in natürlicher Sprache abfragen, kombinieren und auswerten lassen. Solche Ansätze könnten perspektivisch den Zugang zu komplexen Datensätzen weiter vereinfachen.

Wo liegen die Grenzen von KI beim Data Handling?

Trotz der Effizienzgewinne ist ein kritischer Umgang notwendig, beispielsweise in Hinblick auf den hohen Wasser- und Strombedarf von Rechenzentren. Um Ressourcen zu schonen, sollten KI-Tools deshalb generell zielführend und bewusst eingesetzt werden.

Auch bei der Arbeit mit Daten ist ein achtsamer Umgang mit der Technologie essenziell und die Ergebnisse, die eine KI liefert, sollten unbedingt überprüft werden. Das wird anhand des folgenden Beispiels deutlich: Datensätze zu Bushaltestellen und Fahrradständern in Berlin wurden von ChatGPT aggregiert, um deren Entfernung zueinander zu untersuchen. Die Antwort lautete: „Es gibt in Berlin keine Fahrradständer in der Nähe von Bushaltestellen". Erst beim genaueren Nachfragen wurde klar, dass die Datensätze unterschiedliche Formate für die Koordinaten nutzen und laut ChatGPT alle Berliner Bushaltestellen neuerdings in Gabun, Afrika liegen (was vielleicht die häufigen Verspätungen erklären würde).

Hinzu kommt, dass LLMs dazu tendieren, Informationen zu halluzinieren. Das bedeutet, dass sie manchmal Fakten erfinden oder falsche Zusammenhänge herstellen, die plausibel klingen, aber nicht der Realität entsprechen. Die Antworten basieren auf Wahrscheinlichkeiten und werden immer nur im aktuellen Kontext generiert.

Studien zeigen auch, dass eine KI eher einfache Fragestellungen gut bearbeiten kann, vor allem wenn es darum geht, bereits bekannte Ergebnisse zu reproduzieren oder deskriptive Statistiken zu erstellen. Ist mehr Interpretationsspielraum gegeben, kann ein LLM die menschliche Expertise schwer ersetzen.

Gerade in wissenschaftlichen Kontexten spielt Reproduzierbarkeit eine wichtige Rolle. Ergebnisse müssen nachvollziehbar und wiederholbar sein. Bei Sprachmodellen ist das nur eingeschränkt möglich. Derselbe Prompt kann zu unterschiedlichen Zeitpunkten unterschiedliche Resultate liefern. Deshalb ist es umso wichtiger, gut zu dokumentieren und beispielsweise Chatverläufe zu speichern, um später darauf zurückgreifen zu können.

Weiterhin kommt es auch sehr auf Daten selbst an: Stichwort Datenqualität. Der Output eines Modells ist immer nur so belastbar wie die zugrundeliegenden Daten, auf denen er basiert. Die Qualität, Vollständigkeit und Struktur der Ausgangsdaten haben einen direkten Einfluss auf die Ergebnisse. Sehr aktuelle oder sich schnell ändernde Daten erweisen sich bei LLMs oft als ungeeignet, da die Trainingsdaten der Modelle nur bis zu einem bestimmten Zeitpunkt reichen und sie keine Echtzeitinformationen verarbeiten können. Zeitkritische Auswertungen lassen sich daher nur eingeschränkt abbilden.

Besondere Aufmerksamkeit erfordert außerdem der Datenschutz. Personenbezogenen oder sensible Informationen sollten nicht ungeprüft in externe KI-Tool hochgeladen werden. Anonymisierung, Platzhalter oder lokale Lösungen sind häufig die sichere Wahl, um Datenschutzrichtlinien einzuhalten.

KI eignet sich daher vor allem zum ersten Explorieren von Datensätzen oder zur Unterstützung bei repetitiven Aufgaben. Für belastbare Analysen, Bewertungen oder Entscheidungen bleibt menschliche Expertise unverzichtbar.

KI als Einstiegshilfe für Data Handling, nicht als Ersatz

Die Beispiele zeigen, dass KI die Arbeit mit Daten enorm erleichtern kann. Gerade für Nicht-Profis senkt sie Einstiegshürden und unterstützt dabei, offene Daten schneller zu finden, zu verstehen und weiterzuverarbeiten.

Gleichzeitig löst KI nicht alle Probleme. KI-gestützte Werkzeuge eignen sich deshalb vor allem als Unterstützung im Arbeitsprozess. Sie helfen bei ersten Schritten, übernehmen repetitive Aufgaben oder liefern Impulse für weitere Analysen. Die fachliche Bewertung, Interpretation und Verantwortung für die Ergebnisse bleiben jedoch beim Menschen.

Wer unabhängig von KI, fitter im Umgang mit Daten werden möchte, findet auf der Website der Open Data Informationsstelle zusätzliche Ressourcen, Tools und Blogartikel rund um offene Daten.

ODIS

Die Open Data Informationsstelle Berlin (ODIS) begleitet die Stadt auf dem Weg zu einer partizipativen, nachhaltigen und datengetriebenen Gesellschaft mit dem Schwerpunkt auf die Bereitstellung und Nutzung offener Daten.


Zielgruppe

Verwaltung, Zivilgesellschaft, Wirtschaft und Wissenschaft