Eins der Hauptziele des Prototyps GovData.de ist es, möglichst viele offene Datensätze aus Deutschland in einem Katalog zu vereinigen. Der größte Teil wird dabei automatisch durch so genannte Harvester importiert. In diesem Artikel geben wir Ihnen eine Übersicht, welche Werkzeuge dabei zum Einsatz gekommen sind, und wie diese sich bewährt haben.
Weiterlesen »

Seit Dezember 2012 ist das Pilot-Portal von Vattenfall Europe Distribution Berlin GmbH zu offenen Daten des Berliner Stromnetzes online. Bislang galt Open Data als eine Domäne von Verwaltungen und öffentlichen Trägern – Open Data bei Unternehmen ist bisher leider noch eine seltene Ausnahme. Wie auch auf dem 1. Internationalen Open Data-Dialog diskutiert, begrüßen wir diese Initiative der Vattenfall Europe Distribution Berlin GmbH. Gerne begleiten wir sie in Konzeption, Realisierung und Pilotbetrieb und hoffen auf zahlreiche Nachahmer aus der Industrie: Auch dort gibt es vielfältige Daten, die im Interesse der Öffentlichkeit stehen, und denen einer Veröffentlichung unter Open Data-Prinzipien nichts entgegensteht. Zudem fordern vielfältige Berichtspflichten ohnehin die Aufbereitung von Daten durch die Unternehmen – demgegenüber ist die Veröffentlichung auf einem Open Data-Portal nur ein kleiner Schritt in Zeit und Aufwand, der in der Nachnutzung der Daten ein vielfaches bewirken kann.

Das Pilot-Portal zum Berliner Stromverteilungsnetz enthält derzeit 89 Datensätze in acht Kategorien:

  • Ausgleichsenergie
  • Einspeisung
  • Daten Jahresabschluss
  • Netzrelevante Lastgangdaten
  • Netzanschluss
  • Netzentgelte
  • Netzgebiet
  • Netzstruktur

Neben typischen Strukturdaten wie Stromkreislänge oder Anzahl der Entnahmestellen werden beispielsweise Informationen zur Einspeisungen erneuerbarer Energien im Berliner Netz oder den Netzentgelten veröffentlicht. Das Datenmaterial werden in maschinenlesbarer Form vom Berliner Stromverteilnetzbetreiber  zur Verfügung gestellt und sollen regelmäßig aktualisiert werden.

Entsprechend der Prinzipien von Open Data können die veröffentlichten Daten des Portals von Interessierten frei verwendet werden. Sowohl reine Recherchezwecke als auch die Entwicklung neuer Apps basierend auf den Daten sind möglich. Auch Beispiele solcher Apps, welche auf Energiedaten beruhen, werden auf dem  Pilot-Portal vorgestellt.

Die Netzdatenplattform wurde unter Nutzung des CMS Liferay entwickelt. Als Datenkatalog kommt CKAN zum Einsatz. Die Metadaten werden konform zur Struktur für Open Goverment Data Deutschland verwaltet.

Am 10.12.2012 kam der Unterausschuss Neue Medien zusammen um die Aktivitäten der Bundesregierung im Bereich Open Data zu diskutieren. Dabei ging es vor allem um die Open Government Data Plattform, die Hauptthema dieses Blogs ist.

Staatssekretärin Cornelia Rogall-Grothe, IT- Beauftragte der Bundesregierung,  gab detaillierte Auskunft zu den Sachfragen rund um Open Data sowie zu den Ergebnissen der Open Government Data Studie Deutschland, die FOKUS gemeinsam mit dem Lorenz von Stein Institut und Partnerschaften Deutschland angefertigt hat. Außerdem verkündete Sie den offiziellen Zeitplan:

  • Februar 2013: der Prototyp der Open Government Plattform für Detuschland geht online
  • CeBIT 2013: offizielle Vorstellung des Prototypen
  • bis Ende 2014: Pilotbetrieb, Evaluierung und Vorbereitung des Wirkbetriebs
  • ab Anfang 2015: Wirkbetrieb

Als Experten waren die Informationsfreiheitsbeauftragten Berlins, Alexander Dix, und und des Bundes, Peter Schaar, geladen (gleichzeitig Datenschutzbeauftragte). Sie äußerten sich sehr positiv zum Projekt Open Government Data und sprachen sich für eine verpflichtende Veröffentlichung von staatlichen Daten als Regelfall aus. Die Staatsekretärin verwies dagegen auf eine aus ihrer Sicht größere Wirkung einer freiwilligen Mitarbeit der Verwaltung.

Auch meines Erachtens ist den Zielen von Open Data mit Freiwilligkeit besser gedient. Ein einfühlsames Überzeugen und das Bewerben derjenigen Behörden, die aus freien Stücken zu Open Data beitragen, führt in meinen Augen gegenüber Zwang zu einem besseren Open Data-Angebot, also zu mehr Transparenz, Innovation und Effizienz.

Offen blieb die Frage, ob zukünftig auch sämtliche Dokumente der Gesetzgebung und Rechtsprechung als Offene Daten zugänglich sein sollten. Das Projekt Open Government Plattform für Deutschland markiert also erst den Anfang eines nötigen Paradigmenwechsels.

Creative Commons Lizenzvertrag
Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung 3.0 Unported Lizenz.

 

Die Open Government Plattform für Deutschland (OGPD) ist ein Erschließungsportal für elektronisches Material der öffentlichen Verwaltung, insbesondere Daten, aber auch Dokumente und Applikationen. Sie bündelt dezentral gepflegte Dateien in einer übersichtlichen Oberfläche und ermöglicht Bürgern im Allgemeinen und Entwicklern, Datenjournalisten, Verwaltungen und Unternehmen im Speziellen einen zentralen Zugangspunkt. Außerdem bietet sie den Nutzern einen kommunikativen Rückkanal zu den Datenbereitstellern in den Behörden.

Um diese Zwecke zu erfüllen, umfasst die Plattform zwei Kernkomponenten: ein Content Management System (CMS) und einen Datenkatalog. Das CMS sorgt für die Verwaltung redaktioneller Inhalte wie Informationsseiten, Linksammlung, Neuigkeiten, Möglichkeiten zur Kommentierung und Bewertungen durch Nutzer und unterstützt eine integrierte Darstellung des Datenkatalogs. Im Katalog dagegen werden die Metadaten, die die Daten, Dokumente und Applikationen beschreiben, gehalten, die wiederum auf dezentrale Datenangebote (online verfügbare Dateien oder Dienste) verweisen.

Dieses Architektur-Muster findet sich in vergleichbaren Portalen wieder. Unterschiede ergeben sich vor allem in der Wahl der Software-Produkte für diese Komponenten und in der Art und Weise, wie diese miteinander interagieren. Zur Wahl von Liferay als CMS und CKAN als Datenkatalog sei auf die OGPD-Studie verwiesen. Hier soll nur erklärt werden, wie diese zusammenwirken und von den Akteuren (beispielsweise Nutzer oder Redakteur) der Plattform genutzt werden können.

Im Kern steht das CMS Liferay, das den Großteil der Funktionalität als sogenannte Portlets in einer Weboberfläche bereitstellt. Redaktionelle Inhalte wie Artikel und Blog-Post werden direkt hier erstellt. Die Inhalte des Datenkatalogs werden über Suchmasken und Ergebnislisten eingeblendet. Datenbereitsteller können über ein Webformular neue Datensätze registrieren oder bestehende aktualisieren.

Zusätzlich zum Abfragen/Bearbeiten via CMS kann der Datenkatalog direkt über eine REST-Schnittstelle angesprochen werden. Mit dieser können Datenbereitsteller automatisiert aus ihren Datenbeständen in die OGPD veröffentlichen.

Für solche Datenbereitsteller, die bereits selber eine Datenkatalog aufgesetzt haben und anbieten, ist die Harvesting-Komponente vorgesehen. Diese ermöglicht es, bestehende Kataloge zu “ernten”, also deren Inhalte zu importieren und dabei nach Relevanz zu filtern und auf die Metadaten-Strukturen in der OGPD zu transformieren. Für die OGPD werden derzeit per INSPIRE-CSW bzw, CKAN-API die Kataloge der Geodaten-Infrastruktur, PortalU, destatis, Berlin, Bremen und Hamburg ausgelesen. Mit Blick auf die Open-Data-Kriterien werden dabei nur solche Datenangebote berücksichtigt, die eine elektronische Ressource, Beschreibung und eine wohldefinierte Lizenz haben.

Für die Nutzer ist die Weboberfläche der wichtigste Zugang zur OGPD. Hier können redaktionelle, Daten und Community-Inhalte durchsucht werden. Die Nutzer erhalten über die OGPD direkten Zugang zu online verfügbaren Datenangeboten. Zugleich können diese kommentiert und bewertet werden.

Creative Commons Lizenzvertrag
Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung 3.0 Unported Lizenz.

Eine der wichtigsten Eigenschaften offener Daten ist der leichte Zugang zu ihnen. Datenjournalisten und Anwendungsentwickler können Daten schneller und besser erschließen, wenn diese in zentralen Portalen auffindbar sind. Da eine zentrale Datenhaltung über Verwaltungs- und Domänengrenzen hinweg aus verschiedenen Gründen kaum umsetzbar ist (heterogene Daten, verteilte Kompetenz, Interessenskonflikte, etc.) und auch wenig sinnvoll ist, wird in der Regel eine dezentrale Datenhaltung mit einem zentralen Metadatenportal genutzt. An prominenter Stelle – etwa daten.berlin.de – werden Informationen zu und Verweise auf die Daten der Datenbereitsteller gesammelt und präsentiert – in Berlin beispielsweise die verschiedener Senatsverwaltungen, der Stadtreinigung und der Verkehrsbetriebe.

Was aber wird neben Name, Beschreibung und Autor in den Metadaten offener Datensätze festgehalten? Diese Frage stellt sich beim Erfassen der Metadaten als auch beim automatischen Austausch von Metadatensätzen, dem sogenannten Harvesting. Nur wenn Struktur und Bedeutung ausreichend einheitlich oder selbsterklärend sind, lässt sich ein zentrales Portal, hier für Deutschland, realisieren, das verschiedene Datenangebote und die Inhalte bestehender Datenkataloge vereinigt.

Einheitliche Metadaten werden in vielen Domänen mit unterschiedlichen Ansätzen und Prioritäten adressiert, beispielsweise für Umweltdaten oder bibliographische Daten (vgl. OpenGov-Studie Abschnitt Metadaten). Für Open Data hat es sich in Europa und Amerika bewährt, die Metadaten-Strukturen von CKAN (Comprehensive Knowledge Archive Network) der OKFN zu nutzen. CKAN ist für Open Data der de-facto-Standard für Datenkatalogsoftware.

CKAN tauscht Metadaten im JSON-Format aus. Das einzige Pflichtfeld ist der Name, der zugleich für Nutzer lesbar und URL-freundlich sein sollte, alle anderen Felder sind optional. Zu den Kernfeldern zählen Titel, Beschreibung, Ressourcen (also Datendateien oder -dienste), Lizenz und Ansprechpartner. Weitere Angaben können als JSON-Wörterbuch, d.h. als verschachtelte Schlüssel-Wert-Paare abgelegt werden. Diese Konzentration auf das Wesentliche zusammen mit der großen Flexibilität dürften der Grund für die Verbreitung dieses Metadatenmodells sein.

Im Lauf der Entwicklung von Open Data vor allem in Berlin und Deutschland zeichnete sich jedoch der Wunsch nach mehr Verbindlichkeit ab: Viele Datenbereitsteller und Entwickler wollten festgelegt haben, wo welche Information in welcher Form steht. Um einerseits den minimalen, flexiblen Charakter von CKAN und JSON zu erhalten und gleichzeitig eindeutig festzulegen, wie die Metadaten für OGPD aussehen sollen, entwickeln wir das JSON-Schema für Open Government Data (OGD).

Die OGD-Metadaten-Struktur wird auf github.com gepflegt. Sie ist nicht nur als Werkzeug gedacht, um valide Metadaten bestimmen zu können, sondern vielmehr als Kommunikationsmittel für Interessierte wie öffentliche Entscheider, Datenbereitsteller, Entwickler und andere Open-Data-Initiativen im deutschsprachigen Raum. Diesen Zwecken dient auch die frühzeitige Veröffentlichung im Beta-Stadium und die öffentlich nachvollziehbare Entwicklung auf github.com.

Die Metadaten-Struktur, die sowohl die Beschreibung von Datensätzen (inkl. von Datendiensten), von Dokumenten und von Applikationen unterstützt, ist wie folgt aufgebaut: Die wichtigsten Eigenschaften werden auf oberster Ebene abgelegt. Dazu gehören: Titel, Bezeichner, Beschreibung, Verantwortliche und Nutzungsbestimmungen. Weiterhin essenziell ist die Liste der Ressourcen, also die eigentlichen Daten, Dokumente oder Applikationen. Wichtigste Eigenschaft jeder Ressource ist wiederum deren URL. Außerdem können je Ressource  Beschreibung und Format vermerkt werden. Dieser Aufbau ermöglicht es beispielsweise, inhaltlich zusammengehörende Dateien als einen Datensatz zu erfassen, für gegebenenfalls verschiedene Zeitabschnitte, in verschiedenen Sprachen oder Formaten. Innerhalb des Bereichs “Extras” werden alle weiteren Angaben gespeichert. Dazu gehören vor allem die zeitliche und räumliche Einordnung, sowie die Angaben zur Herkunft bei importierten Einträgen.

Auf github.com finden sich neben dem Schema auch eine tabellarische HTML-Darstellung sowie Listen der zu verwendenden Kategorien und Lizenzen. Wir freuen uns auf Kommentare, Verbesserungsvorschläge und Fragen.

Creative Commons Lizenzvertrag
Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung 3.0 Unported Lizenz.

Am 25. September 2012 trafen sich Vertreter aus Bayern, Bremen, Berlin, Baden-Württemberg und Hamburg als auch vom PortalU und von GDI-DE an unserem Institut Fraunhofer FOKUS in Berlin, um mit uns über die Metadaten-Struktur für OGDP zu diskutieren. Zudem wurde besprochen, wie bestehende Datenangebote in die OGDP überführt werden können.

Unter Harvesting versteht man das Zusammenführen von Metadaten aus verschiedenen Katalogen. Im Rahmen der OGPD werden die Metadaten der genannten Workshop-Teilnehmer sowie von DESTATIS geharvestet, insoweit sie den Minimalkriterien für Open Data entsprechen: Es werden nur solche Datensätze, Dokumente oder Applikationen übernommen, die eine frei zugängliche elektronische Ressource, eine Beschreibung und eine wohl definierte Lizenz haben.

Dazu habe ich die vorgeschlagene Metadatenstruktur erläutert. Sie wurde insbesondere bzgl. eindeutiger Bezeichner zur eindeutigen Rückverfolgung der Herkunft und zur Erkennung von Dubletten, des Umgangs mit Kontaktangaben, der Erkennung offener Lizenzen als auch der geographischen Abdeckung nachjustiert. Zudem wurden die Hauptkategorien zur Einordnung der Datensätze, Dokumente und Applikationen diskutiert und in die folgenden 14 Hauptkategorien zusammengefasst:

  • Wirtschaft und Arbeit
  • Transport und Verkehr
  • Umwelt und Klima
  • Geographie, Geologie und Geobasisdaten
  • Gesundheit
  • Verbraucherschutz
  • Infrastruktur, Bauen und Wohnen
  • Bildung und Wissenschaft
  • Öffentliche Verwaltung, Haushalt und Steuern
  • Gesetze und Justiz
  • Soziales
  • Kultur, Freizeit, Sport und Tourismus
  • Bevölkerung
  • Politik und Wahlen

Diese Hauptkategorien dienen der prinzipiellen Einordnung und werden um spezifische, beispielsweise fachspezifische, Unterkategorien ergänzt. Für das Harvesten werden bestehende Kategorisierungen wie beispielsweise in INSPIRE oder EVAS auf diese 14 Kategorien abgebildet.

Nach Klärung der Metadaten-Struktur als Zielstruktur für bereitzustellende Daten, Dokumente und Applikationen wurden verschiedene Wege zur Bereitstellung/Aufbereitung der Bestände im OGPD besprochen. Im Ergebnis werden vier verschiedene Wege realisiert und angeboten werden:

  • Passives Bereitstellen per CSW, das beispielsweise für den Geodatenkatalog und  PortalU angewendet wird
  • Passives Bereitstellen per CKAN/JSON, was beispielsweise bei Berlin, Hamburg und Bremen genutzt wird
  • Aktives Bereitstellen per CKAN-API, was beispielsweise von Bayern genutzt werden wird
  • Manuelles Eintragen per Formular, das beispielsweise vom Bundesministerium der Finanzen für die Haushaltsdaten genutzt werden wird

Das Hauptergebnis unseres Harvesting-Workshops ist sicher die überarbeitete Metadaten-Struktur, die nun unter https://github.com/fraunhoferfokus/ogd-metadata, Kurzlink: http://s.fhg.de/ogd-metadata verfügbar ist.

Das Führen der Metadaten-Struktur für OGPD auf GitHub erlaubt eine transparente, kooperative Pflege durch Versionskontrolle. Änderungswünsche können veröffentlicht werden, die Historie der Metadaten-Struktur wird dokumentiert und der aktuelle Stand ist jederzeit sichtbar.

Gerade haben Florian Marienfeld und Thomas Scheel noch eine HTML-Darstellung des JSON-Schemas der Metadaten-Struktur für OGPD aufgenommen, die die Metadaten-Struktur lesbarer und einfacher verständlich macht: http://htmlpreview.github.com/?https://github.com/fraunhoferfokus/ogd-metadata/blob/master/OGPD_JSON_Schema.html, Kurzlink: http://s.fhg.de/ogd-metadata-html

Wir freuen uns auf Eure Hinweise und Vorschläge zur Metadaten-Struktur und/oder zum Harvesten – gerne direkt unter GitHub, aber ebenso gerne hier.

Creative Commons Lizenzvertrag
Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung 3.0 Unported Lizenz.