Im Bereich offener Satellitenbild-Daten haben in letzter Zeit ein paar Veränderungen hinsichtlich der praktischen Nutzung stattgefunden, welche man auf Englisch treffend als moving the cheese überschreiben kann. Sie beziehen sich auf Landsat- und Sentinel-2-Daten. Hier die Erläuterungen im Detail und ein paar Kommentare dazu.
Landsat
Der USGS hat Ende September damit begonnen, die Form der Daten-Verteilung von Landsat-Daten auf was sie als Collections bezeichnen umzustellen. Das bedeutet im Wesentlichen:
- Die Einführung verschiedener Bearbeitungs-Versionen in expliziter Form. Bis jetzt haben Neubearbeitungen einer Szene einfach das existierende Paket ersetzt. Die Version der Prozessierung ließ sich an den Metadaten ablesen, jedoch nicht im Paket-Namen. Durch das Prozessierungs-Datum als Bestandteil des Namens wird dies transparenter, jedoch zwingt man hierdurch den Nutzer auch, sich mit den Versionen herumzuschlagen.
- Die Einführung von verschiedenen Stufen zur Qualitäts-Bewertung. Dies bedeutet, dass einige Szenen verifiziert werden, dass sie höheren Qualitäts-Standards entsprechen, anscheinend vor allem in Bezug auf die geometrische Genauigkeit. Dies wird in den Paket-Namen vermerkt und die Szenen werden in den Download-Tools prominent in diese Klassen eingeteilt.
- Die Einführung einiger zusätzlicher Metadaten.
Die Änderung wird Schritt für Schritt umgesetzt – derzeit werden die Daten von Landsat 5 und 7 umgestellt und die Planung sieht vor, mit Landsat 8 im November zu beginnen. Die ganze Neu-Prozessierung wird anscheinend mehrere Monate dauern. Die alte Form wird währenddessen einschließlich neuer Bilder verfügbar bleiben so dass es reichlich Zeit gibt, sich auf die Änderungen einzustellen. Und das neue Format ist abgesehen von den Dateinamen im Inhalt im wesentlichen rückwärts-kompatibel, ist also nicht so kompliziert sich darauf einzustellen.
Sentinel-2
Die Änderungen bei Sentinel-2 sind hingegen eine vollkommen andere Geschichte.
Zunächst hat die ESA am 19. September Die Registrierungs-freie Verteilung von Sentinel-2-Daten abgestellt. Das bedeutet, dass man sich jetzt bei der ESA registrieren muss, um Zugriff auf Sentinel-2-Daten zu bekommen. Kein großes Problem, denn das ist ein automatischer Vorgang. Aber es ist natürlich nicht gerade bequem, wenn man nur mal beiläufig die Daten ausprobieren möchte.
Dann wurde Ende September von den bisherigen Szenen-basierten Paketen auf Einzel-Kachel-Pakete umgestellt. Diese Änderung war Anfang August angekündigt worden. Wie ich bei meiner Evaluierung der Sentinel-2-Daten erläutert habe, bestand die ursprüngliche Form der Verteilung von L1C-Sentinel-2-Daten (was die einzig verfügbare Bearbeitungsstufe ist) aus Paketen, welche jeweils einen Abschnitt von 300km Länge aus dem Aufzeichnungs-Streifen des Satelliten von etwa 290km Breite enthielten. Diese Pakete waren, falls Daten über die gesamten 300km aufgezeichnet wurden, üblicherweise zwischen etwa 6 und 15 GB groß – abhängig von der geographischen Breite, denn die Aufteilung der 300km-Segmente erfolgte in Breiten-Richtung.
Außer der größeren Dateigröße (aufgrund der höheren räumlichen Auflösung wie auch der größeren abgedeckten Fläche) und der unterschiedlichen internen Struktur der Pakete waren diese recht vergleichbar mit Landsat-Szenen. Aber es gab anscheinend eine ganze Reihe von Nutzern, welche so große Pakete etwas unhandlich fanden so dass die ESA jetzt auf die Verteilung von Paketen mit Einzel-Kacheln umschwenkt. Eine Kachel (granule) bezeichent bei der ESA 100x100km-Ausschnitte der Daten, in welche diese intern aufgeteilt sind und welche einer Abwandung des MGRS-Systems entsprechen. Jedes Paket enthält jetzt exakt eine dieser Kacheln und die 300km-Szenen, welche üblicherweise etwa 10-15 dieser Kacheln enthielten, sind Geschichte. Dies scheint mögchlicherweise kein so bedeutender Welchsel zu sein, denn es werden ja nur dies selben Daten in kleinere Pakete aufgeteilt und ESA hat dies auch genau so angekündigt. Es ergeben sich jedoch eine Reihe von Folgen:
- Es gibt eine ganze Menge zusätzliche Redundanz zwischen den Paketen, denn viele Metadaten und zusätzliche Dateien lädt man jetzt 10-15 Mal so oft herunter wie zuvor.
- Da die ESA ihre Voransicht-Bilder nach wie vor einzeln farblich anpasst, muss man jetzt mit noch stärkeren und feiner granulierten Farbunterschieden in diesen Vorschau-Bildern arbeiten. Bereits vorher war die Verwendung hiervon zur Qualitäts-Abschätzung der Bilder recht schwierig und trotz der nun höheren Auflösung (die Vorschau-Bilder sind bei den einzelnen Kacheln genau so groß wie zuvor für eine ganze Szene) wir das jetzt noch deutlich schwieriger. Auf der positiven Seite kann man nun – mit etwas Schummelei – die Voransichten näherungsweise geocodieren.
- Auch wenn die ESA jetzt einzelne Kachln verteilt, scheint man es anscheinend nicht für nötig zu halten, in den Metadaten der Pakete Informationen vorzuhalten, um welche Kachel es sich jeweils handelt. Es gibt zwar ein Abdeckungs-Polygon, jedoch keine Angaben zur MGRS-Kachel oder zur UTM-Zone.
- Für umfangreichere Datennutzung, wo man nicht nur mit einzelnen Kacheln arbeitet oder nur beiläufig mal Bilder von einem bestimmten Punkt ansehen möchte, ist das ESA-Download-Interface und in ähnlicher Weise die diversen alternativen Betrachtungs-Werkzeuge, welche auf der ESA-Infrastruktur aufbauen, jetzt praktisch nicht mehr nutzbar. Statt der 200-300 Pakete pro Tag, mit denen man zu tun hatte, gibt es jetzt viele tausend davon. Dies bedeutet, dass ein effizienter Zugriff auf Sentinel-2-Daten in größerem Umfang jetzt nur noch über automatische Werkzeuge funktioniert.
- Die ESA hat bereits zuvor recht zufällig Bilder neu bearbeitet, was dann zu mehreren Paketen für das selbe Bild im Archiv geführt hat. Ich weiss nicht, in wie fern eine Neu-Prozessierung normalerweise zu Unterschieden in den eigentlichen Bilddaten führt, wenn das jedoch jetzt auf einem deutlich feineren Maßstab passiert ist dies deutlich relevanter. In dem Fall zum Beispiel, wo man erst eine Kachel in der neuesten verfügbaren Version herunterlädt, dann auch noch eine benachbarte Kachel benötigt und feststellt, dass diese nur in einem älteren Bearbeitungs-Stand verfügbar ist. Wird dies dann zu Unterschieden in den Daten an der Kachel-Grenze führen?
Hinsichtlich der Voransicht-Bilder – hier ein Beispiel für ein solches Bild eines Pakets im alten Stil:
Und hier das selbe Gebiet mit neu prozessierten Daten, zusammengesetzt aus den Voransichten der neuen Einzelkachel-Pakete:
Nun – das ist immer noch besser als gar keine Voransicht, was aber nicht wirklich ein Kompliment ist…
Hier endet die Geschichte jedoch noch nicht. Seit der Umsetzung dieser Änderung ist der Zugriff auf die ESA-Download-Infrastruktur recht erratisch – wer würde auch denken, dass wenn man etwa die zehnfache Anzahl an Dateien zum Download anbietet und dazu noch die Metadaten und Such-Funktionen, dass dies zu einer zusätzlichen Belastung der Infrastruktur führt? Heute haben sie dann angekündigt, dass unzuverlässige und verzögerte Verfügbarkeit der Daten noch den Rest des Oktobers andauern wird.
Egal was die Gründe und Motive für all das sind – die Aussicht, dass Sentinel-2 sich zu einer verlässlichen Alternative offener Satellitenbild-Daten zu Landsat entwickeln könnte, hat damit einen deutlichen Dämpfer bekommen. Wenn man die Mengen an Steuergeldern bedenkt, die hierein geflossen sind, ist das schon mehr als nur ein bisschen traurig.
Ich neige generell dazu – im Sinne von Hanlon’s razor – dies in erster Linie auf Inkompetenz zu schieben. Die verschiedenen offensichtlich nicht gut durchdachten Aspekte der ESA-Datenverteilung und zugehörigen Werkzeuge – wie zum Beispiel die Sache mit den Voransicht-Bildern – unterstreichen dies. Aber die Möglichkeit, dass es auf irgendeiner Ebene durchaus beabsichtigt ist, dass routinemäßige Nutzung der Sentinel-Daten über die öffentlich zugänglichen Wege nicht allzu einfach ist, scheint in der Gesamtschau auch nicht wirklich so fern liegend zu sein.