Imagico.de

blog

Käse in Bewegung

| Keine Kommentare

(Ergänzung: Ich muss den Titel dieses Beitrags in deutscher Sprache vermutlich erklären – das stammt vom englischen moving the cheese – was man jetzt auf einer Reihe unterschiedlicher Ebenen interpretieren kann)

Ich weiß, dass dies schon lange angekündigt wurde aber heute hat die ESA ein weiteres Mal das Format der Sentinel-2-Daten grundsätzlich geändert. Während es beim vorherigen Wechsel um die Umstellung von Szenen mit mehreren Kacheln auf Einzel-Kachel-Pakete ging, was von mir damals auch diskutiert wurde und wie vorhergesagt zu erheblichen Performance-Problemen führte, bleibt bei dieser Änderung jetzt der eigentliche Inhalt der Pakete gleich und nur die Namen ändern sich – sowohl für das Gesamtpaket als auch für die interne Struktur.

Wenn Sie meine Besprechung der Sentinel-2-Daten gelesen haben, erinnern Sie sich vielleicht, dass einer der ersten Kritikpunkte von mir die extrem aufgeblasenen Dateinamen voll mit redundanten und zur Identifikation irrelevanten Informationen waren. Ich hatte das erwähnt, denn dies ist bei der Arbeit mit den Dateien recht lästig. Am Ende ist dies jedoch kein wirklich großes Problem, denn man kann sich die Dateien ja beliebig so wie man es haben möchte umbenennen, wenn man sie in sein System einliest und muss sich danach nicht mehr mit dem Problem rumärgern. Das Ganze jetzt nach einem Jahr noch mal völlig zu ändern ist vor diesem Hintergrund bestenfalls etwas merkwürdig. Bemerkenswerter ist allerdings der angegebene Grund für die Änderung:

The product naming (including the naming of folders and files inside the product structure) is compacted to overcome the 256 characters limitation on pathnames imposed by Windows platforms

Ich übersetzt das mal: Nach mehr als einem Jahr öffentlicher Datenverteilung ändern wir das Format der Daten in einer nicht rückwärts-kompatiblen Form entsprechend den Wünschen der Nutzer einer historischen Computer-Plattform, welche nicht mehr verkauft oder vom Hersteller unterstützt wird und welche so veraltet ist, dass wir sie und ihre speziellen Begrenzungen noch nicht mal im Auge hatten, als wie das Ganze ursprünglich vor 3-4 Jahren geplant haben.

Natürlich könnte man auch ganz einfach sagen: 256 Zeichen sollten für jeden ausreichend sein

Die Änderung sieht im Wesentlichen so aus: In der alten Form hatten die Paketnamen diese Form:

S2A_OPER_PRD_MSIL1C_PDMC_20151230T202002_R008_V20151230T105153_20151230T105153.zip

und darin fanden sich die Daten in Dateien wie:

S2A_OPER_PRD_MSIL1C_PDMC_20151230T202002_R008_V20151230T105153_20151230T105153.SAFE/GRANULE/S2A_OPER_MSI_L1C_TL_SGS__20151230T162342_A002722_T31TFJ_N02.01/IMG_DATA/S2A_OPER_MSI_L1C_TL_SGS__20151230T162342_A002722_T31TFJ_B01.jp2

Jetzt bekommt man etwas wie:

S2A_MSIL1C_20160914T074612_N0204_R135_T36JTT_20160914T081456.SAFE.zip

und darin:

S2A_MSIL1C_20160914T074612_N0204_R135_T36JTT_20160914T081456.SAFE/GRANULE/L1C_T36JTT_A006424_20160914T081456/IMG_DATA/T36JTT_20160914T074612_B01.jp2

Das sind nur die Dateien mit den eigentlichen Daten. Die Metadaten und die QA-Sachen sind ebenfalls geändert, viele Dateinamen sind jetzt generisch, das bedeutet die sind in allen Paketen identisch. Das ist ein bisschen so wie bei Sentinel-3, nur dass bei Sentinel-3 Namen in Kleinbuchstaben verwendet werden und bei Sentinel-2 Großbuchstaben.

Manche der Änderungen machen durchaus Sinn. So ist jetzt zum Beispiel die MGRS-Kachel-ID Bestandteil des Paket-Namens. Und die Zeitstempel in den Paketen sind in einer anderen Reihenfolge, während früher der Zeitpunkt der Verarbeitung zuerst kam ist jetzt der Aufnahme-Zeitpunkt zuerst. Das bedeutet zum Beispiel, dass wenn man die Dateien nach Namen sortiert, diese in Reihenfolge der Aufnahme erscheinen und nicht in Reihenfolge der Verarbeitung, was meist auch sinnvoller ist.

Das Daten-Verteilungssystem ist übrigens nach wie vor sehr unzuverlässig, wer dies also zum Anlass nehmen möchte, mal ein paar Sentinel-2-Daten herunterzuladen und anzuschauen der muss sich vermutlich erheblich in Geduld üben.

Ergänzung: Die Tiefe der Verschleierung in den Dateiformat-Spezifikationen ist übrigens wirklich beeindruckend. Wenn man dort nach der Bedeutung des zweiten Zeitstempels in den Paketnamen sucht, findet man drei unterschiedliche Spezifikationen. In dem was im Moment zum Download angeboten wird ist das anscheinend der Aufnahmezeitpunkt des ‘datastrip’, es gibt jedoch noch zwei weitere Format-Varianten, wo dies entweder

  • der Produktionszeitpunkt des Paketes oder
  • der Aufnahmezeitpunkt des neuesten ‘datastrip’ erhöht um eine Sekunde ist.

Man kann sich da jetzt bildlich vorstellen, wie das abgelaufen ist. Urspünglich war da der Produktionszeitpunkt vorgesehen – der kommt nämlich in den Spezifikationen erst mal überall vor. Und dann ist jemandem aufgefallen, dass der ja bei Parallel-Prozessierung nicht unbedingt eindeutig ist…

Hinterlassen Sie eine Antwort

Pflichtfelder sind mit * markiert.



Durch das Abschicken Ihres Kommentars stimmen Sie der Datenschutzrichtlinie zu und erlauben, dass die eingegebenen Informationen (mit Ausnahme der eMail-Adresse) in diesem Blog veröffentlicht werden.