Es ist einige Zeit her, dass ich hier über Neuigkeiten aus der Welt offener Satellitendaten berichtet habe und seit dem ist manches passiert – einiges davon möchte ich hier kurz kommentieren.
Sentinel-2
Vor kurzem hat die ESA einen Bericht zum Zugriff aus die Satellitendaten aus dem Copernicus-Programm veröffentlicht. Das ist größtenteils recht mühsam zu lesen mit einem schlechten Signal-Rausch-Verhältnis. Aber es gibt auch eine ganze Reihe von interessanten Dingen versteckt zwischen einer Menge von Alle Zahlen sind im vergangengen Jahr gestiegen-Geschwafel. Das Wichtigste, das man beim Lesen im Hinterkopf behalten sollte ist, dass das Format der Sentinel-2-Daten im Berichtszeitraum auf Einzelkachel-Pakete geändert wurde. Dies ist bei den Auswertungen nicht wirklich berücksichtigt worden so dass die meisten Werte zu Paketzahlen ziemlicher Unsinn sind – man könnte sagen es werden Äpfeln und Kirschen gemischt. Aber nicht dass man mich hier falsch versteht – es ist ja schon mal gut, dass so ein Bericht überhaupt geschrieben und vor allem veröffentlicht wird.
Besonders amüsant ist die folgende Illustration, welche die räumliche Verteilung der Sentinel-2-Bilder illustrieren soll.
Zum Vergleich hier die präzise Karte der Abdeckung (welche ich schon früher mal mit einem etwas anderen Zeitraum gezeigt habe).
Die ESA-Illustration kombiniert nicht nur anscheinend gedankenlos die verschiedenen Paketgrößen, sie verwischt auch recht sinnlos die gesamte Darstellung mit Unschärfe – vermutlich weil man die selben Probleme wie ich hatte, auf Grundlage der inkonsistenten Metadaten eine präzise Darstellung zu produzieren. Insgesamt ein sehr schönes Beispiel für eine misslungene Visualisierung.
Ein paar interessante Fakten aus dem Bericht sind:
- ein recht offenes Zugeständnis, dass der offene Datenzugang gegen Ende des Berichtszeitraums in der Verfügbarkeit ziemlich unterirdisch war – was ich hier ja auch schon erwähnt hatte. Dies wird natürlich ausführlich begründet. Auf Grundlage der aktuellen Erfahrungen kann ich vorhersagen, dass dies im nächsten Jahr vermutlich etwas besser aussehen wird. Die Hürde hierfür liegt jedoch auch nicht sehr hoch – alles über 95% Verfügbarkeit wird als gut angesehen. Und formelle Verfügbarkeit des Dienstes bedeutet ja noch nicht unbedingt, dass dieser auch praktisch nutzbar ist.
- Es gibt einige recht interessante Zahlen zum tatsächlichen Zugriff auf die Daten. Hierzu mehr im Folgenden.
Die Nutzung des Sentinel-2-Datenzugangs
Ich behandle hier nur die Sentinel-2-Zahlen während der Bericht natürlich auch die anderen Satelliten abdeckt. Im Bericht wird auch sowohl über den offenen Datenzugang über den Open Access Hub als auch die anderen Instanzen berichtet, welche nur für bestimmte provilegierte Gruppen verfügbar sind:
- der Copernicus Services Hub für Organisationen, welche Dienste innerhalb des Copernicus-Programms anbieten, also direkt finanziert im Programm.
- der Collaborative Hub für Partner-Organisationen innerhalb der Europäischen Union, also unabhängig steuerfinanzierte Sachen.
- der International Hub für Partner-Organisationen außerhalb der EU – das ist derzeit eine in Australien und zwei in den USA (von NASA, USGS und NOAA – welche davon wird nicht erwähnt).
Hier die wichtigsten Zahlen: Insgesamt wurden 0.46PB an Sentinel-2-Daten veröffentlicht. Heruntergeladen wurden über den öffentlichen Zugang 1.53PB und über die genannten nicht öffentlichen Instanzen 1.14PB.
Von den öffentlichen Zugriffen waren etwa 75 Prozent auf Daten die weniger als eine Woche alt waren. Insgesamt haben wohl etwa 6500 registrierte Nutzer Sentinel-2-Daten heruntergeladen und davon weniger als 100 haben mehr als 100 Pakete heruntergeladen.
Und hier nun meine Interpretation dieser Zahlen:
- Die Routinenutzer sehr großer Datenmengen (man denke hier zum Beipiel an Google und Amazon – aber vermutlich auch eine Reihe von kleineren Nutzern) – bekommen ihre Daten anscheinend nicht über diese Kanäle, es muss hierfür separate Arrangements geben, über welche nicht öffentlich berichtet wird.
- Unabhängige Nutzer größerer Datenmengen wie ich sind anscheinend ausgesprochen selten. Fast die gesamte Nutzung des Open Access Hub sind einzelne Zugriffe auf jeweils wenige relativ neue Bilder und keine regelmäßige Routinenutzung. Natürlich geht es hier um das erste Betriebsjahr und das Interesse der Leute beginnt erst langsam. Und natürlich dürften die häufigen Änderungen an Datenformaten und die geringe Zuverlässigkeit der Infrastruktur gerade für viele kleinere potentielle Datennutzer eher abschreckend wirken so dass diese oft eher abwarten dürften, ob sich das ganze stabilisiert und in der Zwischenzeit auf alternative Datenquellen ausweichen.
- Falls es Zugriff in größerem Volumen durch Partner-Organisationen über diese Kanäle gibt, dürfte dieser erst recht spät im Berichtszeitraum begonnen haben, denn die Gesamtzahlen zeigen ein recht geringes Nutzungsvolumen.
Ein paar zusätzliche Daten
Hier noch ein paar zusätzliche Illustrationen auf Grundlage der öffentliche verfügbaren Metadaten die so nicht im Bericht stehen und auch ansonsten kaum thematisiert werden. Zunächst die Entwicklung des veröffentlichten Volumens an Bilddaten in Form der abgedeckten Fläche mit den Werten für Landsat im Vergleich.
Man beachte, dass diese Zahlen aufgrund der Schwierigkeiten einer genauen Berechnung aus den verfügbaren Metadaten nicht ganz exakt sind. Sie dürften jedoch leidlich nahe an den tatsächlichen Werten liegen. Das Volumen ist immer für eine Umlauf-Periode berechnet, den Zeitraum, nach dem sich das Muster der Umlaufbahnen des Satelliten wiederholt – also 10 Tage bei Sentinel-2 und 16 Tage bei Landsat. Die Zahlen sind dann auf ein tägliches Volumen normiert.
Was man sieht ist, dass Landsat 8 seit 2014 recht stabil zwischen 20 und 23 Millionen Quadratkilometer pro Tag erfasst. Es gibt Schwankungen nach einem jahreszeitliche Muster durch die Unterschiede in der beleuchteten Landfläche. Landsat 7 zeigt auf einem insgesamt niedrigeren Niveau ein etwas anderes Muster mit einem Minimum im nordhemisphärischen Winter, denn die Antarktis wird hier nicht erfasst. Wenn man genau hinsieht, erkennt man auch einen Abfall in den Werten für Landsat 8 im letzten Winter, was daher kommt, dass die Antarktis-Erfassung in der Saison 2016/2017 aus irgendeinem Grund weitgehend auf die küstennahen Bereiche beschränkt war. Ich konnte dazu in den USGS-Informationen nichts Näheres finden aber ich hoffe mal, dass dies kein Zeichen für eine dauerhafte Änderung der Aufnahme-Muster ist.
Die Zahlen für Sentinel-2 sind mittlerweile auf dem selben Niveau wie bei Landsat 8 was die Gesamt-Abdeckung betrifft, jedoch sind die Zahlen deutlich weniger stabil und es gibt eine ganze Menge Unregelmäßigkeiten und Lücken. Dies bringt mich zur nächsten Sache, die ich vorbereitet habe – eine Visualisierung der Bildabdeckung nach der Umlauf-Periode, welche sowohl die Bilder zeigt, welche verfügbar sind als auch die fehlenden – Bilder also deren Erfassung zwar nach den veröffentlichten Plänen vorgesehen war, die aber nicht zum Download verfügbar sind, entweder weil nicht aufgenommen oder weil nicht prozessiert.
Man sollte dabei beachten, dass die Aufnahme-Planung bei Landsat und bei Sentinel-2 sehr unterschiedlich abläuft. Bei Landsat 8 gibt es ein dynamisches System, welches auf vordefinierten Prioritäten für die verschiedenen Szenen basiert und wo die eigentliche Planung dann auf Grundlage einer Vielzahl von Faktoren kurzfristig automatisch erzeugt wird. Die eigentliche Erfassung liegt dann meist sehr nahe an den Plänen. Bei Sentinel-2 hingegen werden Bilder auf Grundlage fester langfristiger Pläne erfasst.
Wie auch immer – wenn man Pläne und verfügbare Daten vergleicht, erkennt man bei Sentinel-2 deutliche Abweichungen. Auch die Zahlen in den Missions-Statusberichten (in Minuten pro Umlauf) sind anscheinend keine tatsächlichen Aufnahmen, sondern nur die Pläne. Ich weiss nicht was die Ursachen für die fehlenden Bilder sind, welche offensichtlich Lücken in der tatsächliche Aufzeichnung sind – ob dies Überbuchungen der Systeme durch die Pläne darstellt oder ob es sich um Ausfälle von Komponenten in der Datenübertragung oder um Betriebsfehler handelt. Die Lücken sind zu häufig, um mit betriebsbedingten Ursachen allein erkärt zu werden – wie Satellitenmanöver oder Kalibrierungen.
Daneben gibt es auch noch fehlende Einzelkacheln. Dies kommt bemerkenswert oft vor und anders als man vielleicht annehmen würde werden diese Lücken nicht immer nach ein paar Tagen gefüllt. Ob diese Lücken dann bei späteren Neu-Prozessierungen der Daten verschwinden ist nicht klar. Das Ganze scheint ein Nebeneffekt des Wechsels auf Einzelkachel-Pakete zu sein – ich hab bei den größeren Paketen nie ein Fehlen einzelner Kacheln beobachtet – gepaart mit geringer Fehlertoleranz und fehlender Fehlererkennung im Verarbeitungs-System.
Zuletzt habe ich auch noch die Seite mit den täglichen Bildzahlen der Satelliten repariert, welche schon seit einiger Zeit nicht mehr richtig funktioniert hat. Diese Zahlen sind jetzt auch auf die täglich erfasste Fläche normiert.
Bei der ganzen Sache muss man natürlich immer im Hinterkopf behalten, dass die räumliche Auflösung der Sentinel-2-Bilder höher ist als bei Landsat und damit das Datenvolumen für die selbe Fläche natürlich auch deutlich größer ist.
Landsat
Da die ESA hier mit kritischen Kommentaren die ganze Aufmerksamkeit bekommt, besteht etwas Gefahr, dass der USGS neidisch wird – also hier auch ein paar Worte zu Landsat (obwohl ich in den letzten Absätzen ja auch schon etwas Analyse hierzu geboten habe).
Der Umstieg auf das neue Collection-Format bei den Landsat-Daten ist jetzt abgeschlossen. Wie zuvor erwähnt ist dies für die meisten Datennutzer eine recht oberflächliche Änderung. Der USGS verwendet auch anscheinend weiterhin die alten Identifikationen an manchen Stellen in ihrem Daten-Management-Systemen – zum Beispiel habe die Metadaten-Seiten immer noch die Form
https://earthexplorer.usgs.gov/metadata/12864/LC81920272017130LGN00/
Aus meiner Sicht ist das größte Problem mit der Änderung, dass die verfügbaren Metadaten-Downloads anscheinend unvollständig sind – zumindest bei Landsat 8 scheinen im neuen Datensatz mehr als 3000 Szenen zu fehlen, welche in der alten Datenbank drin sind. Dies scheint jedoch nur ein Problem mit den Metadaten zu sein – die entsprechenden Szenen sind im EarthExplorer verfügbar.