Technische Tiefenanalyse

Cloud-Native Geospatiale Formate

Ein pragmatischer Leitfaden zu COG, GeoParquet und STAC. Wann sie funktionieren, wann nicht, und wie Sie bewerten, ob eine Migration für Ihre Organisation sinnvoll ist.

VERÖFFENTLICHTJAN 2025
KATEGORIETECHNISCH
AUTORAXIS SPATIAL
Sumi-e Tuschemalerei zeigt die Entwicklung von Datenformaten - von starren Boxen zu fließenden Streams
  • COG, GeoParquet und STAC sind 10-1000x schneller als traditionelle Formate für Cloud-Workflows
  • COG: Lesen Sie nur die Pixel, die Sie benötigen. GeoParquet: Spaltenabfragen ohne Laden von gesamten Datensätzen
  • NICHT migrieren, wenn: kleine Datensätze (<1 GB), keine Cloud-Infrastruktur oder Single-User-Desktop-Workflows
  • Echtes Beispiel: 47 GB Downloads → 500 MB Teillesung. 3-4 Wochen → 30 Minuten pro Analyse.

Wenn Sie Geospatialoperationen im großen Maßstab betreiben (Hochwasserrisikobewertungen, Versorgungsunternehmen Vermögensbestände, Satellitenbildanalyse), zahlen Sie fast sicherlich eine versteckte Steuer.

Diese Steuer erscheint auf keiner Rechnung. Sie zeigt sich darin, dass Analysten 15 Minuten warten, bis ein 10-GB-GeoTIFF heruntergeladen ist, wenn sie Daten aus einem Radius von 500 Metern benötigen. Cloud-Egress-Rechnungen, die in die Höhe schnellen, jedes Mal wenn jemand eine räumliche Abfrage ausführt. Data Scientists, die Ihre Geopositionierungsbestände nicht nutzen können, weil sie sich nicht in Databricks oder Snowflake integrieren.

Bei einem globalen Rückversicherer, mit dem wir zusammengearbeitet haben, erforderte eine Risikobewertung auf Länderebene das Herunterladen von 47 GB Daten, um Features aus einem 2-km²-Gebiet zu extrahieren. Der Workflow dauerte 3-4 Wochen. Nach der Migration zu Cloud-nativen Formaten dauert die gleiche Analyse 30 Minuten. (Weitere Informationen zu den geschäftlichen Auswirkungen solcher Verzögerungen finden Sie unter die versteckten Kosten manueller Workflows.)

Which Format Do You Need?

What type of data are you working with?

Welche Probleme lösen Cloud-Native-Geoposition-Formate?

Cloud-native Formate lösen drei Probleme: ineffiziente Vollfile-Downloads, Integrationslücken bei Analyseplattformen und Herausforderungen bei der Datenerkennung. Traditionelle Formate wie Shapefile und GeoTIFF erfordern das Herunterladen vollständiger Dateien, um auf eine kleine Region zuzugreifen. COG, GeoParquet und STAC ermöglichen HTTP-Range-Anfragen, spaltengebundene Analysen und durchsuchbare Metadaten. Bevor wir uns mit Lösungen befassen, seien wir präzise über das, was wir lösen.

PROBLEM 1: DIE "ALLES HERUNTERLADEN"-ARCHITEKTUR

Traditionelle Rasterformate (GeoTIFF, JPEG2000) und Vektorformate (Shapefile, File Geodatabase) wurden mit einer Annahme entworfen: Sie haben die Datei lokal.

Beispiel: Ihre Organisation speichert 50 TB Luftbilder auf S3. Ein Analyst muss Gebäudefundamente für eine Hochwasserzone extrahieren, die 0,1 % Ihres gesamten Bildausmaßes abdeckt.

  • Ermitteln Sie, welche Dateien das Interessensgebiet schneiden
  • Laden Sie jede vollständige Datei herunter (möglicherweise Hunderte von GB)
  • Extrahieren Sie die relevanten Pixel
  • Verwerfen Sie 99,9 % der heruntergeladenen Daten
Japanische Tuscheillustration zeigt Datenextraktion im Großformat versus präzise gezielte Zugriffe

Das Präzisionszugriffsprinzip: Extrahieren Sie nur das, was Sie aus dem Ganzen benötigen.

PROBLEM 2: DIE INTEGRATIONSLÜCKE BEI DER ANALYSE

Die moderne Dateninfrastruktur hat sich auf spaltengebundene Formate geeinigt. Databricks, Snowflake, BigQuery - jede ernsthafte Datenplattform ist für Apache Parquet optimiert.

Geopositionsdaten existieren in einem parallelen Universum. Ihre Data Engineers haben ausgefeilte Pipelines für Kundendaten, Transaktionsprotokolle und operative Metriken aufgebaut. Aber Geopositionierungsbestände? Diese leben in einem separaten GIS-Silo, nur über spezialisierte Tools zugänglich.

PROBLEM 3: DAS ERKENNUNGSPROBLEM

Wo ist die Luftbildaufnahme, die das nördliche Verteilungsnetz vor dem Sturmereignis 2023 abdeckt? Wenn die Beantwortung dieser Frage das Versenden von E-Mails an drei Kollegen, die Suche durch verschachtelte Ordner und die Überprüfung mehrerer Tabellenkalkulationen erfordert - haben Sie ein Erkennungsproblem, das zu doppelten Datenkäufen und verpassten Analysemöglichkeiten führt.

Wie funktioniert Cloud-Optimized GeoTIFF (COG)?

COG reorganisiert Standard-GeoTIFF mit interner Kachelung, Übersichten und Kopfzeilenerster Struktur, die HTTP-Range-Anfragen ermöglicht, um bestimmte Pixel zu lesen, ohne die vollständige Datei herunterzuladen. Das Lesen von 1km² aus einem 50GB-Raster dauert 14 Minuten (vollständiger Download) bis 2,3 Sekunden (Range-Anfrage). COG ist kein neues Format - es ist ein GeoTIFF, das auf eine bestimmte Art und Weise organisiert ist, um einen effizienten Cloud-Zugriff zu ermöglichen. 2023 wurde COG als offizieller OGC-Standard angenommen.

Wie COG funktioniert

Eine Standard-GeoTIFF speichert Pixel in sequenziellen Streifen. Um ein beliebiges Pixel zu lesen, müssen Sie normalerweise von Anfang der Datei an lesen. Eine COG reorganisiert diese Struktur mit drei Hauptfunktionen:

1

Interne Kachelung

Das Raster ist in Kacheln fester Größe (typischerweise 512x512 Pixel) unterteilt. Jede Kachel ist unabhängig adressierbar.

2

Übersichten (Pyramiden)

Vorgefertigte reduzierte Versionen mit niedriger Auflösung, die in derselben Datei gespeichert sind. Schnelle Zoom-Out-Ansichten ohne vollständige Daten mit voller Auflösung zu lesen.

3

HTTP Range Request Kompatibilität

Clients berechnen genau, welche Bytes ihr Interessensgebiet enthalten. Cloud Storage (S3, Azure Blob) unterstützt das Abrufen spezifischer Byte-Bereiche.

Japanisches Tuscheraster mit einzelner hervorgehobener Kachel, die selektiven Datenzugriff darstellt

Kachel-basierter Zugriff: Fordern Sie nur die Zelle an, die Sie benötigen, lassen Sie den Rest unberührt.

LEISTUNGSBENCHMARK: LESEN SIE 1 KM² AUS EINEM 50-GB-RASTER

Standard GeoTIFF847 sec

Laden Sie die vollständige Datei herunter, extrahieren Sie die Region

Cloud-Optimized GeoTIFF2.3 sec

Rufen Sie nur erforderliche Kacheln über Range-Anfrage ab

368xschneller

Die Verbesserung skaliert mit der Datengröße. Für 500-GB-Archive kann sie 1.000x übersteigen.

COGs erstellen: Was tatsächlich wichtig ist

gdal_translate input.tif output_cog.tif \
  -of COG \
  -co COMPRESS=DEFLATE \
  -co OVERVIEW_RESAMPLING=LANCZOS \
  -co BLOCKSIZE=512

Kompression: DEFLATE bietet gute Komprimierungsverhältnisse mit schneller Dekompression. JPEG ist für Bilder geeignet, bei denen ein gewisser Qualitätsverlust akzeptabel ist (70-80 % kleinere Dateien).

Kachel-Größe: 512x512 kann die Leistung bei großflächigen Abfragen auf Kosten von etwas mehr Datenübertragung für kleine Abfragen verbessern.

VALIDIERUNG: ÜBERSPRINGEN SIE DIES NICHT

Eine Datei kann interne Kacheln haben, ohne ein gültiges COG zu sein. Validieren Sie immer:

rio cogeo validate output_cog.tif

Wir haben Organisationen gesehen, die "konvertiert" haben zu COG ohne Validierung, und sich dann wundern, warum die Leistung nicht verbessert wurde. Die Konvertierung ist stillschweigend fehlgeschlagen.

Vertiefung: GeoParquet

Wenn COG das Rasterproblem löst, behebt GeoParquet Cloud-native Vektordaten. Aber es ist mehr als "Shapefile, aber schneller."

Der spaltenbasierte Vorteil

Shapefiles und File Geodatabases speichern Daten Zeile für Zeile. Um ein beliebiges Attribut einer beliebigen Funktion zu lesen, müssen Sie typischerweise durch Datensätze sequenziell scannen. Parquet speichert Daten Spalte für Spalte - optimiert für Analyseanfragen, die auf bestimmte Attribute zugreifen, über Datensätze aggregieren oder basierend auf Werten filtern.

AbfragetypShapefileFGDBGeoParquetVerbesserung
Count all features34s12s0.8s15x
Select by attribute89s31s1.2s26x
Spatial join (1M features)847s312s28s11x
Load into Pandas156s87s4.2s21x

Benchmark auf 15 Millionen Parzellen-Datensatz

Japanische Tuscheillustration zeigt chaotische zeilengebundene Daten gegenüber geordnetem spaltengebundene Speicherung

Zeilen vs. Spalten: Zufälliger Zugriff gegenüber präziser Auswahl dessen, was Sie benötigen.

GeoParquet erstellen: Praktischer Code

import geopandas as gpd

# Read source data
gdf = gpd.read_file("input.shp")

# Write to GeoParquet
gdf.to_parquet(
    "output.parquet",
    compression="snappy",  # Fast decompression
    index=False
)

Wenn Sie von ArcGIS wechseln, deckt unser ArcPy zu GeoPandas Übersetzungsleitfaden den kompletten Workflow-Konvertierungsprozess ab.

RÄUMLICHE INDIZIERUNG: DAS FEHLENDE STÜCK

GeoParquet enthält keine integrierte räumliche Indexierung. Für große Datensätze mit häufigen räumlichen Abfragen:

  • 1.Row Group Filtering: Organisieren Sie Daten so, dass räumlich benachbarte Features in denselben Row Groups sind.
  • 2.H3/S2 Cell Index: Generieren Sie Zellindizes als zusätzliche Spalten. Fragen Sie zuerst nach Zell-ID ab.
  • 3.Partitionierung: Partitionieren Sie Dateien nach geografischer Region (Bundesland, Rasterzelle).

Vertiefung: STAC (SpatioTemporal Asset Catalog)

COG und GeoParquet lösen Zugriffs- und Analyseprobleme. STAC löst Entdeckung.

STAC ist eine Spezifikation für Metadaten, nicht für ein Datenformat. Es definiert eine Standard-JSON-Struktur zur Beschreibung von Geospatialbestanden - was sie enthalten, wo sie sich befinden, wann sie erfasst wurden und wie man auf sie zugreift.

CATALOG

Der Root-Container. Zeigt auf untergeordnete Kataloge oder Sammlungen.

COLLECTION

Eine logische Gruppierung verwandter Elemente (z. B. "Sentinel-2 Level-2A Bilder für Nordamerika").

ITEM

Eine einzelne raumzeitliche Einheit - eine Szene, ein Zeitschnitt, ein kohärenter Datensatz.

ASSET

Eine spezifische Datei oder Ressource, die einem Element zugeordnet ist (das rote Band, die Miniaturansicht, die Metadaten-JSON).

Warum dies im großen Maßstab wichtig ist

Überdenken Sie: 10 Jahre Luftbildaufnahmen, Satellitendaten von 3 Anbietern, LiDAR aus 5 Erfassungsprojekten und abgeleitete Produkte wie DEMs. Ohne STAC erfordert die Suche nach relevanten Daten die Kenntnis von Ordnerstrukturen, das Verständnis von Namenskonventionen und das manuelle Überprüfen von Datumsbereichen. Mit STAC fragen Sie eine einzelne API ab:

from pystac_client import Client

catalog = Client.open("https://your-stac-api.com")

# Find all Sentinel-2 imagery for summer 2023
results = catalog.search(
    collections=["sentinel-2-l2a"],
    bbox=[-122.5, 47.5, -122.0, 48.0],
    datetime="2023-06-01/2023-08-31",
    query={"eo:cloud_cover": {"lt": 20}}
)

for item in results.items():
    print(f"{item.id}: {item.datetime}")

Wann sollten Sie NICHT diese Formate verwenden

Cloud-native Formate sind nicht überall überlegen. Hier ist, wenn traditionelle Ansätze möglicherweise angemessen sind:

Kleine, häufig aktualisierte Datensätze

Unter 100MB mit täglichen Updates - der Overhead für die Wartung der COG-Struktur kann die Vorteile übersteigen.

Datenströme in Echtzeit

COG und GeoParquet sind für Daten im Ruhezustand konzipiert. Für IoT-Streams schauen Sie sich Kafka oder Streaming-GIS-Lösungen an.

Desktop-lastige Workflows

Wenn Benutzer hauptsächlich in Desktop-GIS mit lokalem Dateizugriff arbeiten, manifestieren sich die Vorteile der Range-Anfrage nur über HTTP.

Regulatorische Formatanforderungen

Wenn Verträge Shapefile- oder FGDB-Bereitstellung angeben, benötigen Sie diese Formate unabhängig von der internen Infrastruktur.

Integration mit modernen Datenplattformen

Der strategische Wert von Cloud-nativen Geospatialformaten ist die Integration mit der Enterprise-Dateninfrastruktur.

DATABRICKS

Native GeoParquet-Unterstützung über Spark. Die Mosaic-Bibliothek fügt räumliche Funktionen hinzu. Speichern Sie in Delta Lake für ACID-Transaktionen und Zeitreisen.

df = spark.read.format("geoparquet").load("s3://bucket/parcels/")
df.select(st_area("geometry"), st_centroid("geometry")).show()

SNOWFLAKE

GEOGRAPHY-Typ handhabt WKT/WKB-Geometrien mit nativen räumlichen Funktionen. Verwenden Sie externe Tabellen, die auf GeoParquet im Cloud-Speicher verweisen.

SELECT parcel_id, ST_AREA(geometry) as area_m2
FROM parcels_ext
WHERE ST_CONTAINS(aoi_polygon, geometry);

BIGQUERY

BigQuery GIS bietet einen nativen GEOGRAPHY-Typ mit umfangreichen räumlichen Funktionen. Fragen Sie GeoParquet direkt ab. Partitionieren Sie Tabellen nach Geografie, um Kosten zu optimieren.

Netzwerktopologie-Diagramm zeigt Cloud-Native-Formate im Zentrum, verbunden mit Data Lake, Compute und AI-Knoten

Der moderne Stack: Cloud-native Formate integrieren sich nahtlos mit der Enterprise-Dateninfrastruktur.

Migrationsstrategie: Ein praktischer Fahrplan

Migration ist kein Wochenendprojekt. Hier ist ein schrittweiser Ansatz, der Risiken minimiert.

Japanische Tuschetrittstein zeigt Evolution von Legacy zu modernen Formaten

Der Modernisierungsweg: jeder Schritt leichter als der letzte.

01

Bewertung

2-4 Wochen
  • Inventarisieren Sie Datenbestände nach Formattyp
  • Analysieren Sie Zugriffsmuster (wer fragt was, wie oft)
  • Quantifizieren Sie aktuelle Schmerzpunkte
  • Identifizieren Sie Piloten-Kandidaten
02

Machbarkeitsstudie

4-6 Wochen
  • Konvertieren Sie Pilot-Datensätze (Raster -> COG, Vektor -> GeoParquet)
  • Erstellen Sie STAC-Katalogeinträge
  • Benchmarks rigoros mit echten Workflows
  • Validieren Sie die Plattformintegration
03

Pilot-Produktion

2-3 Monate
  • Migrieren Sie den ersten produktiven Workflow
  • Führen Sie zunächst parallele Operationen durch
  • Überwachen Sie täglich, dokumentieren Sie Probleme
  • Bauen Sie interne Expertise auf
04

Vollständiger Rollout

3-6 Monate
  • Systematische Migration priorisiert nach ROI
  • Formatkonvertierung beibehalten, wenn auf Daten zugegriffen wird
  • Archivieren Sie Originalformate, bis Sie sicher sind
  • Deaktivieren Sie veraltete Infrastruktur

Fragen, die Sie vorher stellen sollten

1. Welches spezifische Problem lösen Sie?

"Cloud-native ist modern" ist kein Business Case. Quantifizieren Sie den Schmerz: verlorene Stunden, ausgegebene Dollar, verpasste Gelegenheiten.

2. Verfügen Sie über die Fähigkeiten?

COG und GeoParquet erfordern andere Tools als traditionelle GIS. GeoPandas, DuckDB und Cloud-Plattformen sind möglicherweise neu für Ihr Team. Siehe unseren Leitfaden zum Trainieren von GIS-Teams für Workflow-Automatisierung.

3. Wie ist Ihr Zugriffsmuster?

Wenn die meisten Abfragen Vollsdatensatz-Exporte sind, helfen Range-Anfragen nicht. Wenn Abfragen bestimmte Regionen anvisieren, sind die Vorteile erheblich.

4. Wer sind Ihre Benutzer?

Desktop-GIS-Benutzer sehen weniger Vorteil. Cloud-native Analysten, Data Scientists und Anwendungsentwickler sehen mehr.

5. Welcher ist Ihr Zeitplan?

Eine gut durchgeführte Migration dauert 6-12 Monate für eine große Organisation. Eine hastige Migration schafft technische Schulden.

6. Was ist Ihr Fallback?

Wenn die Migration fehlschlägt, können Sie zurückgehen? Behalten Sie Originaldaten, bis das neue System nachgewiesen ist.

Cloud-native Geospatialformate (COG, GeoParquet, STAC) sind nicht magisch. Sie sind technische Lösungen für spezifische Probleme.

Für Organisationen mit großen Geospatial-Datenmengen, Cloud-Infrastruktur und analytischen Workloads können diese Formate 10-1000x Leistungsverbesserungen liefern und Geopositionsdaten in moderne Datenplattformen integrieren.

Die Entscheidung ist nicht ideologisch. Es ist praktisch: Quantifizieren Sie Ihre aktuellen Kosten, schätzen Sie die Verbesserung und bewerten Sie, ob die Investition sinnvoll ist.

Überspringen Sie die manuelle Arbeit

Wenn Sie diesem Leitfaden gefolgt sind, verstehen Sie nun die Formate. Aber das Konvertieren von Terabyte an Legacy-Daten zu COG, GeoParquet und STAC ist nicht einfach ein Wochenendprojekt.

Wenn Sie große Archive manuell migrieren, führen Sie Inkonsistenzen ein - unterschiedliche Komprimierungseinstellungen, unvollständige Metadaten, fehlerhafte räumliche Indizes. Sechs Monate später entdecken Sie Grenzfälle, die Ihre Pipelines brechen.

Es gibt eine deterministische Alternative.

Unsere KI-Agenten konvertieren Daten mit standardisierten Einstellungen - dieselbe Kompression, dieselben Metadatenschemas, dieselben Validierungsmuster für jede Datei. 80 % automatisiert, 20 % menschliche Expertise für Grenzfälle.

Buchen Sie einen Anrufum zu sehen, wie wir Ihre Datenmigration angehen würden.

Workflow-Automatisierung Einblicke erhalten

Monatliche Tipps zur Automatisierung von GIS-Workflows, Open-Source-Tools und Erkenntnisse aus Enterprise-Deployments. Kein Spam.

NÄCHSTER SCHRITT

Bereit, Ihre Geoposition-Infrastruktur zu bewerten?

Unsere kostenlose Workflow-Bewertung analysiert Ihre aktuellen Datenmengen, Zugriffsmuster und Schmerzpunkte, um zu bestimmen, ob eine Cloud-native Migration für Ihre Organisation sinnvoll ist.