- BigQuery GIS: nativer GEOGRAPHY-Typ mit S2-Zell-Indizierung - Spatial SQL auf Milliarden-Zeilen-Datensatzen in 5-15 Sekunden. Koordinatenreihenfolge ist Laengengrad zuerst, Breitengrad danach (der haufigste Fehler, der jedes Team trifft)
- Dataproc mit Sedona: verteilte Raumverarbeitung auf verwaltetem Spark. Serverless Dataproc für einmalige Jobs, persistente Cluster für schwere Raster- und Vektor-Workloads. GCPs Antwort auf AWS Glue Spark ETL
- Cloud Composer (verwalteter Airflow): orchestriert mehrstufige GIS-Pipelines über BigQuery, Dataproc und Cloud Run. Ersetzt Cron-basierte Skripte und manuelle Koordination
- Die lokale Fallback-Falle: Der haufigste GCP-Migrationsfehler ist Code, der Raumoperationen in BigQuery-SQL ausführen sollte, aber stillschweigend auf lokales pandas/GeoPandas zuruckfallt. Die Pipeline 'funktioniert', ist aber 100-1000x langsamer
Google betreibt die leistungsstarkste Geospatial-Computing-Plattform der Welt - Earth Engine. Und die grosste cloud-native Spatial-SQL-Engine - BigQuery GIS. Doch die Wahl zwischen ihnen, ihre Kombination oder die Entscheidung, beide nicht zu benötigen, ist der Punkt, an dem die meisten Teams nicht weiterkommen.
Dieser Beitrag analysiert jeden GCP-Geodatendienst mit echten Abfragezeiten, tatsachlichen Kosten und ehrlichen Einschatzungen zu deren Schwachen. Kein Vendor-Marketing. Kein Nachpaketieren von Feature-Listen. Nur das, was in der Produktion funktioniert.
Serie: Geospatial in Cloud
Dies ist Teil 3 unserer Serie "Geospatial in Cloud". Jeder Beitrag ist in sich abgeschlossen. Teil 1 behandelt Databricks. Teil 2 behandelt AWS. Lesen Sie den Beitrag, der zu Ihrem Stack passt.
Übersicht der GCP-Geodatendienste
GCPs Geospatial-Fähigkeiten verteilen sich auf sechs Dienste. Die erste Entscheidung, die Sie treffen müssen, ist zu verstehen, welchen Dienst Sie wofur einsetzen.
| DIENST | GEOSPATIAL-EINSATZ | WANN VERWENDEN |
|---|---|---|
| BigQuery GIS | Spatial SQL auf grossen Datensatzen | Milliarden von Zeilen, Ad-hoc-Raumanalyse |
| Dataproc | Verteiltes Spark mit Sedona | Schwere Raumverarbeitung, große Raster, Millionen Features |
| Cloud Composer | Verwalteter Apache Airflow | Mehrstufige Pipeline-Orchestrierung über alle GCP-Dienste |
| Earth Engine | Satellitenbildanalyse | Multi-temporale Rasteranalyse, Veranderungserkennung |
| Cloud Run | Containerisierte Geospatial-APIs | Verarbeitungsdienste, Tile-Server, APIs |
| Cloud Storage (GCS) | COG/GeoParquet-Speicher | Primarer Data Lake (wie S3) |
| Vertex AI | ML auf Geodaten | Klassifizierungs- und Prognosemodelle |
| Dataflow (Beam) | Streaming-Geodatenverarbeitung | Echtzeit-Sensordaten, IoT |
Die meisten Geospatial-Teams auf GCP nutzen vier dieser Dienste: BigQuery GIS für die Analyse, Dataproc für schwere Raumverarbeitung, GCS für die Speicherung und Cloud Run für die Bereitstellung. Cloud Composer verbindet mehrstufige Pipelines. Earth Engine ist das Spezialwerkzeug, das hinzugezogen wird, wenn Satellitenbilder im Spiel sind.
BigQuery GIS im Detail
BigQuery GIS arbeitet mit einem nativen GEOGRAPHY-Typ. Keine Erweiterungen, keine Plugins, kein PostGIS-artiges Setup. Raumfunktionen arbeiten direkt auf Petabyte-grossen Tabellen mit demselben SQL, das Ihre Analysten bereits schreiben.
Ein Spatial Join von 1 Milliarde Punkten gegen 50.000 Polygone dauert 8-12 Sekunden. Versuchen Sie das mit PostGIS. Die Abfrage ist Standard-SQL mit raumlichen Pradikaten - ST_CONTAINS für Point-in-Polygon, ST_DISTANCE für Nahe, ST_INTERSECTION für Uberlappung. Keine Erweiterungen zu installieren, keine Indexerstellung erforderlich. Die Syntax ist identisch mit dem, was Ihr Datenteam bereits schreibt.
KOORDINATENREIHENFOLGE: DER HAUFIGSTE FEHLER
BigQuery GIS verwendet Laengengrad zuerst, Breitengrad danach für ST_GEOGPOINT. Das ist das Gegenteil von dem, was die meisten GIS-Anwender erwarten. ST_GEOGPOINT(13.4, 52.5) bedeutet Laengengrad 13.4, Breitengrad 52.5 (Berlin). Vertauschen Sie die Werte, und Ihre Punkte landen im Ozean. Jedes Team stolpert daruber. Verwenden Sie SAFE.ST_GEOGPOINT(), das bei Koordinaten ausserhalb des gultigen Bereichs NULL statt eines Fehlers zuruckgibt - aber Vorsicht: SAFE erkennt nur Werte ausserhalb gultiger Bereiche (z.B. Laengengrad 200). Ein vertauschtes Paar wie (52.5, 13.4) statt (13.4, 52.5) liegt noch innerhalb gultiger Bereiche, und SAFE liefert stillschweigend den falschen Punkt. Visuelle Stichproben auf einer Karte sind die einzige zuverlassige Methode, um Achsenvertauschungen zu erkennen.
GEOGRAPHY unterstutzt ausschliesslich WGS84 (EPSG:4326). Wenn Ihre Quelldaten ein projiziertes Koordinatensystem verwenden (UTM, British National Grid usw.), müssen Sie vor dem Laden in BigQuery umprojizieren. Das ist eine harte Anforderung - BigQuery akzeptiert projizierte Koordinaten stillschweigend, aber Ihre Raumoperationen liefern falsche Ergebnisse. Pufferabstande werden in Metern angegeben (nicht in Grad), was tatsachlich ein Vorteil gegenuber PostGIS ist, wo man standig mit Grad-zu-Meter-Umrechnungen kampft.
Entfernungsbasierte Abfragen gegen den gesamten OpenStreetMap-Datensatz (1,5 TB, vorgeladen in BigQuerys offentlichen Datensatzen) laufen in 2-3 Sekunden. Sie können alle Krankenhauser im Umkreis von 10 km eines Punktes finden, nach Entfernung sortiert, über die gesamten OSM-Daten des Planeten. Hier hat BigQuerys Skalierung nur wenige direkte Entsprechungen - Athena und Redshift Spectrum können auf AWS ebenfalls im grossen Massstab abfragen, aber die infrastrukturlose raumliche Indizierung ist einzigartig bei BigQuery.
DIE LOKALE FALLBACK-FALLE
Der haufigste GCP-Migrationsfehler ist stillschweigend: Code, der Raumoperationen in BigQuery-SQL ausführen sollte, fallt auf lokale pandas/GeoPandas-Verarbeitung zurück. Die Pipeline “funktioniert”, ist aber 100-1000x langsamer. Das passiert, wenn Entwickler BigQuery-Ergebnisse in einen DataFrame laden und dann Shapely-Operationen lokal anwenden, statt die gesamte Raumlogik in SQL zu belassen. Prüfen Sie immer, dass Ihre Raumoperationen auf BigQuery ausgefuhrt werden (suchen Sie nach einer job_id) - und nicht stillschweigend in Python auf dem Client-Rechner berechnet werden.
ZENTRALE ERKENNTNIS: S2 vs H3 INDIZIERUNG
BigQuery GIS verwendet intern S2-Zell-Indizierung - Raumoperationen sind nicht scan-basiert, sie nutzen automatisch einen Raumindex. Kein EXPLAIN ANALYZE, keine manuelle Indexerstellung, kein Tuning. Das ist der wichtigste Unterschied zu PostGIS, wo die Erstellung und Pflege von Raumindizes ein konstanter Aufwand ist.
S2 ist der interne Abfrageindex, den Sie nicht steuern können. Für hexagonale Aggregationen auf Anwendungsebene - Heatmaps, Dichteanalysen, Einzugsgebiete - berechnen Sie H3-Indizes selbst über BigQuery-UDFs. H3 bietet konsistente hexagonale Zellen in definierten Auflosungen (Auflösung 9 für urban, 7 für regional - wie bei Databricks Mosaic). S2 optimiert Ihre Abfragen; H3 strukturiert Ihre analytische Ausgabe.
STOLPERFALLE: BIGQUERY vs GCS BENENNUNG
BigQuery-Dataset-Namen erlauben nur Unterstriche (keine Bindestriche). GCS-Bucket-Namen erlauben Bindestriche, aber keine Unterstriche. Das sind entgegengesetzte Regeln. Teams, die alles konsistent mit Bindestrichen benennen, stellen dies fest, wenn BigQuery ihren Dataset-Namen ablehnt. Legen Sie fruh eine Namenskonvention fest: Unterstriche für BigQuery-Ressourcen, Bindestriche für GCS-Buckets.
Für einen tieferen Einblick in die Dateiformate, die das ermoglichen, lesen Sie unseren Leitfaden zu cloud-nativen Geospatial-Formaten (GeoParquet, COG, STAC). GeoParquet und COG funktionieren nativ mit BigQuery und GCS.
Dataproc für schwere Verarbeitung
BigQuery übernimmt SQL-basierte Raumanalysen. Dataproc übernimmt alles andere. Wenn Sie Python-GIS-Bibliotheken (rasterio, GDAL, fiona) oder verteilte Spark-Verarbeitung mit Apache Sedona benötigen, ist Dataproc GCPs Antwort. Es ist das Äquivalent zu AWS EMR oder Glue Spark ETL - ein verwalteter Spark-Cluster, den Sie mit vorinstallierten Geospatial-Bibliotheken bereitstellen können.
Zwei Modi: Serverless Dataproc für einmalige Jobs (kein Cluster zu verwalten, Sie reichen ein PySpark-Skript ein und es wird ausgefuhrt), und persistente Cluster für interaktive Exploration oder wiederkehrende Workloads. Serverless hat Kaltstart, eliminiert aber die Clusterverwaltung vollständig. Bei persistenten Clustern installieren Initialisierungsaktionen GIS-Bibliotheken - geopandas, rasterio, fiona, shapely, apache-sedona - was 2-5 Minuten zum Clusterstart hinzufugt.
| ANWENDUNGSFALL | MASCHINENTYP | ARBEITSSPEICHER | HINWEISE |
|---|---|---|---|
| Kleine Vektoren | n2-standard-4 | 16 GB | Einfache Spatial Joins, Formatkonvertierung |
| Große Vektoren | n2-highmem-8 | 64 GB | Millionen Features, komplexe Spatial Joins |
| Raster | n2-highmem-16 | 128 GB | Fensterbasierte Rasterverarbeitung, große COGs |
| ML + Spatial | a2-highgpu-1g | 85 GB + GPU | GPU-beschleunigte ML-Inferenz auf Geodaten |
Sedona-Integration: Ubergeben Sie Sedona-JAR-Koordinaten über das --properties-Flag beim Einreichen von Dataproc-Jobs. Sedona bietet verteiltes Spatial SQL (ST_Intersects, ST_Buffer, ST_Union_Aggr) über den Spark-Cluster. Lesen Sie GeoParquet von GCS, fuhren Sie Raumoperationen aus und schreiben Sie Ergebnisse zurück nach GCS oder laden Sie sie direkt über den BigQuery-Connector in BigQuery. Das ist das Muster für schwere raumliche ETL, die BigQuery-SQL allein nicht bewaltigen kann - Dissolves, komplexe Unions, Raster-Zonenstatistiken.
Die GCS-Schreiblimitierung ist identisch mit S3 und Databricks Volumes: GCS ist Objektspeicher ohne Dateisystem-Semantik. GeoTIFF- und GeoPackage-Schreibvorgange, die Seek-Operationen erfordern, schlagen stillschweigend fehl. Schreiben Sie zuerst nach /tmp auf dem Dataproc-Knoten und laden Sie die fertige Datei dann nach GCS hoch. Das ist dasselbe zweistufige Schreibmuster, das jede Cloud-Plattform für GDAL-basierte Formate erfordert.
Eine verwandte Falle: os.path.exists() und Path(...).exists() funktionieren nicht mit GCS-Pfaden. Sie geben stillschweigend False zurück, selbst wenn die Datei existiert. Verwenden Sie stattdessen den google.cloud.storage-Client mit blob.exists(). Das trifft Teams, die lokale Dateipruefungsmuster in die Cloud portieren, ohne die Existenzprufungen anzupassen.
Cloud Composer (verwalteter Airflow) orchestriert mehrstufige Pipelines über BigQuery, Dataproc und Cloud Run. Eine typische GIS-Migrationspipeline: Rohdaten in BigQuery laden (BigQueryInsertJobOperator), Raumanalyse in SQL ausführen, dann schwere Rasterverarbeitung an Dataproc ubergeben (DataprocSubmitPySparkJobOperator). Composer verwaltet Abhangigkeiten, Wiederholungen und Zeitplanung - und ersetzt die Cron-basierten Skripte und die manuelle Koordination, auf die die meisten GIS-Teams heute angewiesen sind. Die Umgebungserstellung dauert 15-25 Minuten, aber einmal eingerichtet, übernimmt er die Orchestrierung, die Step Functions auf AWS leistet.
WANN WAS VERWENDEN
BigQuery GIS für SQL-basierte Raumanalysen (Joins, Entfernungsabfragen, Aggregationen). Dataproc + Sedona für schwere raumliche ETL, die Python-Bibliotheken oder verteilte Verarbeitung jenseits von SQL erfordert (Dissolves, komplexe Geometrieoperationen, Rasterverarbeitung). Cloud Composer um sie in automatisierten Pipelines zu verbinden. Versuchen Sie nicht, alles in BigQuery zu machen - komplexe Geometrieoperationen gehoren in Dataproc. Versuchen Sie nicht, alles in Dataproc zu machen - einfache SQL-Analysen sind 10x schneller in BigQuery.
Earth Engine: Ehrliche Einschatzung
Earth Engine ist für eine spezifische Klasse von Problemen ausserordentlich leistungsfahig. Er wird jedoch auch masslos uberstrapaziert für Probleme, für die er nie konzipiert würde. Hier ist, wo er wirklich konkurrenzlos ist - und wo er mehr Probleme schafft als lost.
Wo Earth Engine unubertroffen ist
Über 70 Petabyte Satellitenbilder - kostenlos
Landsat, Sentinel, MODIS, VIIRS - alle vorverarbeitet und analysebereit. Diese Daten selbst herunterzuladen würde Monate dauern und allein für Ubertragungsgebuhren Tausende kosten.
Multi-temporale Analyse in Minuten
Die Berechnung einer NDVI-Zeitreihe über 5 Jahre für ein 10 km x 10 km grosses Gebiet dauert unter einer Minute. Lokal wurden Sie Tage mit dem Herunterladen von Bildern verbringen, bevor Sie uberhaupt mit der Verarbeitung beginnen können.
Integrierte Veranderungserkennung und Klassifizierung
Entwaldungsverfolgung, Überwachung der Stadtentwicklung, Klassifizierung von Nutzpflanzen - Algorithmen sind eingebaut und die Daten befinden sich am selben Ort. Keine Datenbewegung.
Wo Earth Engine uberdimensioniert oder falsch ist
1. Vektoranalyse
Earth Engine ist raster-zentriert. Vektoroperationen sind langsam und begrenzt verglichen mit BigQuery GIS oder PostGIS. Spatial Joins auf Vektordatensatzen, die in BigQuery Sekunden dauern, benötigen in Earth Engine Minuten - und die API ist für SQL-geschulte Analysten weit weniger intuitiv.
2. Benutzerdefinierte Verarbeitungspipelines
Das Ausfuhrungsmodell von Earth Engine ist intransparent. Sie können Parallelitat, Speicherzuweisung oder Ausfuhrungsreihenfolge nicht steuern. Für komplexe mehrstufige Pipelines, bei denen vorhersagbares Verhalten erforderlich ist, bietet Cloud Run mit einem eigenen GDAL/rasterio-Container volle Kontrolle.
3. Integration mit Nicht-Google-Tools
Daten aus Earth Engine in Ihr Data Warehouse, Dashboard oder nachgelagerte Pipeline zu uberfuhren ist muhsam. Exporte sind asynchron und können Stunden dauern. Wenn Ihre Architektur Snowflake, Databricks oder eine andere Nicht-Google-Analyseplattform umfasst, planen Sie erheblichen Integrationsaufwand ein.
4. Reproduzierbarkeit
Earth-Engine-Code lauft auf Googles Servern mit nicht dokumentierter Infrastruktur. Eine exakte Reproduktion von Ergebnissen über die Zeit ist nicht garantiert. Für regulierte Branchen (Versicherung, Finanzen), wo Audit-Trails wichtig sind, ist das ein echtes Compliance-Problem.
5. Kostenvorhersehbarkeit
Das kostenlose Kontingent ist für die Forschung grosszugig. Aber die Preisgestaltung für den kommerziellen Einsatz ist intransparent und nutzungsabhangig. Das 5-USD/TB-Modell von BigQuery ist transparent und steuerbar. Die kommerzielle Preisgestaltung von Earth Engine erschwert die Budgetplanung.
DIE EHRLICHE EMPFEHLUNG
Verwenden Sie Earth Engine für das, wofur er am besten geeignet ist: Satellitenbildanalyse im planetaren Massstab. Verwenden Sie BigQuery GIS + Cloud Run für alles andere. Versuchen Sie nicht, Earth Engine zu einer Allzweck-Geospatial-Plattform zu machen - Sie werden mehr Zeit damit verbringen, gegen seine Einschränkungen anzukampfen als Ihr eigentliches Produkt zu entwickeln.
Cloud Run für die Verarbeitung
Cloud Run ist das unterschatzte Arbeitspferd des GCP-Geospatial-Stacks. Stellen Sie eine FastAPI + GDAL-Container-Anwendung ohne Infrastrukturmanagement bereit. Sie skaliert automatisch von 0 auf N Instanzen basierend auf dem Anfragevolumen, und Sie zahlen nur für die tatsachliche Anfrageverarbeitungszeit.
Ideal für Tile-Server, Geocoding-APIs, bedarfsgesteuerte Rasterverarbeitung und jeden Geospatial-Microservice, der skalieren muss, ohne dass Cluster-Management erforderlich ist.
Das Muster ist unkompliziert: eine FastAPI-Anwendung mit GeoPandas und rasterio, die GeoParquet von GCS liest, eine Raumoperation ausfuhrt (Intersection, Buffer, Entfernungsabfrage) und GeoJSON zuruckgibt. Die Bereitstellung erfolgt mit einem einzigen gcloud-Befehl - verweisen Sie auf Ihr Quellverzeichnis, geben Sie Region und Arbeitsspeicher an, und Cloud Run baut, stellt bereit und bedient mit HTTPS, Autoskalierung und Zero-Downtime-Deployments.
Keine Kubernetes-Manifeste. Keine Docker-Compose-Dateien. Keine Load-Balancer-Konfiguration. Für Teams, die Geospatial-APIs bereitstellen mochten, ohne Infrastrukturingenieure zu werden, ist dies der schnellste Weg. Weisen Sie mindestens 2 GB Arbeitsspeicher für jeden Container zu, der GDAL und rasterio ladt - der Kaltstart auf Cloud Run mit einem vollstandigen Geospatial-Stack dauert 3-5 Sekunden, schneller als Lambdas 8-12 Sekunden, da Cloud Run Instanzen langer warm halt.
Offentliche Datensätze: GCPs verborgene Starke
Das ist der Vorteil, über den niemand spricht. GCP hostet die grosste Sammlung vorgeladener, vorindizierter und abfragebereiter Geodatensatze auf einer Cloud-Plattform. Auf AWS oder Azure müssen Sie diese selbst herunterladen, konvertieren und laden. Auf GCP genugt ein einziger SQL-JOIN.
| DATENSATZ | GROSSE | AKTUALISIERUNGEN | KOSTEN |
|---|---|---|---|
| OpenStreetMap (Planet) | 1,5 TB | Wochentlich | Kostenlos |
| US Census | 100 GB | Jahrlich | Kostenlos |
| NOAA Wetterdaten | 500 GB | Täglich | Kostenlos |
| EPA Anlagen | 10 GB | Vierteljahrlich | Kostenlos |
| TIGER (US-Grenzen) | 50 GB | Jahrlich | Kostenlos |
Die praktische Auswirkung: Ihre eigenen Daten mit OSM-Points of Interest, Census-Demografiedaten oder Wettermustern anzureichern ist eine JOIN-Operation, keine ETL-Pipeline. Kein Data Engineering erforderlich. Keine Speicherkosten für die offentlichen Daten. Sie zahlen nur für die Abfrageberechnung (5 USD/TB gescannt).
Echte Benchmarks
Diese Zahlen stammen aus Produktions-Workloads, nicht aus synthetischen Tests. Jede Operation würde mit Standard-GCP-Preisen in europe-west1 gemessen.
GCP GEOSPATIAL BENCHMARKS - PRODUKTIONS-WORKLOADS
0,25 USD pro Abfrage
0,01 USD pro Abfrage
Kostenlos (Forschungskontingent)
0,0000024 USD pro Anfrage
0,30 USD pro Durchlauf
Ingest + Raumabfrage + Export, europe-west1
Kostenanalyse
Ein direkter Vergleich für ein mittelgrosses Geospatial-Team (10-30 Nutzer, 1 TB Vektordaten, regelmasige Raumanalyse-Workloads).
| WORKLOAD | GCP | ESRI ENTERPRISE | POSTGIS (SELBST GEHOSTET) |
|---|---|---|---|
| 1 TB Vektoren speichern | 20 USD/Mon (GCS) | ca. 200 USD/Mon (Enterprise) | 50 USD/Mon (RDS) |
| Raumabfragen (1 TB/Mon) | 5 USD (BigQuery) | Inklusive (Lizenz) | 0 USD (nur Rechenleistung) |
| Rasteranalyse | Kostenlos (EE Forschung) | 500 USD/Mon (Image Server) | Eigenentwicklung (rasterio) |
| API-Bereitstellung | 10 USD/Mon (Cloud Run) | 300 USD/Mon (GeoEvent) | 50 USD/Mon (VM) |
EHRLICHER VORBEHALT: ABFRAGEBASIERTE PREISGESTALTUNG KANN SCHMERZEN
BigQuery berechnet 5 USD pro gescanntem TB. Ein unachtsames SELECT * auf einer 10-TB-Tabelle kostet 50 USD. Verwenden Sie immer Partitionierung, Clustering und Spaltenauswahl, um die Kosten zu kontrollieren. Das Pauschalprei-Modell von ESRI ist tatsachlich kalkulierbarer, wenn Sie intensive, haufige Analysen durchführen. GCP ist im Durchschnitt gunstiger, hat aber eine hohere Varianz. Planen Sie entsprechend.
Wann Sie GCP für Geospatial NICHT verwenden sollten
Wir fuhren täglich Geospatial-Workloads auf GCP aus. Dennoch raten wir Kunden in diesen Szenarien davon ab:
1. Ihre Organisation ist primaraer AWS- oder Azure-Nutzer
Multi-Cloud-Komplexität rechtfertigt die Vorteile selten. Wenn Ihr Datenteam, Ihre IAM-Richtlinien und Ihre Abrechnung auf AWS basieren, fuhrt die zusatzliche Nutzung von GCP nur für Geospatial zu operativem Mehraufwand, der die Vorteile von BigQuery uberwiegt. Nutzen Sie zuerst die raumlichen Fähigkeiten Ihrer primaren Cloud. Unser AWS-Leitfaden behandelt die Alternativen.
2. Sie benötigen Echtzeit-Raumabfragen (unter 10 ms)
BigQuery hat eine minimale Abfragezeit von 1-2 Sekunden. Das ist für Analysen schnell, aber inakzeptabel für eine Raumliche API, die eine Web-Applikation bedient. Für raumliche Lookups unter 10 ms verwenden Sie PostGIS mit einem warmen Connection-Pool oder Redis mit geospatialem Indexing.
3. Sie benötigen volle Kontrolle über die Verarbeitung
Earth Engine ist eine Black Box. BigQuery abstrahiert die Ausführung. Cloud Run abstrahiert die Infrastruktur. Wenn Sie jeden Aspekt der Ausführung kontrollieren müssen - Parallelitat, Speicherzuweisung, Planungsgranularitat - erwagen Sie AWS ECS oder Bare-Kubernetes, wo Sie den gesamten Stack verwalten.
4. Sie verarbeiten sensible Daten
Earth Engine verarbeitet Daten auf Googles Infrastruktur mit eingeschrankter Kontrolle über den Datenaufenthaltsort. Für hochsensible Geodaten (Verteidigung, klassifizierte Bestande, bestimmte Finanzdaten) kann eine selbst gehostete Lösung mit vollstandiger Audit-Kontrolle erforderlich sein. BigQuery bietet hier mehr Kontrolle, Earth Engine jedoch nicht.
5. Ihr Geospatial-Workload ist klein
Wenn Sie weniger als 1 Million Datensätze verarbeiten oder weniger als 100 GB/Monat abfragen, ist PostGIS auf einem einzelnen Server für diese Workloads einfacher, gunstiger und schneller. Die Starke von BigQuery liegt im grossen Massstab. Unterhalb einer bestimmten Schwelle lohnt sich der Overhead cloud-nativer Tools nicht.
Referenzarchitektur
Ein produktiver GCP-Geospatial-Stack für ein Team mit gemischten Vektor- und Raster-Workloads. Das ist die Architektur, die wir für Kunden einsetzen, die bereits auf GCP arbeiten.

1. DATA LAKE
2. SPATIAL ETL
3. ANALYTICS
4. ORCHESTRIERUNG
5. BEREITSTELLUNG
Das Schlusselprinzip: Jeder Dienst macht eine Sache gut. BigQuery für SQL-Analysen, Dataproc für schwere raumliche ETL, Earth Engine für Rasterbilder, Cloud Run für APIs, Cloud Composer für die Orchestrierung, GCS für die Speicherung. Widerstehen Sie der Versuchung, alles über Earth Engine zu leiten oder alles als BigQuery-Stored-Procedures aufzubauen.
Für Teams, die dies mit anderen Plattformen vergleichen: Teil 1 behandelt Databricks (starker für Lakehouse-Architekturen) und Teil 2 behandelt AWS (flexibler, DIY-Ansatz).
Haufig gestellte Fragen
Kann BigQuery Geodaten verarbeiten?
Ja. BigQuery besitzt einen nativen GEOGRAPHY-Typ mit Raumfunktionen (ST_CONTAINS, ST_DISTANCE, ST_INTERSECTION und weitere). Raumabfragen auf Milliarden-Zeilen-Datensatzen werden dank automatischer S2-Zell-Indizierung in Sekunden ausgefuhrt. Keine Erweiterungen oder Plugins erforderlich.
Ist Google Earth Engine kostenlos?
Earth Engine ist für akademische und Forschungszwecke kostenlos. Kommerzielle Nutzung erfordert eine kostenpflichtige Lizenz, deren Preis vom Nutzungsvolumen abhangt. Für viele kommerzielle Geospatial-Workloads ist BigQuery GIS in Kombination mit Cloud Run kostengunstiger und kalkulierbarer.
Welcher GCP-Dienst ist am besten für die Geodatenanalyse?
Das hängt vom Datentyp ab. Für Vektoranalysen im grossen Massstab ist BigQuery GIS die beste Wahl. Für Satellitenbilder und multi-temporale Rasteranalysen ist Earth Engine unubertroffen. Für benutzerdefinierte Verarbeitungs-APIs ist Cloud Run mit GeoPandas/rasterio die flexibelste Option.
GCP verfügt über die leistungsfahigsten einzelnen Geospatial-Tools aller Cloud-Plattformen. Die Herausforderung besteht darin zu wissen, nach welchem Tool man greifen muss.
BigQuery GIS für Vektoranalysen im grossen Massstab. Earth Engine für Satellitenbilder - und für nichts anderes. Cloud Run für APIs ohne Infrastrukturaufwand. Die Teams, die GCP-Geospatial richtig einsetzen, sind diejenigen, die der Versuchung widerstehen, einen Dienst für alles zu nutzen.
Das ist das konsistente Muster in dieser gesamten Serie. Passen Sie das Tool an das Problem an. Nicht umgekehrt.
Workflow-Automatisierung Einblicke erhalten
Monatliche Tipps zur Automatisierung von GIS-Workflows, Open-Source-Tools und Erkenntnisse aus Enterprise-Deployments. Kein Spam.
