Big Data

Der weit gefasste Begriff "Big Data" beinhaltet Methoden und Werkzeuge für das Zusammenführen sehr großer Datenmengen aus heterogenen, sich häufig verändernden Datenquellen. Dabei bezieht sich "Big" gleichermaßen auf das große Datenvolumen, die hohe Übertragungsgeschwindigkeit und die Bandbreite der Datenquellen. In Zeiten des "Social Internet" stellen neben der schnell wachsenden Datenmenge auch die steigende, meist unbekannte Frequenz der Aktualisierung sowie die sehr unterschiedlichen Qualitäten der Daten besondere Herausforderungen dar. Big Data Techniken finden v.a. Anwendung für maschinelle Lernverfahren, beispielsweise zur Mustererkennung oder Vorhersage von Trends, die mit dem Klimawandel zusammenhängen.

Technisch sieht das Prinzip der "Lambda-Architektur" keine Aktualisierung von Daten mehr vor, sondern fügt jede Aktualisierung als neuen Datensatz hinzu. In einer dreistufigen Architektur verarbeitet ein "Batch-Layer" unmittelbar die einfließenden Daten und gibt sie an einen hoch skalierbaren "Serving Layer" weiter, der die Webanfragen beantwortet. Parallel dazu stellt ein temporärer "Speed Layer" zeitkritische Daten schnell bereit, bis der "Serving Layer" auf dem aktuellsten Stand ist. Die Datenverarbeitung wird bei Big Data Strukturen auf mehrere Knoten eines Rechnerclusters verteilt, da die Leistungsfähigkeit einzelner Rechnerinstanzen schnell überschritten wird.

Typische Big Data Szenarien im Umweltbereich sind z.B.:

  • die Verknüpfung großer Geodatenbestände mit Simulations- und Prognoserechnungen in der Klimaforschung bzw. Hochwasser-Vorhersage,
  • die zeitnahe Berechnung von Prognosemodellen, etwa zur Ausbreitung von Schadstoffen oder gebietsfremden Arten (Neobiota),
  • die hoch skalierbare Bereitstellung von Umweltinformationen im Vorsorge- oder Krisenfall,
  • mobile Crowdsourcing-Angebote für die Öffentlichkeit wie Meldefälle von Neophyten.

BigGIS

Im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Forschungsprojekt "BigGIS" wurde im UIS BW erprobt, wie sich Big Data Technologien in der Praxis mit Geoinformationssystemen (GIS) verbinden lassen. Forschungsgegenstand war die Ausbreitung und Risikobewertung des Schädlingsbefalls von Obstkulturen. Dabei flossen neben umfangreichen Geobasisdaten wie dem digitalen Geländemodell u.a. auch Klima- und Wetterdaten des Deutschen Wetterdienstes ein.

Zur Bereitstellung der erforderlichen Speicher- und Rechenressourcen wurden in einer Virtualisierungsschicht die container-basierten Techniken Docker und Rancher eingesetzt. Auf Ebene der Datenspeicherung kommen neben modernen In-Memory-Datenbanken (mit Datenspeicherung im Arbeitsspeicher) auch etablierte Geodatenbanken (wie Postgres/PostGIS) zur Anwendung. Dokumentorientierte NoSQL-Ansätze eignen sich besonders für sehr große Datenvolumen, die z.B. im Bereich der bildbasierten Fernerkundung entstehen. Für die Datenanalyse und das maschinelle Lernen wurden unterschiedliche verfügbare Tools und Frameworks (Flink, R und Spark) getestet. Lernalgorithmen aus mehreren Data-Mining-Systemen wurden dabei zur Erstellung räumlich-zeitlicher Befallsprognosen genutzt. Die hierbei entwickelten Visualisierungsmethoden können in unterschiedlichsten Big Data Projekten des UIS BW eingesetzt werden.