Untersuchung der Effektivität von Clustermethoden zur Analyse von räumlich verteilten Zeitreihen aus InSAR Messungen
Journal: Markscheidewesen, 2024131, 1: 18 - 26
Sakiri, Selmin, 2024: Untersuchung der Effektivität von Clustermethoden zur Analyse von räumlich verteilten Zeitreihen aus InSAR Messungen. In: Markscheidewesen, Band 131, 1: 18 - 26, DOI: https://doi.org/10.23689/fidgeo-6193.
|
In dieser Arbeit liegt der Fokus auf der Datensegmentierung von Zeitreihen in der Kavernenspeicheranlage Etzel. Die Oberflächenbewegungen in dieser Anlage werden über einen bestimmten Zeitraum hinweg mithilfe der Radarinterferometrie (InSAR) von Satelliten erfasst. Das Hauptziel besteht darin, die horizontalen Verschiebungen und vertikalen Senkungen zu segmentieren, wobei Cluster-Algorithmen aus dem Bereich des maschinellen Lernens, insbesondere K-Shape und Gaußsche Mischmodelle (GMM), eingesetzt werden.
Die Studie beginnt mit der Anwendung der K-Shape-Methode, einer modifizierten Version des bekannten K-Means-Algorithmus. Zusätzlich kommt die GMM-Methode zum Einsatz. Die Anzahl der Cluster wird mithilfe geeigneter Schätzmethoden ermittelt, und die Datensätze werden mit unterschiedlichen Cluster-Anzahlen (von n=2 bis 6) segmentiert.
Die Ergebnisse zeigen, dass sowohl K-Shape als auch GMM ähnliche Trends, Ausreißer und Charakteristiken der Datensätze erkennen. Allerdings gibt es Unterschiede in Bezug auf die optimale Anzahl von Clustern. Während beide Methoden für die horizontalen Daten zwei Cluster als optimal einstufen, tendieren die GMM bei den vertikalen Daten zu drei bis vier Clustern, während K-Shape hier wiederum zwei als ausreichend bewertet. Dieser Unterschied resultiert aus der schiefen Verteilung der vertikalen Datensätze und der Anwendbarkeit von GMM bei Normalverteilungen.
Die visuellen Ergebnisse zeigen, dass die Cluster-Verteilung in beiden Methoden ähnlich ist, und saisonale Komponenten in den Plots beider Methoden erkennbar sind. Zusätzlich erfolgt ein Vergleich der Ergebnisse mit älteren Daten und einem Prognosemodell, um die Anpassung und Verifizierung beider Clustermethoden zu ermöglichen.
Obwohl das Clustering von Zeitreihen für Bodenbewegungen vielversprechende Ergebnisse liefert, bleibt die Validierung aufgrund der Black-Box-Problematik durch Prognosemodelle und konventionelle Ergebnisse von entscheidender Bedeutung. Statistische Kennzahlen eignen sich für weniger komplexe Fälle, bieten jedoch begrenzte Möglichkeiten zur Datenbewertung und Interpretation. In this work, the possibilities of data segmentation (clustering) of time series using algorithms of unobserved learning (machine learning) are examined.
The caverns used for storing fossil fuels in the Etzel cavern storage facility cause surface movements. These were measured over a specific period using Radar interferometry methods by satellites, specifically InSAR. The aim of this work was to segment the observed horizontal and vertical displacements. Specific cluster algorithms from the field of machine learning, known as cluster algorithms in Pandas, were used to cluster (segment) the existing datasets based on certain features and properties of the time series. First, the K-Shape method, an adapted version of the well-known KMeans algorithm, was applied. Second, the Gaussian Mixture Models (GMM) method was used, whereby the time series were separated based on statistical metrics. The number of possible clusters was estimated using the Ellbow method and the datasets were segmented with different cluster numbers ranging from n=2-6
Both K-Shape and GMM provided similar results in terms of trends, outliers, and characterization of the datasets. However, differences were observed in terms of quality and numerical results Thus, the two methods deliver a different “optimal” number of clusters. While both methods classify two clusters as optimal for the horizontal data, the GMM tends towards three to four clusters for the vertical data, while K-Shape again rates two as sufficient. This difference is due to the skewed distribution of the vertical data sets. GMM are used in normal distributions, resulting in a difference to the K-shape results. The distribution of the time series clusters is also similar in the visual results, and seasonal components are evident and similar in the plots of both methods.
Through additionally comparing of the results with older data and a forecast model, these two clustering methods can be adapted and verified. Clustering using statistical metrics is helpful for less complex cases as it provides an initial insight, but it offers limited possibilities in terms of evaluating and interpreting the data itself. Clustering of time series in the field of ground movements proves to be a promising approach to attribute characteristics to the datasets. However, the respective results need to be verified with forecasting models and conventional results given the black-box problem.
Statistik:
View StatisticsCollection
- Markscheidewesen [11]
Subjects:
Kavernenfeld EtzelClustering
Maschinelles Lernen
Bodenbewegungen
Radarinterferometrie
Etzel cavern field
machine learning
ground movements
radar interferometry