Time series data mining methods
Institution: | Humboldt University of Berlin |
---|---|
Department: | |
Year: | 2015 |
Keywords: | Statistik; Wirtschaft; Data Mining; Data Mining; Zeitreihen Data Mining; Big Data; Hochdimensional; Knowledge Mining; Literaturüberblick; Time Series Data Mining; Big Data; High Dimensionality; Knowledge Mining; Review; ddc:330 |
Record ID: | 1099489 |
Full text PDF: | http://edoc.hu-berlin.de/docviews/abstract.php?id=41733 http://edoc.hu-berlin.de/master/kleist-caroline-2015-03-25/PDF/kleist.pdf http://www.nbn-resolving.de/urn:nbn:de:kobv:11-100229323 |
Heutzutage sind die Möglichkeiten der Datensammlung und -Speicherung unvorstellbar weitreichend und somit können Zeitreihendatensätze mittlerweile bis zu einer Billion Beobachtungen enthalten. Die Aufgabe von Data Mining ist es, versteckte Informationen aus dieser Datenschwemme herauszufiltern. Während es für Querschnittsdaten viele verschiedene und sehr gut entwickelte Techniken gibt, hinken die Zeitreihen Data Mining Methoden weit hinterher. Die Forschungspraxis hat sich in diesem Bereich noch nicht auf standardisierte Vorgehensweisen geeinigt. Dieser Literaturüberblick stellt zunächst die typischen Probleme, die Zeitreihen mit sich bringen, dar und systematisiert daraufhin die von der Forschungsgemeinde vorgeschlagenen Lösungsansätze hierfür. Die wichtigsten Ansätze werden anhand von Google Trends Daten illustriert. Darüber hinaus werfen wir einen Blick auf aktuelle Forschungsströme und zeigen noch offene Forschungsfragen auf. Today, real world time series data sets can take a size up to a trillion observations and even more. Data miners’ task is it to detect new information that is hidden in this massive amount of data. While well known techniques for data mining in cross sections have been developed, time series data mining methods are not as sophisticated and established yet. Large time series bring along problems like very high dimensionality and up to today, researchers haven’t agreed on best practices in this regard. This review gives an overview of the challenges of large time series and the proposed problem solving approaches from time series data mining community. We illustrate the most important techniques with Google trends data. Moreover, we review current research directions and point out open research questions.