AbstractsComputer Science

Time series data mining methods

by Caroline Kleist




Institution: Humboldt University of Berlin
Department:
Year: 2015
Keywords: Statistik; Wirtschaft; Data Mining; Data Mining; Zeitreihen Data Mining; Big Data; Hochdimensional; Knowledge Mining; Literaturüberblick; Time Series Data Mining; Big Data; High Dimensionality; Knowledge Mining; Review; ddc:330
Record ID: 1099489
Full text PDF: http://edoc.hu-berlin.de/docviews/abstract.php?id=41733


http://edoc.hu-berlin.de/master/kleist-caroline-2015-03-25/PDF/kleist.pdf


http://www.nbn-resolving.de/urn:nbn:de:kobv:11-100229323


Abstract

Heutzutage sind die Möglichkeiten der Datensammlung und -Speicherung unvorstellbar weitreichend und somit können Zeitreihendatensätze mittlerweile bis zu einer Billion Beobachtungen enthalten. Die Aufgabe von Data Mining ist es, versteckte Informationen aus dieser Datenschwemme herauszufiltern. Während es für Querschnittsdaten viele verschiedene und sehr gut entwickelte Techniken gibt, hinken die Zeitreihen Data Mining Methoden weit hinterher. Die Forschungspraxis hat sich in diesem Bereich noch nicht auf standardisierte Vorgehensweisen geeinigt. Dieser Literaturüberblick stellt zunächst die typischen Probleme, die Zeitreihen mit sich bringen, dar und systematisiert daraufhin die von der Forschungsgemeinde vorgeschlagenen Lösungsansätze hierfür. Die wichtigsten Ansätze werden anhand von Google Trends Daten illustriert. Darüber hinaus werfen wir einen Blick auf aktuelle Forschungsströme und zeigen noch offene Forschungsfragen auf. Today, real world time series data sets can take a size up to a trillion observations and even more. Data miners’ task is it to detect new information that is hidden in this massive amount of data. While well known techniques for data mining in cross sections have been developed, time series data mining methods are not as sophisticated and established yet. Large time series bring along problems like very high dimensionality and up to today, researchers haven’t agreed on best practices in this regard. This review gives an overview of the challenges of large time series and the proposed problem solving approaches from time series data mining community. We illustrate the most important techniques with Google trends data. Moreover, we review current research directions and point out open research questions.