Zum Inhalt

CortecsAutoForecast

Auf Zeitreihen spezialisierte Prognosen für wirtschaftl./finanz. Anwendungen automatisiert erstellen mittels AutoML

Programm / Ausschreibung BASIS, Basisprogramm, Budgetjahr 2021 Status laufend
Projektstart 01.06.2021 Projektende 30.11.2022
Zeitraum 2021 - 2022 Projektlaufzeit 18 Monate
Keywords

Projektbeschreibung

Das Start-up “Cortecs” soll aus dem Spin-off Fellowship Projekt “SNAP” (FFG.Nr.: 874259) hervorgehen.
Im Spin-off Fellowship wurden Zusammenhänge von Twitter-Aktivitäten und Kursschwankungen von Kryptowährungen untersucht. Ziel war es, Twitter als Datenquelle für Investoren zu erschließen, um Preisbewegungen besser und schneller zu antizipieren. Die auf Twitter Nachrichten basierenden Analysen sollen Anlegern verkauft werden. Eine klare Abgrenzung zum gegenständlichen Projekt ist gegeben.
Darauf aufbauend soll im gegenständlichen Projekt ein automated Machine-Learning (ML) System namens “AutoForecast” (= Arbeitstitel) entwickelt wird. AutoForecast soll eine effiziente Erweiterung der Datenquellen und maßgeschneiderte Modelle in kurzer Zeit mit maximaler Usability ermöglichen. Neben Twitter-Daten und internen Daten des Kunden sollen auch zusätzliche externe Daten über unseren Data-Marketplace per Mausklick abonniert und in die Analyse einbezogen werden können.
Durch eine Reihe von Automatisierungen soll die Machine Learning (ML)-basierte Prognose einfach genug für Laien werden: “Wir machen Kursprognosen so einfach wie eine Google-Suche” ist nicht nur ein Slogan, sondern wird auch tatsächlich im Ergebnis so sein.
Automatisierte Machine-Learning Systeme (AutoML) können Analyse-Prozesse auf ein zeitliches Minimum reduzieren, wodurch einerseits Kosten gespart und mehr Daten bewältigt werden können. Der von uns bereitgestellte Datenkatalog, der laufend erweitert wird, soll einen Großteil dazu beitragen. AutoML liefert verbesserte Ergebnisse durch Ausschluss potentieller Fehlerquellen und könnte im Idealfall sogar von Laien bedient werden, was den Personalengpass bei Data Scientists reduziert. Im gegenständlichen Projekt soll das AutoML-System AutoForecast entstehen, welches die Arbeit der Datenbeschaffung, Datenverarbeitung und Datenanalyse vereinheitlicht, automatisiert und damit weitgehend beseitigt.


Ziel 1: Spezialisierung auf Zeitreihen
Ziel dieses Projekts ist die Erforschung und Entwicklung von AutoForecast, einer automatisierten Künstlichen Intelligenz für Zeitreihen. Der Stand-der-Technik ist bislang jedoch auf sogenannte “Batch-Verarbeitungen”ausgerichtet. Die “Batch-Verarbeitung” hat ein sehr breites Anwendungsgebiet, wie etwa die Bild- oder Textverarbeitung. Wenn eine zeitliche Abfolge der Daten gegeben ist, ist jedoch eine “Stream-Verarbeitung” besser geeignet.

Zeitreihen benötigen auf Grund der hohen Dynamik und temporalen Abhängigkeit spezielle Methoden. Wir wollen die Selektion und Kombination von speziellen Zeitreihen-Methoden automatisieren und dabei konventionelle Systeme, wie zB Sklearn-Methoden, deutlich verbessern. Die Spezialisierung auf Zeitreihen gilt als gelungen, wenn AutoForecast den Großteil manuell konfigurierter Systeme in Punkto Genauigkeit übertrifft und in der Zeitreihen-Competition M5 gut abschneidet. Konkret sollen die vorgegebenen Benchmarks um mindestens 15% MAPE (Mean Absolute Percentage Error) verbessert werden. Damit wäre AutoForecast als AutoML-System unter den besten 42 (manuell konfigurierten) Systemen der Welt.
Ein dezidiertes Nichtziel dieses Projekts ist die Adaptierung bestehender AutoML-Systeme. Ein System für Zeitreihen muss von Grund auf neu konzipiert werden. Metaphorisch gesehen wäre dies mit der Entwicklung eines Elektrofahrzeugs durch Tesla vergleichbar, bei der das gesamte Fahrzeug auf den neuen Anwendungszweck hin entwickelt wurde, anstatt lediglich Komponenten eines bereits bestehenden Fahrzeugmodells, wie bspw. den Antrieb, zu ersetzen.

Ziel 2: Skalierung auf mehrere Anwendungsfälle
AutoForecast ist für Zeitreihen konzipiert, der Parade-Anwendungsfall sind Finanzprognosen für Kurse von Finanzinstrumenten aller Art, da dies dynamische Zeitreihen sind. Im Fall von diesen Zeitreihen soll das System aber möglichst flexibel und generalisierbar funktionieren. Es soll also alle denkbaren Zeitreihen ohne spezielle Konfiguration prognostizieren können. Um dieses Ziel systematisch umzusetzen, haben wir 3 verschiedene Anwendungsszenarien aufgegriffen.


Ziel 3: Performante Ausführung
Mit automatisiertem Machine-Learning kann man dem Problem des Daten-Überflusses effektiv begegnen. Vorausgesetzt wird dabei, dass Maschinen schneller “arbeiten” als Spezialisten und somit mehr Daten in kürzerer Zeit analysieren können. Das Know-How des Spezialisten muss dabei aber mit Rechenoperationen nachgebildet werden, weshalb eine performante Ausführung essentiell ist. Durch Meta-Learning und Parallel-Computing sollen die Berechnungen beschleunigt werden. Als Benchmark wählen wir 5 Minuten für 1 Mio. Datenpunkten bei einem 64 Kern starken Rechner und orientieren uns dabei an den Anforderungen der NIPS-Konferenz (2018).

Projektergebnis:
Das Projektergebnis soll ein funktionaler Prototyp der Plattform sein, den Beta-Tester und erste “friendly-customers” durchtesten können. Um das Produkt daraufhin funktional zu 100% zur Marktreife zu bringen, muss dann noch der komplette Onboarding-Prozess und die Bezahlabwicklung implementiert werden.