Zum Inhalt

REINFORCE

Exploiting the potential of reinforcement learning for continuous optimisation of complex and dynamic systems

Programm / Ausschreibung IKT der Zukunft, IKT der Zukunft, IKT der Zukunft - 9. Ausschreibung (2020) Status laufend
Projektstart 01.01.2022 Projektende 31.12.2024
Zeitraum 2022 - 2024 Projektlaufzeit 36 Monate
Keywords Reinforcement Learning; Machine Learning; Artificial Intelligence

Projektbeschreibung

Motivation: Die Erwartungen der Verbraucher an Unternehmen steigen. Sie zwingen Unternehmen etwa dazu, eine höhere Anzahl an Produktvarianten zu produzieren oder führen zu kürzeren Produktlebenszyklen und sinkenden Stückzahlen. Für Unter-nehmen bedeuten diese Entwicklungen auch eine zunehmende Komplexität bei ihren Produktions- und Logistiksystemen. Damit Unternehmen langfristig wettbewerbs¬fähig bleiben, darf sich die zunehmende Komplexität weder auf ihre Wirtschaftlichkeit noch auf ihre Nachhaltigkeit negativ auswirken. Diese Dichotomie stellt eine Heraus-forderung dar: Wie kann eine optimale Steuerung dieser zunehmend komplexen Systeme gelingen, die resistent gegenüber unvorhergesehenen Entwicklungen im Umfeld ist? Eine Antwort darauf liefert die Digitalisierung, die dazu führt, dass immer mehr systemrelevante Daten gesammelt und gespeichert werden. Doch während die Datenmengen rasch wachsen, sind viele Unternehmen nicht in der Lage diese ang-emessen zu verwerten und Maßnahmen für die Optimierung ihrer Systeme daraus abzuleiten. Trotz der Verfügbarkeit entsprechender Daten werden wichtige Systeme in vielen Unternehmen nicht annähernd optimal gesteuert. Entscheidungen werden häufig auf Grundlage einfacher Heuristiken getroffen. Reinforcement Learning, eine Klasse von Verfahren des maschinellen Lernens, die auf das Prinzip von Versuch und Irrtum setzen, ist unter bestimmten Voraussetzungen dafür geeignet, optimale Strategien für die Steuerung komplexer Systeme zu finden. Zuletzt wurden in der Grundlagenforschung wichtige Durchbrüche erzielt, der Transfer des Ansatzes in die Praxis ist jedoch bis auf wenige Ausnahmen noch nicht gelungen.

Ziel: REINFORCE bewertet das Potenzial von Reinforcement Learning als Lösungs¬ansatz für komplexe Steuerungsprobleme. Der Ansatz wird in zwei komplementären Anwendungsfällen im Bereich intelligenter Fahrzeugsysteme implementiert und evaluiert. Sowohl bei der Steuerung des Antriebsstrangs von Personenkraftwagen als auch beim Steuern von fahrerlosen Transportsystemen, stoßen etablierte Ansätze zunehmend an ihre Grenzen. REINFORCE beschäftigt sich einerseits mit den techni-schen Aspekten des Reinforcement Learnings, also mit der Entwicklung von Algorith-men, die auf die Herausforderungen realer Szenarien zugeschnitten sind. Andererseits werden auch der Faktor Mensch sowie ökonomische Aspekte miteinbezogen. Beson-dere Aufmerksamkeit kommt der Erklärbarkeit und Vertrauenswürdigkeit der Ergeb-nisse, der Übertragung des Gelernten zurück zum Menschen und der Frage, wie die Technologie am besten in bestehende Steuerungsprozesse integriert werden kann zu.

Ergebnis: REINFORCE entwickelt auf Reinforcement Learning basierende Ansätze zur Steue¬rung komplexer Systeme und führt dabei menschliche und technische Elemente symbiotisch zusammen. Mit Fokus auf den Anwendungsbereich intelligente Fahrzeugsysteme werden zwei Pilotimplementierungen realisiert. Neben einer höhe-ren Leistungsfähigkeit des Systems wird eine Reduktion des manuellen Aufwands bei der Steuerung um bis zu 50% erwartet. Die Leistungsfähigkeit des Ansatzes wird mithilfe echter Systemdaten evaluiert und mit etablierten Ansätzen verglichen. Die Erkenntnisse können als Leitlinie dienen und den Transfer von Reinforcement Lear¬ning in die Praxis erleichtern – nicht nur im Bereich intelligenter Fahrzeugsysteme, sondern allgemein zur Lösung herausfordernder Planungs- und Steuerungsprobleme.

Abstract

Motivation: In today’s market, consumer expectations of companies are increasing. This has resulted in companies producing a higher number of product variants as well as decreasing product lifecycles and number of lots. For companies, these developments also mean an increasing level of complexity in their production and logistic systems. In order to remain competitive in the long term, this added complexity cannot come at a cost of efficiency, whether it be economic or ecological. This dichotomy presents a challenge: how to maintain optimised control of these increasingly complex systems and still be resilient to any unforeseen changes in their environment? One answer is provided by digitalisation, which has significantly increased the ability to collect and store system relevant data. However, while the volume of data has increased rapidly, many companies are not in a position to use this data to develop a meaningful strategy to optimize their systems. As a result, despite the availability of relevant data, many companies have systems running with suboptimal control. Decisions are often made on the basis of simple heuristics. Reinforcement learning, a subclass of machine learning that is based on trial and error, has the ability to tackle the problem of finding an optimal strategy of such complex systems. While recent breakthroughs have shown its potential at the level of fundamental research, open questions regarding the suitability and implementation of real-world use cases has so far prevented a successful transfer to industry.

Goal: The goal of REINFORCE is to assess the potential of reinforcement learning used to optimise complex, control problems in a way that is able to adapt to unforeseen changes in their environment. The potential is assessed in the context of two complementary use cases in the field of intelligent vehicle systems. Both in the control of the powertrain of passenger cars and in routing of driverless transport systems, established decision-making approaches are increasingly reaching their limits when it comes to dynamically achieving an optimum with respect to interdependent economic and ecological targets. REINFORCE will not only focus on the technical aspects of reinforcement learning (including the development of algorithms tailored to deal with the challenges of real-world scenarios) but also the human-centered aspects (including the explainability of results, the transfer of knowledge back to the workers and trustworthiness) and the economic aspects (including how the results can be transferred directly into integrated processes as a viable decision making tool).

Result: REINFORCE will develop reinforcement-learning based methods for the control of complex systems, integrating human and technical elements a symbiotic way. With a focus on the application area of intelligent vehicle systems, two pilot implementations will be realized. In addition to a higher performance of the system, a reduction of the manual effort for the control by up to 50% is expected. The performance of the approach will be evaluated using real system data and compared to established approaches. The findings can serve as a guideline and facilitate the transfer of reinforcement learning into practice - not only in the field of intelligent vehicle systems, but more generally for solving challenging planning and control problems.