STRG.Agents Jahr 3
STRG.Agents: User-Interaktionsvorhersage mittels Virtual Agent Simulationen durch Multi-Agent Reinforcement-Learning
Programm / Ausschreibung | IWI, IWI, Basisprogramm Ausschreibung 2023 | Status | abgeschlossen |
---|---|---|---|
Projektstart | 01.07.2023 | Projektende | 30.06.2024 |
Zeitraum | 2023 - 2024 | Projektlaufzeit | 12 Monate |
Keywords |
Projektbeschreibung
Im Rahmen dieses Projekts möchten wir ein vollkommen neuartiges Softwaresystem (Library) entwickeln, um die Vorhersage (Prediction) von User-Interactions auf einem E-Commerce-Portal mittels simulierten, virtuellen Usern (Virtual Agents) erstmals zu ermöglichen. Mit diesen synthetischen Informationen soll die Optimierung der Ausspielung von Inhalten unter Einhaltung aktueller und zukünftiger Datenschutzanforderungen ermöglicht werden.
In Ergänzung zu den Global Players im E-Commerce (Amazon, ...) sind in den vergangenen Jahren zahlreiche weitere (oft kleinere) E-Commerce-Portale entstanden. Um die User Journey in einem E-Commerce-Portal zu optimieren, ist es notwendig, das Verhalten der User auf solchen Portalen zu erfassen und auf Basis einer umfassenden Datenanalyse Verhaltensmuster zu erkennen. In einem weiteren Schritt können die Interessen der User errechnet und mit den Kategorien des Contents bzw. der Produkte verschränkt werden. Die Verbesserung der User-Experience und die Optimierung der Ausspielung von Inhalten dienen dazu, die Conversions auf dem Portal zu erhöhen und die Kundenbindung durch positive Nutzer-Erfahrungen zu stärken. Damit sollen europäische Online-Portale in die Lage versetzt werden, mit der mächtigen Konkurrenz aus den USA gleichzuziehen.
Wir werden auch berücksichtigen, dass sich die Ziele des Users während der Experience auf einem E-Commerce–Portal ändern können (es wird z.B. ein andere Produkt gekauft, und nicht das ursprünglich gesuchte). Für diese Aufgabe sind im Rahmen der Forschung für diesen vollkommen neuen Ansatz - der noch von keinem Anbieter verfolgt wird - geeignete Algorithmen zu entwickeln, zu erproben und zu validieren.
Zentrale Entwicklungsinhalte:
*) Aufbau Prior Domain Knowledge - “Fact Finding”: Anhand von Tracking-Daten (anonymisierte Verhaltensdaten von Usern sowie Logfiles von bestehenden Webportalen) soll ein Pool von elementaren User-Interface-Elementen mit Parametrisierungen erarbeitet werden, um danach mithilfe von “Transduktivem Transfer Learning” Modelle zu trainieren, sodass für das Verhalten auf beliebigen anderen Webportalen Vorhersagen berechnet werden können.
*) Portal Modellierung: Es soll ein System entwickelt werden, um e-commerce-Portale in einer abstrakten Weise abzubilden bzw. modellieren zu können. Ziel ist es, einerseits bestehende Portale weitgehend automatisiert in die Abstraktion abbilden zu können (automatische Analyse und Transformation).
*) Modellierung von Usern als Agents: Die User von Webportalen (insbesondere e-commerce-Portale) sollen als sogenannte “Agents” abgebildet werden können, die auf mehrfache Weise - unter anderem anhand von Soziodemographien - parametrisierbar sind. Auf diese Weise soll unterschiedliches Verhalten von Usern aus unterschiedlichen Fokus-Gruppen abgebildet werden können.
*) Durchführung von Simulationen: Es sollen unterschiedliche Algorithmen, v.a. aus dem Bereich des Reinforcement Learnings, aber auch aus der Kontroll-Theorie untersucht und deren Ergebnisqualität und Performance verglichen werden.
Als Use Case Partner sind für das Projekt ÖAMTC, ÖGB und Weidwerk mit an Bord.
Nach Abschluss des Projekts soll eine umfassende Library bzw. ein System vorliegen, mit welcher e-commerce-Projekte auf mehreren Ebenen und in mehreren Phasen optimiert werden können. Dieses Software Produkt kann danach für unterschiedliche Web-Portale und e-commerce-Plattformen eingesetzt werden. Multi-Agent-Methoden zur Simulation mit dem Einsatz von Deep Reinforcement Learning werden im Bereich der E-Commerce- oder Web-User-Datenanalyse noch nicht verwendet und sind somit ein vollständig neues Forschungsgebiet. Mit den geplanten Entwicklungen werden wir in der Branche eine neuartige und einzigartige Lösung für kleinere und mittlere e-commerce-Portale bieten, um diese als Gegengewicht zu den großen US-Plattformen positionieren zu können.
Endberichtkurzfassung
In diesem Forschungsprojekt haben wir untersucht, wie wir unsere Kunden dabei unterstützen können, bestehende oder zukünftige E-Commerce-Portale zu optimieren. Wir verwenden dazu in erster Linie Methoden des Reinforcement Learnings, wobei wir uns stets auf diskrete Aktions- und Zustandsräume beschränken.
Den Ansatz, den wir zur Optimierung der Portale verfolgen, beschreiben wir im Detail in unserem Paper “Bridging the Gap: Conceptual Modeling and Machine Learning for Web Portals” (DOI: 10.1007/978-3-031-47112-4_10).
Nach dem Erstellen eines konzeptuellen Modells eines Portals, dem Abbilden der möglichen Zustände in einer Graphenstruktur, der Definition von möglichen Aktionen an jedem Knoten sowie dem Entwickeln einer Reward-Funktion sind wir in der Lage, Simulationen mit parametrisierten Agents durchzuführen. Nachdem das Setup (die User-Journey) verändert wurde, können die Simulationen wiederholt und die Ergebnisse verglichen werden.
Durch sogenannte Personality Traits können unterschiedliche “Persönlichkeiten” von realen Usern nachgeahmt werden. Dabei ist es durch die Einführung von Determination Levels gelungen, das Konzept der Personality Traits mit einer dynamischen Reward-Funktion zu verknüpfen.
Die in diesem Projekt entwickelten Algorithmen wurden, unter Verwendung der genannten Software-Komponenten, intensiven, mehrstufigen Tests unterzogen: Zunächst wurden diskrete Environments aus der Library Gymnasium verwendet, dann ein - noch relativ einfaches - Shopping-Environment. Weiters wurde RLHF (Reinforcement Learning from Human Feedback) sowie Imitation Learning untersucht.
Stabile Ergebnisse konnten bei der Untersuchung von Trajektorien erzielt werden. Unter Trajektorien verstehen wir hier Teilgraphen innerhalb des gesamten Graphen des Webportales, welche jeweils einem Besuch eines Users auf dem Webportal entsprechen. Eine wesentliche Aufgabe bestand hier in der Entwicklung einer tragfähigen Metrik zur Bestimmung der Ähnlichkeit zwischen Trajektorien.