HPsCreen

High Performance Molecular Screening at Massive Scale

Programm / Ausschreibung	IKT der Zukunft, EuroHPC, IKT der Zukunft - EuroHPC 2019	Status	abgeschlossen
Projektstart	01.11.2022	Projektende	31.10.2023
Zeitraum	2022 - 2023	Projektlaufzeit	12 Monate
Keywords	pharmacology; high performance computing; virtual screening; scheduling; performance optimization

Projektbeschreibung

LigandScout ist ein ausgereiftes Softwarepaket für das Moleküldesign in der Frühphase pharmazeutischer Forschung, das u.a. zwei wichtige Methoden zur Identifizierung potenziell bioaktiver Moleküle mittels in-silico-Methoden beinhaltet: (1) Konformerberechnung von Molekülstrukturen und (2) virtuelles Screening (VS) von Moleküldatenbanken durch Alignment-Experimente der generierten Konformationsmodelle auf funktionsbasierte Pharmakophormodelle.
LigandScout beinhaltet bereits effiziente Implementierungen für beide Methoden und unterstützt zudem elastisches Cloud Computing und die Nutzung von Compute- Clustern. Obwohl LigandScout bereits eine grundlegende Unterstützung für die Nutzung paralleler Maschinen bietet, wollen wir die Grenzen des virtuellen Screenings erweitern, um die Nachhaltigkeit des Wirkstoffentdeckungsprozesses zu erhöhen: Je mehr Verbindungen in einem bestimmten Zeitraum effektiv gescreent werden, desto mehr kostenintensive in-vitro Experimente können vermieden werden.
Das Ziel des geplanten Projekts ist es deshalb, LigandScout auf massiv-paralleler Hardware so ausführen zu können, dass der Gesamtdurchsatz beim virtuellen Screening optimiert wird. Wenngleich der Berechnungsprozess beim virtuellen Screening recht einfach parallelisierbar ist, müssen drei Herausforderungen gemeistert werden, um LigandScout auf Großrechnern effektiv laufen zu lassen. Zuerst muss eine entsprechende Skalierbarkeit bei der Ausführung des Programms sichergestellt werden, d.h. alle Recheneinheiten müssen effizient, ohne großen Kommunikationsoverhead, genutzt werden. Es gilt überdies, einzelne Teile der Moleküldatenbanken so an die Recheneinheiten zu senden, dass eine gute Lastbalancierung und eine sichere Übertragung der Daten gewährleistet werden kann. Zuletzt muss die Software so angepasst werden, dass Berechnungen nicht direkt ausgeführt werden, sondern als "Job" in einer von vielen Nutzern geteilten Warteschlange eines Großrechners verweilen kann.
Um die genannten Ziele zu erreichen, werden wir in einem ersten Schritt, die Ausführung von LigandScout auf Großrechnern (z.B. dem Vienna Scientific Cluster) ermöglichen und im Anschluss dessen parallele Skalierbarkeit untersuchen. Dazu werden wir geeignete Profiling- und Tracing-Werkzeuge einsetzen. Mit Hilfe dieser Analysen können wir Flaschenhälse bei der Programmausführung charakterisieren und entsprechend Lösungen zur Vermeidung finden. Ein zentrales Problem ist hierbei das Scheduling (die Arbeitsaufteilung) der Moleküle auf die einzelnen Recheneinheiten. Im letzten Schritt wenden wir uns der einfachen Nutzbarkeit von HPC-Ressourcen zu. Unser Ziel ist es, den Nutzer:innen eine Vorhersage zu liefern, wie lang ein Rechenjob (für ein virtuelles Screening) mit unterschiedlich vielen Recheneinheiten dauern wird und wie hoch die zugehörigen Gesamtkosten sein werden (inkl. des CO2-Verbrauchs).

Abstract

LigandScout is an advanced molecular design software package that supports two important methods for identifying potentially bio-active molecules via in-silico methods in early pharmaceutical research: (1) conformer generation of molecular structures and (2) virtual screening of molecules using alignment experiments using the generated conformational models and 3D chemical feature-based pharmacophore models. Although LigandScout already has basic support for using parallel machines and elastic cloud computing, we want to push the limits of virtual screening in order to increase the sustainability of the drug discovery process, because the more compounds can be screened effectively in a time period, the more cost-intensive in-vitro experiments can be avoided.
For that reason, the goal of the proposed project is to allow LigandScout to be applied at massive scale, aiming to optimize the overall throughput of the virtual screening process. Although the virtual screening process can efficiently be parallelized, we face three main challenges when targeting large-scale, public supercomputers. First, we need to ensure that a high parallel efficiency can be maintained in order to utilize the computational resources in the best way possible, without introducing a large communication overhead. Second, effective data management is key for high performance, i.e., we need to transfer the right number of molecules to each worker process to guarantee a good load balancing of the computational work. Third, we need to consider the possibility of longer queuing times when running jobs on large-scale supercomputers, as they are equipped with batch schedulers (e.g., SLURM) to fairly share the resources among the users. Thus, the uncertainty of the completion time of jobs has to be taken into account.
In the presented project, we will address each of the challenges mentioned above. In a first step, we will analyze the parallel scalability of LigandScout on current supercomputers such as the VSC. To that end, we can apply typical performance analysis tools for the profiling and tracing of HPC codes. In a second step, we will examine how to optimize the scheduling of individual tasks that form a virtual screening process, i.e., how many molecules from the main database need to be sent to each worker node in the system. In a last step, we will investigate how the completion time of a screening jobs and its associated costs (incl. CO2 consumption) can be estimated, considering the current queue length of the actual batch scheduler, i.e., evaluating the trade-offs between running on a few compute nodes but starting earlier or waiting for more resources while gaining a larger overall throughput. In particular, the last goal of giving users a predicted completion time is novel and very challenging, but a successful implementation will significantly foster the utilization of HPC resources in the traditional, computational workflows.

zurück

Breadcrumb Navigation

HPsCreen

Projektbeschreibung

Abstract