Zum Inhalt

vTrait

visual Tracking of ArbItrary Targets

Programm / Ausschreibung Bridge, Bridge_NATS, Bridge_NATS 2019 Status abgeschlossen
Projektstart 01.06.2020 Projektende 28.02.2023
Zeitraum 2020 - 2023 Projektlaufzeit 33 Monate
Keywords Filmkamera; Tracking; Computer Vision; Machine Learning

Projektbeschreibung

Die Zielstellung des aktuellen Forschungsvorhabens ist die robuste visuelle Nachverfolgung eines beliebigen benutzerdefinierten Zielobjekts basierend auf RGB-D-Daten. Diese Funktionalität wird in der Kinematographie benötigt, um eine kontinuierliche Nachführung der Fokusebene auf das scharf abzubildende Motiv durchzuführen, wobei eine ausreichende Zuverlässigkeit auch bei Anwesenheit von Störelementen gewährleistet sein muss. Ausgehend von der zunehmenden Kapazität von gelernten tiefverzweigten Netzwerkrepräsentationen beabsichtigen wir, (i) anhand Siamesischer Lernverfahren Ob-jektähnlichkeiten zu lernen, um initiale Segmentierungsmasken zu generieren und diese (ii) mit unserem bereits entwickelten eingebetteten Stereo-Verfahren zu einer genaueren Tiefensegmentierung zu kombinieren. Diese Kombination von ähnlichkeits- und tiefenba-sierten Objektmasken ermöglicht eine zuverlässigere Trennung von Vorder- und Hinter-grund und stärkt darüber hinaus Robustheit und Genauigkeit bei visuellen Nachverfol-gungsaufgaben. Die erwartete Anwendbarkeit dieser Funktionalität geht dabei weit über die Kinematographie hinaus: Objektverfolgung für autonome Systeme und Handhabungs-aufgaben im Bereich der Mobil- und Industrierobotik sind weitere Anwendungsbereiche, die von einer robusten RGB-D-Nachverfolgung einzelner bzw. mehrerer beliebiger Ziele profitieren würden.

Abstract

The task-specific goal of the current proposal is the robust visual tracking of a user-specified arbitrary target in a cinematographic setting from RGB-D data. Such a scheme shall automatically maintain camera focus on the selected motive, even in the presence of distractors. Relying on the recent representational power of learned deep distributed representations, we intend to combine (i) similarity (Siamese)-learning yield-ing segmentation proposals and (ii) depth data segmentation from our previously elabo-rated embedded stereo depth computation scheme. This combination of similarity-based and depth-based segmentation proposals shall greatly robustify foreground-background separation and target association quality. The expected impact of proposed functionality goes beyond cinematography: robotic tracking/grasping and object tracking in autono-mous driving are further domains where robust RGB-D tracking of single/multiple arbi-trary targets are desired.