vTrait
visual Tracking of ArbItrary Targets
Programm / Ausschreibung | Bridge, Bridge_NATS, Bridge_NATS 2019 | Status | abgeschlossen |
---|---|---|---|
Projektstart | 01.06.2020 | Projektende | 28.02.2023 |
Zeitraum | 2020 - 2023 | Projektlaufzeit | 33 Monate |
Keywords | Filmkamera; Tracking; Computer Vision; Machine Learning |
Projektbeschreibung
Die Zielstellung des aktuellen Forschungsvorhabens ist die robuste visuelle Nachverfolgung eines beliebigen benutzerdefinierten Zielobjekts basierend auf RGB-D-Daten. Diese Funktionalität wird in der Kinematographie benötigt, um eine kontinuierliche Nachführung der Fokusebene auf das scharf abzubildende Motiv durchzuführen, wobei eine ausreichende Zuverlässigkeit auch bei Anwesenheit von Störelementen gewährleistet sein muss. Ausgehend von der zunehmenden Kapazität von gelernten tiefverzweigten Netzwerkrepräsentationen beabsichtigen wir, (i) anhand Siamesischer Lernverfahren Ob-jektähnlichkeiten zu lernen, um initiale Segmentierungsmasken zu generieren und diese (ii) mit unserem bereits entwickelten eingebetteten Stereo-Verfahren zu einer genaueren Tiefensegmentierung zu kombinieren. Diese Kombination von ähnlichkeits- und tiefenba-sierten Objektmasken ermöglicht eine zuverlässigere Trennung von Vorder- und Hinter-grund und stärkt darüber hinaus Robustheit und Genauigkeit bei visuellen Nachverfol-gungsaufgaben. Die erwartete Anwendbarkeit dieser Funktionalität geht dabei weit über die Kinematographie hinaus: Objektverfolgung für autonome Systeme und Handhabungs-aufgaben im Bereich der Mobil- und Industrierobotik sind weitere Anwendungsbereiche, die von einer robusten RGB-D-Nachverfolgung einzelner bzw. mehrerer beliebiger Ziele profitieren würden.
Abstract
The task-specific goal of the current proposal is the robust visual tracking of a user-specified arbitrary target in a cinematographic setting from RGB-D data. Such a scheme shall automatically maintain camera focus on the selected motive, even in the presence of distractors. Relying on the recent representational power of learned deep distributed representations, we intend to combine (i) similarity (Siamese)-learning yield-ing segmentation proposals and (ii) depth data segmentation from our previously elabo-rated embedded stereo depth computation scheme. This combination of similarity-based and depth-based segmentation proposals shall greatly robustify foreground-background separation and target association quality. The expected impact of proposed functionality goes beyond cinematography: robotic tracking/grasping and object tracking in autono-mous driving are further domains where robust RGB-D tracking of single/multiple arbi-trary targets are desired.