DeepSORT(SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC)

2021. 10. 1. 16:12Computer vision 논문 & 코드리뷰

728x90

Abstract

MOT에서 간단하고 효과적인 알고리즘이었던 SORT의 성능향상을 위해 appearance information을 통합

  • 더 긴 기간동안의 occlusion에도 객체 트래킹이 가능함
  • 효과적으로 identity(ID라 하겠다) switch를 줄임

SORT의 방향과 같이 계산적으로 복잡한 과정은 offline pretrain과정에 치우침

offline pretrain단계에서는 대규모 person re-identification dataset에서 deep association metric을 학습한다.

online 적용에서는 visual appearance space에서 nearest neighbor queries를 사용해 measurement-to-track association을 구축 => 즉, 측정한 값을 track에 할당하는 과정을 nearest neighbor queries로 간단히 구현

https://www.programmersought.com/article/17005126187/

Introduction

object detection 발전 -> tracking-by-detection(detection을 활용해 tracking하는 방식)은MOT에서 선두적인 패러다임이 되었다.

tracking-by-detection - 보통 한번에 전체 비디오 batch들을 처리하는 global optimization problem으로 여겨짐

ex) flow network formulations, probabilistic graphical models

그러나  batch processing( batch 를 전부 넣어 처리해야하는 방식 )은 실시간에 적용불가

그래서 frame-by frame 기반으로 수행되는 전통적 방식 존재

ex) Multiple Hypothesis Tracking (MHT), Joint Probabilistic Data Association Filter (JPDAF)

(좌) MHT, (우) JPDAF

다음 그림은 object tracking 알고리즘에 대해 간단히 분류한 것이다.

https://github.com/adioshun/gitBook_Object_Tracking/blob/master/What-is-the-tracking.md

  • JPDAF : single state hypothesis를 각각의 측정값들을 association likelihoods로 가중치 적용해 생성
  • MHT : 모든 가능한 hypothesis가 트래킹되지만 pruning schemes가 적용되어야함(계산적 편리함을 위해)
  • 그러나 두 방식 모두 계산과 적용에 복잡성을 더함으로써 성능이 높아졌다.

반면에 SORT는 훨신 간단한 프레임워크

  • image space 에서 kalman filtering수행
  • hungarian method를 통해 frame-by-frame data association 수행
  • bounding box overlap 측정하는 association metric 사용
  • 높은 frame rate에서 경쟁력 있는 성능 보여줌 -> MOT challenge dataset에서 SORT와 최신 detector의 조합은 평균적으로 MHT보다 성능이 높았다

=> object detector의 성능의 영향을 강조하는 결과

그러나 SORT는 상대적으로 많은 ID switches를 가져옴

왜? 적용된 association metric이 오직 state 예측의 불확실성이 낮을 때만 정확한 것이다. 즉, state 예측이 잘 될 때에만 잘 작동함

이 때문에 occlusion이 있을 때 tracking에 결함이 생긴다

=> DeepSORT에서는 이 이슈 해결을 위해 association metric을 정보를 더 포함한 metric으로 대체

=> motion과 appearance information을 합치는 metric을 적용

=> miss들과 occlusions에 대해 robustness를 증가시킨다. 즉, miss와 occusion들에 영향을 많이 받지 않도록 한다.

특히, 이미 학습된 CNN을 적용함으로써 대규모 person re-identification dataset에서 보행자를 구별한다.

SORT With Deep Association Metric

SORT에서의 재귀적인 칼만필터링과 frame-by-frame data association을 적용하는 single hypothesis tracking 방식은 그대로 가져간다

2.1 track Handling and State Estimation

이부분은 SORT와 거의 유사하다.

[일반적인 트래킹 시나리오 가정] - ego-motion information이 존재하지 않는다 (에고모션(egomotion)은 환경 내에서 카메라의 3차원 이동을 의미)

이는 필터링 프레임워크에 문제가 있게 한다.

DeepSORT의 tracking scenario는 8차원 state space에 정의

일반적인 Kalman Filter + constant velocity motion(객체의 속도는 일정하다고 가정) + linear observation model

이 새로운 track hypothesis들은 첫 세 프레임 동안에는 불확실하다고 분류된다. 이 세 프레임동안에 각 time step에서 (각 프레임에서) measurement association을 예측하고, 그 세 프레임안에서 measurement와 결합되지 않은 track들은 제거된다.

2.2 Assignment Problem

kalman filter로 예측된 kalman states와 새롭게 도착한 측정을 연관시키기 -> hungarian algorithm을 통한 할당문제

이 문제의 공식에서 두가지 적절한 메트릭의 결합을 통해 motion정보  + appearance information 통합

이 통합을 위해서는 kalman states와 새롭게 도착한 측정간의 squared Mahalanobis distance

Mahalanobis distance는 detection의 표준 편차가 mean track location에서 얼마나 떨어져 있는지를 측정하여 state estimation uncertainty을 고려한다.

-> 이 metric으로 가능성 없는 할당을 제외하는 것이 가능 -> Mahalanobis distance를 inverse-chi-squared-distribution 에서 계산된 95% 신뢰 구간에서 thresholding해서.-> 이 신뢰구간을 벗어나는 할당은 제외

이 논문의 4차원 measurement space에 대해 대응하는 Mahalanobis threshold는

즉, d(1)(i, j)가 t(1)보다 작으면, i번째 track 과 j번째 detection의 연관을 허용하고, b(1)_i,j를 1로 결정 (indicator로서의 역할)

motion 불확실성이 낮을때 Mahalanobis distance가 적절한 association metric임에도 불구하고, 논문의 image-space problem formulation에서는, 칼만필터링프레임워크로부터 얻어진 예측된 state distribution은 객체 위치의 러프한 예측만을 제공한다.

특히 갑작스런 카메라모션 있을 때 -> 이미지 평면에서 빠른 변위를 야기할 수 있으므로 Mahalanobis distance는 occlusion 존재시에는 tracking위한 정보가 없는 metric

assignment problem 대한 두번째 metric

separate training dataset에서 이 indicator(b(2))에 대한 적절한 threshold(t(2))를 찾음

이를 위해 pretrained CNN을 사용-> bbox appearance descriptors(d(2))계산

 

이 두 metric은 서로를 보완

  • Mahalanobis distance: 가능한 객체 위치에 대한 정보 제공. 특히 short-term 예측에 유용한 motion에 기반
  • cosine distance : appearance information 고려. long-term occlusion 이후에 motion이 덜 구별될 떄 ID를 회복하는데 유용

두 metric을 weighted sum으로 합침

두 metric전부에서 gating region 내에 있을 경우 허용가능한 연관성 호출 (식 6)

2.3 Matching Cascade

global assignment problem 에서 measurement-to-track association(트랙과 측정값을 할당)해결 대신 subproblem들을 해결하는 cascade 소개(하나의 문제를 해결하는 것을 일렬의 subproblem을 해결하는 것으로 대체)

고려된 상황

1. 객체가 긴 시간동안 사라졌을 때 subsequent Kalman filter 예측이 객체위치와 연관된 불확실성 증가

2. 가능성 부피(probability mass)는 state space에서 spread된다(가능성이 한 쪽으로 몰리지않고 넓게 퍼짐으로써, 불확실해짐)

직관적으로 association metric은 measurement-to-track distance(측정과 track간의 거리, 즉 얼마나 비슷한지를 나타내는 거리) 를 증가시켜 probability mass의 확산을 설명해야 한다.

반직관적으로, 두 개의 트랙이 동일한 detection을 위해 경쟁할 때, Mahalanobis 거리는 더 큰 불확실성을 선호한다. → 왜냐하면 예상 트랙 평균을 향한 모든 detection의 표준 편차의 거리를 효과적으로 줄이기 때문이다.

이는 트랙 파편이 증가하고 트랙이 불안정해질 수 있기 때문에 원치 않는 행동

따라서 association 가능성에서 확률 확산 개념을 적용하기 위해 더 자주 볼 수 있는 개체에 우선 순위를 부여하는 matching cascade 개념을 도입한다.

주의할 점은 이 matching cascade는 더 작은 age의 track들에게 우선순위를 준다 = 더 최근에 보여진 track들에게 더 우선순위를 준다

마지막 maching stage에서 SORT알고리즘에서 제안한 것 처럼 age n =1인 허가되지않고 매칭되지않은 track들에 대해서 union associations에서의 intersection실행

이는 갑작스러운 appearance changes에 대한 해결을 도움 + 잘못된 초기화에 대한 robustness를 증가

2.4. Deep Appearance Descriptor

추가적인 metric learning없이 간단한 neareest neighbor queries를 사용 -> 잘 분류된 feature embedding이 필요하고 이는 실제 온라인 트래킹 적용 이전에 offline에서 학습되어야 한다.

잘 분류된 feature embedding이 필요 : CNN도입

이 논문에서는 큰 스케일의 person re-identification dataset에서 학습된 CNN사용. 이 데이터셋은 1100000이 넘는 1261명의 보행자의 이미지를 포함 = 사람 트래킹 상황에서 deep metric learning 에 잘 맞춰지도록 학습

CNN아키텍쳐

wide residual network를 적용: 2개의 conv레이어들이 있고 6개의 residual block이 뒤따라옴

128 차원의 global featuremap은 dense layer 10에서 계산

마지막 batch와 L2 normalization은 피쳐를 unit hyper sphere에 투영 = cosine appearance metric과 compatible하게 만들어줌

Experiments

  • MOT16 benchmark에서 성능 측정
  • 이 벤치마크는 7개의 도전적인 테스트 시퀀스에서 성능을 평가.
  • 정면뷰, 움직이는 카메라, top-down surveillance(감시/감독) setup

트래커의 인풋으로써, 제공되는 디텍션에 의존

 

성공적으로 identity switch를 줄였습니다 SORT랑 비교해서(1428→781)

예시

Conclusion

사전 훈련된 연결 지표를 통해 외관 정보를 통합하는 SORT에 대한 확장을 제시했다. 이 연장 때문에,  더 오래 추적할 수 있다. 폐색 기간으로 인해 SORT는 최첨단 온라인 추적 알고리즘의 강력한 경쟁자가 됩니다.

그러나 이 알고리즘은 구현이 간단하며 실시간으로 실행됩니다.

728x90