2021. 10. 1. 16:12ㆍComputer vision 논문 & 코드리뷰
Abstract
MOT에서 간단하고 효과적인 알고리즘이었던 SORT의 성능향상을 위해 appearance information을 통합
- 더 긴 기간동안의 occlusion에도 객체 트래킹이 가능함
- 효과적으로 identity(ID라 하겠다) switch를 줄임
SORT의 방향과 같이 계산적으로 복잡한 과정은 offline pretrain과정에 치우침
offline pretrain단계에서는 대규모 person re-identification dataset에서 deep association metric을 학습한다.
online 적용에서는 visual appearance space에서 nearest neighbor queries를 사용해 measurement-to-track association을 구축 => 즉, 측정한 값을 track에 할당하는 과정을 nearest neighbor queries로 간단히 구현
Introduction
object detection 발전 -> tracking-by-detection(detection을 활용해 tracking하는 방식)은MOT에서 선두적인 패러다임이 되었다.
tracking-by-detection - 보통 한번에 전체 비디오 batch들을 처리하는 global optimization problem으로 여겨짐
ex) flow network formulations, probabilistic graphical models
그러나 batch processing( batch 를 전부 넣어 처리해야하는 방식 )은 실시간에 적용불가
그래서 frame-by frame 기반으로 수행되는 전통적 방식 존재
ex) Multiple Hypothesis Tracking (MHT), Joint Probabilistic Data Association Filter (JPDAF)
다음 그림은 object tracking 알고리즘에 대해 간단히 분류한 것이다.
- JPDAF : single state hypothesis를 각각의 측정값들을 association likelihoods로 가중치 적용해 생성
- MHT : 모든 가능한 hypothesis가 트래킹되지만 pruning schemes가 적용되어야함(계산적 편리함을 위해)
- 그러나 두 방식 모두 계산과 적용에 복잡성을 더함으로써 성능이 높아졌다.
반면에 SORT는 훨신 간단한 프레임워크
- image space 에서 kalman filtering수행
- hungarian method를 통해 frame-by-frame data association 수행
- bounding box overlap 측정하는 association metric 사용
- 높은 frame rate에서 경쟁력 있는 성능 보여줌 -> MOT challenge dataset에서 SORT와 최신 detector의 조합은 평균적으로 MHT보다 성능이 높았다
=> object detector의 성능의 영향을 강조하는 결과
그러나 SORT는 상대적으로 많은 ID switches를 가져옴
왜? 적용된 association metric이 오직 state 예측의 불확실성이 낮을 때만 정확한 것이다. 즉, state 예측이 잘 될 때에만 잘 작동함
이 때문에 occlusion이 있을 때 tracking에 결함이 생긴다
=> DeepSORT에서는 이 이슈 해결을 위해 association metric을 정보를 더 포함한 metric으로 대체
=> motion과 appearance information을 합치는 metric을 적용
=> miss들과 occlusions에 대해 robustness를 증가시킨다. 즉, miss와 occusion들에 영향을 많이 받지 않도록 한다.
특히, 이미 학습된 CNN을 적용함으로써 대규모 person re-identification dataset에서 보행자를 구별한다.
SORT With Deep Association Metric
SORT에서의 재귀적인 칼만필터링과 frame-by-frame data association을 적용하는 single hypothesis tracking 방식은 그대로 가져간다
2.1 track Handling and State Estimation
이부분은 SORT와 거의 유사하다.
[일반적인 트래킹 시나리오 가정] - ego-motion information이 존재하지 않는다 (에고모션(egomotion)은 환경 내에서 카메라의 3차원 이동을 의미)
이는 필터링 프레임워크에 문제가 있게 한다.
DeepSORT의 tracking scenario는 8차원 state space에 정의
일반적인 Kalman Filter + constant velocity motion(객체의 속도는 일정하다고 가정) + linear observation model
이 새로운 track hypothesis들은 첫 세 프레임 동안에는 불확실하다고 분류된다. 이 세 프레임동안에 각 time step에서 (각 프레임에서) measurement association을 예측하고, 그 세 프레임안에서 measurement와 결합되지 않은 track들은 제거된다.
2.2 Assignment Problem
kalman filter로 예측된 kalman states와 새롭게 도착한 측정을 연관시키기 -> hungarian algorithm을 통한 할당문제
이 문제의 공식에서 두가지 적절한 메트릭의 결합을 통해 motion정보 + appearance information 통합
이 통합을 위해서는 kalman states와 새롭게 도착한 측정간의 squared Mahalanobis distance
Mahalanobis distance는 detection의 표준 편차가 mean track location에서 얼마나 떨어져 있는지를 측정하여 state estimation uncertainty을 고려한다.
-> 이 metric으로 가능성 없는 할당을 제외하는 것이 가능 -> Mahalanobis distance를 inverse-chi-squared-distribution 에서 계산된 95% 신뢰 구간에서 thresholding해서.-> 이 신뢰구간을 벗어나는 할당은 제외
이 논문의 4차원 measurement space에 대해 대응하는 Mahalanobis threshold는
즉, d(1)(i, j)가 t(1)보다 작으면, i번째 track 과 j번째 detection의 연관을 허용하고, b(1)_i,j를 1로 결정 (indicator로서의 역할)
motion 불확실성이 낮을때 Mahalanobis distance가 적절한 association metric임에도 불구하고, 논문의 image-space problem formulation에서는, 칼만필터링프레임워크로부터 얻어진 예측된 state distribution은 객체 위치의 러프한 예측만을 제공한다.
특히 갑작스런 카메라모션 있을 때 -> 이미지 평면에서 빠른 변위를 야기할 수 있으므로 Mahalanobis distance는 occlusion 존재시에는 tracking위한 정보가 없는 metric
assignment problem 대한 두번째 metric
separate training dataset에서 이 indicator(b(2))에 대한 적절한 threshold(t(2))를 찾음
이를 위해 pretrained CNN을 사용-> bbox appearance descriptors(d(2))계산
이 두 metric은 서로를 보완
- Mahalanobis distance: 가능한 객체 위치에 대한 정보 제공. 특히 short-term 예측에 유용한 motion에 기반
- cosine distance : appearance information 고려. long-term occlusion 이후에 motion이 덜 구별될 떄 ID를 회복하는데 유용
두 metric을 weighted sum으로 합침
두 metric전부에서 gating region 내에 있을 경우 허용가능한 연관성 호출 (식 6)
2.3 Matching Cascade
global assignment problem 에서 measurement-to-track association(트랙과 측정값을 할당)해결 대신 subproblem들을 해결하는 cascade 소개(하나의 문제를 해결하는 것을 일렬의 subproblem을 해결하는 것으로 대체)
고려된 상황
1. 객체가 긴 시간동안 사라졌을 때 subsequent Kalman filter 예측이 객체위치와 연관된 불확실성 증가
2. 가능성 부피(probability mass)는 state space에서 spread된다(가능성이 한 쪽으로 몰리지않고 넓게 퍼짐으로써, 불확실해짐)
직관적으로 association metric은 measurement-to-track distance(측정과 track간의 거리, 즉 얼마나 비슷한지를 나타내는 거리) 를 증가시켜 probability mass의 확산을 설명해야 한다.
반직관적으로, 두 개의 트랙이 동일한 detection을 위해 경쟁할 때, Mahalanobis 거리는 더 큰 불확실성을 선호한다. → 왜냐하면 예상 트랙 평균을 향한 모든 detection의 표준 편차의 거리를 효과적으로 줄이기 때문이다.
이는 트랙 파편이 증가하고 트랙이 불안정해질 수 있기 때문에 원치 않는 행동
따라서 association 가능성에서 확률 확산 개념을 적용하기 위해 더 자주 볼 수 있는 개체에 우선 순위를 부여하는 matching cascade 개념을 도입한다.
주의할 점은 이 matching cascade는 더 작은 age의 track들에게 우선순위를 준다 = 더 최근에 보여진 track들에게 더 우선순위를 준다
마지막 maching stage에서 SORT알고리즘에서 제안한 것 처럼 age n =1인 허가되지않고 매칭되지않은 track들에 대해서 union associations에서의 intersection실행
이는 갑작스러운 appearance changes에 대한 해결을 도움 + 잘못된 초기화에 대한 robustness를 증가
2.4. Deep Appearance Descriptor
추가적인 metric learning없이 간단한 neareest neighbor queries를 사용 -> 잘 분류된 feature embedding이 필요하고 이는 실제 온라인 트래킹 적용 이전에 offline에서 학습되어야 한다.
잘 분류된 feature embedding이 필요 : CNN도입
이 논문에서는 큰 스케일의 person re-identification dataset에서 학습된 CNN사용. 이 데이터셋은 1100000이 넘는 1261명의 보행자의 이미지를 포함 = 사람 트래킹 상황에서 deep metric learning 에 잘 맞춰지도록 학습
wide residual network를 적용: 2개의 conv레이어들이 있고 6개의 residual block이 뒤따라옴
128 차원의 global featuremap은 dense layer 10에서 계산
마지막 batch와 L2 normalization은 피쳐를 unit hyper sphere에 투영 = cosine appearance metric과 compatible하게 만들어줌
Experiments
- MOT16 benchmark에서 성능 측정
- 이 벤치마크는 7개의 도전적인 테스트 시퀀스에서 성능을 평가.
- 정면뷰, 움직이는 카메라, top-down surveillance(감시/감독) setup
트래커의 인풋으로써, 제공되는 디텍션에 의존
성공적으로 identity switch를 줄였습니다 SORT랑 비교해서(1428→781)
Conclusion
사전 훈련된 연결 지표를 통해 외관 정보를 통합하는 SORT에 대한 확장을 제시했다. 이 연장 때문에, 더 오래 추적할 수 있다. 폐색 기간으로 인해 SORT는 최첨단 온라인 추적 알고리즘의 강력한 경쟁자가 됩니다.
그러나 이 알고리즘은 구현이 간단하며 실시간으로 실행됩니다.