객체 스케일 변화를 잘 감지하는 것은 Detection의 주요 challenge 중 하나이다.
M2Det은 멀티레벨과 멀티스케일 방식을 바탕으로 객체 스케일 변화 민감도 문제를 해결한다.
* YOLO도 학습 데이터를 다향한 스케일로 resize하여 학습시키는데, 이 역시 멀티스케일 방식이다.
Detection Task에서 Scale variation 관련 문제를 해결하기 위해 FPN(Feature Pyramid Network)를 사용한다.
그러나 FPN 특징 맵은 classification을 목적으로 하기 때문에 backbone이 간단하게 설계되어 있고, 주로 single level로 설계되어 좋은 detection 성능을 내기에는 한계가 있다.
* single level 맵은 복잡한 형태의 객체를 잘 탐지하지 못한다.
M2Det은 이 문제를 해결하고자 MLFPN(Multi-Level FPN)을 제안하며, 이를 바탕으로 다양한 스케일의 물체를 감지하는 신경망을 구성한다.
M2Det은 위와 같이 구성되어 있으며, 크게 FFM, TUM, SFAM으로 나뉜다.
각 구성 요소의 작동 원리를 하나씩 살펴보면 다음과 같다.
FFM의 역할은 다양한 level에서 feature map을 결합하는 것이다.
FFMv1의 경우 Conv5_3과 Conv4_3 으로부터 추출한 특징을 하나로 결합하여 base feature를 생성하고, scale을 맞춰주기 위해 upsample 연산을 추가로 수행한 후 concatenation을 진행한다.
FFMv2의 경우 생성된 base feature와 이전 단계의 TUM의 가장 큰 출력 feature map을 결합한다.
* 이때, FFM은 입력 feature의 채널을 감소시키고자 1x1 conv를 사용한다.
TUM의 encoder는 stride가 2인 3x3 conv layer가 연속적으로 쌓여 있고, decoder는 upsampling과 wise sum을 수행한 뒤 1x1 conv 연산을 진행한다.
Base feature를 만든 후 위와 같은 TUM 3개를 순차적으로 거치게 되는데, 순서대로 low-middle-high level feature를 output으로 산출한다(multi level feature).
SFAM은 3개의 TUM의 decoder로부터 나온 multi level feature을 융합하여 multi-scale feature pyramid를 생성한다.
1) multi scale feature map 중 동일한 크기의 feature map들만 모아서 concatenation을 수행하며(scale-wise concat)
2) 통합횐 후 SE block을 적용한다(channel-wise attention).
* SE blcok: 채널별 가중치를 계산하여 성능을 높여줌 → 이를 바탕으로 가장 많은 효율을 얻을 수 있는 feature에 집중.
* 논문 이미지에는 3개의 TUM을 사용하지만 실제로는 8개를 사용함.
M2Det은 기존 FPN의 단점을 보완한 MLFPN을 제안, detection 시 사용 가능한 feature pyramid를 만드는 방법을 제시하였다. 이를 바탕으로 FPN으로는 한계가 있었던 성능을 끌어올렸다.
https://eehoeskrap.tistory.com/393
https://herbwood.tistory.com/23
https://deep-learning-study.tistory.com/620
https://velog.io/@skhim520/M2Det-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0
[7주차/논문리뷰/이서연] Mask R-CNN (0) | 2023.08.17 |
---|---|
[7주차/강민채/논문리뷰] CornerNet (0) | 2023.08.14 |
[6주차/김희준/논문리뷰]Single-Shot Refinement Neural Network for Object Detection(RefineDet) (0) | 2023.08.09 |
[6주차/논문리뷰/이서연] Faster R-CNN (1) | 2023.08.07 |
[4주차/김희준/논문리뷰]Generative Adversarial Nets (1) | 2023.08.05 |
댓글 영역