- 본 연구진은 object instance segmentation을 위한 단순하고, flexible 하며 general한 프레임 워크를 구축하였다. 본 모델은 이미지의 object를 detect함과 동시에 각각의 인스턴스에 대하여 고퀄리티의 segmentation mask를 생성한다. 이 방법을 Mask R-CNN이라고 하며 Faster R-CNN의 bounding box recognition에 object mask를 예측하는 파이프 라인을 parallel하게 더한 것이다. Mask R-CNN은 학습하기 쉬우며 다른 task에 일반화하기가 쉽다는 장점을 가진다. 이 방법은 COCO의 3개의 챌린지(instance segmentation, boundingbox object detection, person keypoint detection) 모두에서 좋은 결과를 보여주었으며, 동시대에 공존하는 모든 single-model에 대해 가장 좋은 성능을 보여주었다.
-object detection 분야에서 Fast/Faster R-CNN, FCN, semantic segmenation 3가지의 발전이 이루어졌다. 본 연구는 Instance segmentation에 적용 가능한 단순하고 flexible한 프레임워크를 개발하는 것이다. Instance segmentation(이미지 내에 존재하는 모든 객체를 탐지하는 동시에 각각의 경우(instance)를 정확하게 픽셀 단위로 분류하는 task)의 경우 detection과 동시에 segmentation을 진행해야 하기 때문에, object detection과 semantic segmentation(이미에 있는 모든 픽셀을 해당하는 class로 분류하는 것)을 결합해야 했다.
Mask R-CNN은 Faster R-CNN을 확장한 것으로 classification branch bounding box regression branch와 평행하게 각각의 RoI(Region of Interest))에 segmentation masks를 예측하는 branch를 추가한 구조(mask branch)를 가지고 있다.
mask branch는 각각의 RoI에 작은 크기의 FCN(Fully Convolutional Network)가 추가된 형태입니다. 기존의 Faster R-CNN은 input과 output 사이의 pixel-to-pixel alignment를 위해 디자인 된 것이 아니므로 (RoI pooling: 사이즈가 제각각인 proposal region을 고정된 크기의 feature로 만들어 FC layer의 인풋으로 넣기위해서 수행하는 메소드) Mask R-CNN은 RoIAlign layer를 추가함으로써 misalignment를 막았다. 이를 통해 정확한 spatial locations를 보존할 수 있게 되었으며 mask accruacy를 높이게 되었다. 더불어 mask prediction과 class prediction을 분리함으로써 mask prediction을 할 때 다른 클래스를 고려할 필요 없이 binary mask를 예측하면 되 성능이 향상되었다고 한다.
bounding-box object detection을 위한 regin based CNN
이미지 내에 존재하는 모든 객체를 탐지하는 동시에 각각의 경우(instance)를 정확하게 픽셀 단위로 분류하는 task이다.
Semantic segmentation는 동일하게 분류된 카테고리의 instance를 구분하지 않는다는 점에서 차이가 있다. 즉 객체를 탐지하는 object detection task와 각각의 픽셀의 카테고리를 분류하는 semantic segmentation task가 결합된 것이다.
https://kubig-2023-2.tistory.com/47#comment17235792
2 stage procedure =
1 step : RPN (RoI 얻음)
2 step : Predict class, box offset, 각각의 RoI에 대한 binary mask 동시 수행
: 코드 구현 참조
- coco data set을 사용하였으며 기존의 SOTA 네트워크보다 뛰어난 성능을 보였다.
- human pose estimation으로의 확장 가능성 있음.
https://arxiv.org/pdf/1703.06870.pdf
https://github.com/facebookresearch/Detectron
https://herbwood.tistory.com/20
https://velog.io/@sksmslhy/Paper-Review-Mask-R-CNN
[7주차/김희준/논문리뷰]End-to-End Object Detection with Transformers(DETR) (0) | 2023.08.17 |
---|---|
[7주차/강민채/논문리뷰] CornerNet (0) | 2023.08.14 |
[6주차/강민채/논문리뷰] M2Det (0) | 2023.08.09 |
[6주차/김희준/논문리뷰]Single-Shot Refinement Neural Network for Object Detection(RefineDet) (0) | 2023.08.09 |
[6주차/논문리뷰/이서연] Faster R-CNN (1) | 2023.08.07 |
댓글 영역