작성자 : 17기 문성빈
YOLO는 input image를 CNN으로 받아서 bbox와 그 class를 예측하는 object
detection의 1-stage detector이다. 이 과정 이후 NMS(Non-max suppression)을 진행한 후 최종 bounding box를 예측한다.
1-stage Detector로, end-to-end training으로 진행된다.
그 과정은 위와 같이 진행된다.
S x S grid로 input image를 분할 후, object의 중심이 grid cell과 일치하면 object를 detect했다고 판단한다.
각 grid cell에서 bbox와 그들의 confidence score를 구하고, C개의 조건부 확률을 구하는 작업을 위와 같이 진행한다.
Darknet을 사용하며, Conv Layer, FCN, reduction layer를 각각 24개, 1개, 1개 사용하며 마지막에 Conv layer를 적용하여 output을 7 x 7 x 30으로 낸다.
ImageNet으로 학습을 진행하였다. Loss func은 Sum-squared Error를 사용하였고, 이는 optimization이 쉽다.
Localization error, Classification error의 weight를 동일하게 주며, object를 감지하지 못하는 cell의 confidence score는 0이 된다는 문제를 가져서 bounding box coordinate prediction은 5, no object는 0.5의 weight를 주어 이를 해결하려고 하였다.
Real-time detection에 적용 가능하며, faster-RCNN에 비해 image전체를 보는 방식으로 context를 encode하여 background error가 훨씬 적다. 또한, 새로운 도메인에 대한 적용 가능성도 크다.
그러나, spatial constraints로 인한 small objects의 localizaion 정확도 저하, new config의 object의 generalizaion의 어려움, bbox의 크기에 관계없는 error설정이 단점으로 꼽힌다.
[3주차 / 김희준 / 논문리뷰] Visualizing and Understanding Convolutional Networks (0) | 2023.07.25 |
---|---|
[3주차/강민채/논문리뷰] Saliency Maps (0) | 2023.07.24 |
[2주차 / 강민채 / 논문리뷰] YOLOv1 (1) | 2023.07.19 |
[2주차/ 이서연 / 논문리뷰] YOLOv1(You Only Look Once) (1) | 2023.07.18 |
[2주차 / 김희준 / 논문리뷰] Faster R-CNN (1) | 2023.07.17 |
댓글 영역