상세 컨텐츠

본문 제목

[2주차/ 문성빈 / 논문리뷰] YOLO(You Only Look Once)

2023 Summer Session/CV Team 1

by Brian Mun 2023. 7. 19. 03:37

본문

작성자 : 17기 문성빈

1. Introduction

YOLO는 input image를 CNN으로 받아서 bbox와 그 class를 예측하는 object

detection의 1-stage detector이다. 이 과정 이후 NMS(Non-max suppression)을 진행한 후 최종 bounding box를 예측한다.

1-stage Detector로, end-to-end training으로 진행된다.

그 과정은 위와 같이 진행된다.

 

2. Unified Detection

S x S grid로 input image를 분할 후, object의 중심이 grid cell과 일치하면 object를 detect했다고 판단한다.
각 grid cell에서 bbox와 그들의 confidence score를 구하고, C개의 조건부 확률을 구하는 작업을 위와 같이 진행한다.

2.1 Network Design

Darknet을 사용하며, Conv Layer, FCN, reduction layer를 각각 24개, 1개, 1개 사용하며 마지막에 Conv layer를 적용하여 output을 7 x 7 x 30으로 낸다.

2.2 Training 

ImageNet으로 학습을 진행하였다. Loss func은 Sum-squared Error를 사용하였고, 이는 optimization이 쉽다.

Localization error, Classification error의 weight를 동일하게 주며, object를 감지하지 못하는 cell의 confidence score는 0이 된다는 문제를 가져서 bounding box coordinate prediction은 5, no object는 0.5의 weight를 주어 이를 해결하려고 하였다.

3. Conclusion

Real-time detection에 적용 가능하며, faster-RCNN에 비해 image전체를 보는 방식으로 context를 encode하여 background error가 훨씬 적다. 또한, 새로운 도메인에 대한 적용 가능성도 크다.

그러나, spatial constraints로 인한 small objects의 localizaion 정확도 저하, new config의 object의 generalizaion의 어려움, bbox의 크기에 관계없는 error설정이 단점으로 꼽힌다.

관련글 더보기

댓글 영역