Object detection frame을 변화시킨 논문
Classification + Regression의 2-steps network ▶ Single Regression problem의 Single network
이미지로부터 신경망으로 한 번에 detection 처리 → You Only Look Once !
- Extremely Fast: real-time detection 가능
- Reasons globally: background error 감소
- Generalizable: 새로운 도메인 적용 용이
네트워크는 위와 같이 구성되어 있으며, input size는 task에 따라 달라진다.
(classification task의 경우 224x224, detection task의 경우 448x448이며 바로 이어지는 training 단계에서 적용된다.)
* Fast version의 경우 conv layer의 수를 24개 → 9개로 줄인다.
Activation function
- final layer: linear activation function
- other lyaers: Leaky ReLU
Loss function
- SSE(Sum Squared Error) 사용하지만, 다음과 같은 문제점이 있어 아래의 방식으로 수정
* 문제점
(1) localization loss와 classification loss의 가중치를 동일하게 적용
(2) 객체 미포함 grid cell의 confidence가 0 → 배경이 많으면 0으로 수렴 or 물체 포함 cell의 gradient 발산
2. Confidence Loss: 문제 (2) 해결
객체를 포함하지 않는 grid cell은 0.5의 가중치를 곱해 그 영향력을 줄인다.
3. Classification Loss
- 위 세 개의 loss를 합해 최종 loss를 산출한다.
학습 후, 이미지의 최종 output은 7x7x30 tensor로, 이미지가 총 49개의 grid cell로 분할된다. 각각의 cell은 2개의 bbox를 예측하므로, 이미지는 총 98개의 bbox와 class 확률을 갖게 된다. 하지만 object가 큰 경우, 여러 grid에서 검출될 수 있다. 한 object에 여러 개의 bbox가 생기는 것을 방지하고자 Non-Maximal Suppresion(NMS)를 통해 최종 bbox를 선정한다.
NMS
1) confidence score가 threshold보다 작은 bbox는 그 값을 0으로 변경
2) 나머지 bbox는 confidence score가 높은 순으로 정렬
3) confidence score가 가장 높은 bbox(A)와, 다른 bbox(B)의 IOU가 0.5 이상이면 다른 bbox(B)를 제거
https://blog.naver.com/sogangori/220993971883
https://187cm.tistory.com/24?category=1105411#google_vignette
https://herbwood.tistory.com/13
[3주차 / 김희준 / 논문리뷰] Visualizing and Understanding Convolutional Networks (0) | 2023.07.25 |
---|---|
[3주차/강민채/논문리뷰] Saliency Maps (0) | 2023.07.24 |
[2주차/ 문성빈 / 논문리뷰] YOLO(You Only Look Once) (1) | 2023.07.19 |
[2주차/ 이서연 / 논문리뷰] YOLOv1(You Only Look Once) (1) | 2023.07.18 |
[2주차 / 김희준 / 논문리뷰] Faster R-CNN (1) | 2023.07.17 |
댓글 영역