๐Paper Review
[paper review]YOLOv1
date
Aug 3, 2023
slug
paper-review-yolov1
author
status
Public
tags
DeepLearning
paper
summary
YOLOv1 review for SESAC
type
Post
thumbnail
category
๐Paper Review
updatedAt
Aug 3, 2023 10:18 AM
You Only Look Once: Unified, Real-Time Object Detection0. Abstract1. Introduction2. Unified Detection2.1 Network Design2.2 Training6. Conclusion
ย
You Only Look Once: Unified, Real-Time Object Detection
0. Abstract
YOLO๋ผ๋ ์๋ก์ด ์์ด๋์ด๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด์ object detection ๋ชจ๋ธ๊ณผ ๋ค๋ฅด๋ค. ๊ธฐ์กด์ object detection์ ์ฌ๋ฌ๊ฐ์ ๋ถ๋ฅ๋ฅผ ์ํํ๋ ๋ฐฉ๋ฒ์ด์๋๋ฐ, YOLO๋ ํ๋ฒ์ ๋์๋๋ ์์ญ์ bounding box๋ฅผ ์ฐพ๋ regression problem์ผ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ๋จ์ผํ neural network๊ฐ ๋ฐ์ด๋ฉ๋ฐ์ค ์์น์ ํด๋์ค์ ํ๋ฅ ์ ์ ์ฒด ์ด๋ฏธ์ง์ ๋ํด ํ๋ฒ์ ํ๊ฐํ์๋ค. end-to-end๋ฐฉ์์ด๋ค.
์ฐ๋ฆฌ๊ฐ ์ ์ํ ๊ตฌ์กฐ๋ ๋งค์ฐ ๋น ๋ฅด๋ค. ์ด๋น 45์ฅ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค. ๊ฑฐ์ real-time์ ์คํ๋ค. YOLO ๋ฐฑ๋ณธ์ ๊ฒฝ๋ํํ fast YOLO๋ ์ฑ๋ฅ์ ์กฐ๊ธ ๋จ์ด์ง์ง๋ง, ์ด๋น 155์ฅ์ ์ฒ๋ฆฌํ ์ ์๋ค. YOLO๋ ๋ค๋ฅธ state-of-the-art detection ๋ชจ๋ธ์ ๋นํด localization error๋ ํด ์ ์์ง๋ง, ๋ฐฐ๊ฒฝ์ ๋ํ false positive๋ ์๋ค.
YOLO๋ ๋ฒ์ฉ์ ์ธ objection์ ํ์ตํ ์ ์๋ค. DPM and R-CNN์ ๋นํด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ผ๋ฐ์ ์ธ ์์ฐ์ด๋ฏธ์ง ๋ฐ artwork์์๋ ์ ๋์ํ๋ค.
1. Introduction
์ฌ๋์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด ํ๋ฒ์ ์ด๋ค ํ์ํ ๋ถ๋ถ์ ํ์
ํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ๋์ ๋น์ฃผ์ผ ์์คํ
์ ๋๊ฒ ๋น ๋ฅด๊ณ ์ ํํ๋ค. ๋ณต์กํ tast, ์๋ฅผ ์ด์ ์ ํ๋ค๊ฑฐ๋ ์ด๋ฐ ๊ฒ์ ๋งค์ฐ ์ ์ ์ฃผ์๋ง ๊ธฐ์ธ๋ฆฌ๊ณ ์ํํ ์ ์๋ค.
๊ทธ๋์ ๋ง์ฝ์ ์ฐ๋ฆฌ๊ฐ ์ ํํ๊ณ ๋น ๋ฅธ object detection model๋ฅผ ์ปดํจํฐ์ ๊ฐ๋ฅด์ณ ์ค ์ ์๋ค๋ฉด ์ปดํจํฐ๋ ์ด์ ๊ณผ ๊ฐ์ด ๋ณต์กํ ๋ฌธ์ ๋ ์ถ๊ฐ์ ์ธ ์ผ์ ๋ฐ์ดํฐ ์์ด ์ฌ๋์ฒ๋ผ ์์ ๋ฐ๋ผ๋ณด๊ณ ๊ทธ๊ฑธ ํ ๋๋ก ์ด์ ๊ฐ์ ๋ณต์กํ ๊ฒ์ ์ปดํจํฐ๋ ํ ์ ์๊ฒ ๋ ๊ฒ์ด๋ค.
์ ๋ฆฌ : ์ด๋ ๊ฒ ๋น ๋ฅด๊ณ ์ ํํ object detection model์ ์ปดํจํฐ์ ์๋ ค ์ค ์ ์์ผ๋ฉด ๋ง์ ๋์์ด ๋ ๊ฒ์ด๋ค.
ํ์ฌ ํ์ง ์์คํ
์ ๋ถ๋ฅ๊ธฐ(classifier) ๊ธฐ๋ฐ์ผ๋ก ํ์ง๋ฅผ ์ํํ์๋ค. DPM๋ ๋ถ๋ฅ๊ธฐ์ ๊ธฐ๋ฐํ ๋ชจ๋ธ์ด๋ค. ํ๋์ ์ด๋ฏธ์ง๊ฐ ๋ค์ด์ค๋ฉด ์ฌ๋ฌ๊ฐ์ bounding box๋ฅผ ๋ง๋ค๊ณ ๊ทธ๊ฒ์ ๋ํด ๊ฐ๋ณ ๋ถ๋ฅ๋ฅผ ํตํด ์ด๋ฃจ์ด ์ง๊ธฐ์ ์๋๊ฐ ์ค๋ ๊ฑธ๋ ธ๋ค.
๊ทธ ๋น์ ์ต์ ๊ธฐ๋ฒ์ R-CNN๋ ๋จผ์ ํ๋ณด๊ตฐ bounding box๋ฅผ ๋ง๋ค๊ณ classifier๋ฅผ ํตํด ์ฒ๋ฆฌํ๋ ํํ์๋ค.
๋ถ๋ฅํ, ์ค๋ณต๋๋ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ ๊ฑฐํ์๋ค. ํ์ดํ๋ผ์ธ์ด ๋งค์ฐ๋๋ฆฌ๊ณ ์ต์ ํํ๊ธฐ๊ฐ ์ด๋ ค์์ ๋ฌธ์ ๊ฐ ์๋ ๋ชจ๋ธ์ด์๋ค.
์ฐ๋ฆฌ๋ object detection๋ฌธ์ ๋ฅผ ํ๊ท๋ฌธ์ ๋ก ๋ฐ๊พธ๊ณ ์ด๋ฏธ์ง๋ก ๋ถํฐ ๋ฐ์ด๋ฉ๋ฐ์ค ํฌ์ง์
์ ๋ฐ๋ก ์ฐพ์๋ด๋ ํํ๋ก ๋ง๋ค์๋ค. class ํ๋ฅ ๋ ๋ฐ๋ก ์ฐพ์๋ด๋ ํํ๋ก ๋ง๋ค์๋ค. YOLO๋ ์ด๋ฏธ์ง๋ฅผ ํ๋ฒ๋ณด๊ณ ์ฒ๋ฆฌํ๋ค๊ณ ํด์ ์ด๋ฐ์ด๋ฆ์ ๋ถ์๋ค.
YOLO๋ figure1์ฒ๋ผ ์ ๋ฐ์ ์ผ๋ก input์ด๋ฏธ์ง๊ฐ ๋ค์ด์ค๋ฉด resizeํด์ cnn ๋ฃ์ ์ ์๋ ํํ๋ก ๋ง๋ ๋ค์์ cnn์์ ์ค๋ธ์ ํธ๋ํ
์ค๋ฅผ ์์์ ์ํํ๋๋ก ๋ง๋ค์๋ค. ๊ทธ๋ค์ non-max suppression์ ์ํํ๋ค.
๋งค์ฐ๊ฐ๋จํ๋ค. ๋
ผ๋ฌธ์์๋ 448*448 ์ฌ์ด์ฆ๋ก resizeํ๋ค.
YOLO๋ ํตํฉ๋ ๋ชจ๋ธ์ด๋ค. ๋ช๊ฐ์ง ์ฅ์ ์ด ์๋ค.
์ฒซ๋ฒ์งธ ์ฅ์ ์ ๋งค์ฐ ๋น ๋ฅด๋ค. YOLO๋ Regression problem์ผ๋ก ํ๋ฒ ๋ณด๋ฉด ํ๋ฒ๋ง์ ์์ธกํ๋ค. R-CNN ๊ฒฝ์ฐ๋ region proposal๋ก 2000๋ฅผ ๊ทธ๋ ค์ 2000์ฅ์ ๋ํ ๋ถ๋ฅ๋ฅผ ํด์ผ๋๋๋ฐ, ์ฆ 1์ฅ์ ๋ํด 2000๋ฒ์ ๋ถ๋ฅ๋ฅผ ํด์ผ๋๋ค.
Tian X GPU๋ฅผ ์ฌ์ฉํ๋ฉด ์ด๋น 45์ฅ ์ฒ๋ฆฌ ๊ฐ๋ฅํ๊ณ fast ๋ฒ์ ์ ์ด๋น 150์ฅ ์ ๋ ๊ฐ์ฒด ํ์ง๋ฅผ ํ ์ ์๋ค.
๋์์๊ฐ์ ๊ณณ์์ ์ฌ์ฉ๊ฐ๋ฅํ๋ค. ๊ฒ๋ค๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ์ ๋นํด mean average precision๋ ์ข๋ค.
๋๋ฒ์งธ ์ฅ์ ์ ์ด๋ฏธ์ง๋ฅผ ํ๋ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์ด ๋ธ๋ค. ์ ์ฒด๋ฅผ ํ๋ฒ์ ๋ณด๊ธฐ๋๋ฌธ์ ์ ์ฒด ์ด๋ฏธ์ง์ ์ค์ํ ์ ๋ณด๋ฅผ ํ์
ํ ์ ์๋ค. ํ์ง๋ง fast R-cnn์ ๋ฐฑ๊ทธ๋ผ์ด ํจ์น์ ๋ํด ์ค์ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๊ทธ ์ด์ ๋ bounding box๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ๋ณด๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌํ ์ด์ ๋๋ฌธ์ fast R-CNN๋ณด๋ค ์ข๋ค.
์ธ๋ฒ์งธ๋ YOLO๋ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋งค์ฐ ์ข๋ค. artwork(ํน์ํ ์ํฉ) ์ผ๋ฐ์ ์ธ ์ด๋ฏธ์ง์ ๊ฒฐ์ด ๋ค๋ฅด๋ค. ์ถํ์ ๋ค๋ฅธ ๋ถ๋ถ์ ์์ฉ์ ํ๊ณ ์ถ์ ๋์๋ YOLO๊ฐ ํจ์ฌ ํจ์จ์ ์ผ ๊ฒ์ด๋ค.
YOLO๋ SOTA๋ชจ๋ธ์ ๋นํด ์ ํ๋๋ ๋จ์ด์ง๋ค. ์์ object์ ๋ํด ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค.
์ด ๋ชจ๋ ๊ณผ์ ์ open source๋ก ์คํํ๋ค.
์ ๋ฆฌ : YOLO๋ ๋น ๋ฅด๊ณ ํตํฉ์ ์ด๊ณ ๊ฐ๋จํ ๋ชจ๋ธ์ด๋ค ๊ทธ๋ฆฌ๊ณ ๋ฒ์ฉ์ ์ผ๋ก ์์ฐ ์ด๋ฏธ์ง ๋ฟ๋ง์๋๋ผ ๋ค์ํ ์ํฉ์์๋ ๋์ํ๋ค. ํ์ง๋ง ์์ ์ค๋ธ์ ํธ๋ฅผ ์ฐพ๋๋ฐ๋ ๊ธฐ์กด SOTA๋ชจ๋ธ์ ๋นํด ์ฑ๋ฅ์ด ์ฝ๊ฐ ๋จ์ด์ง๋ค.
2. Unified Detection
ํ๋์ input์ด๋ฏธ์ง๋ฅผ ๋ฐ์์, ๊ทธ๊ฑฐ์ ๋ํด bounding box ์์ธก์ ํ๋ฒ์ ํ๋ ํํ์ด๋ค. ๋ฐ์ด๋ฉ๋ฐ์ค ํฌ์ง์
๋ฟ๋ง์๋๋ผ ํด๋์ค์ ๋ํ ํ๋ฅ ์์ธก๋ ํ๋ฒ์ ์ํํ๋ค. ์ ์ฒด๋ฅผ ๊ธ๋ก๋ฒํ๊ฒ ํ๋ฒ์ ๋ณด๋ ๊ตฌ์กฐ์ด๋ค. end-to-end ํ์ต์ด ๊ฐ๋ฅํ๊ณ real-time speed์ด ๊ฐ๋ฅํ๋ค.๋์ ์์ธก ํ๊ท ์ ์ ์งํ๋ค.
์ธํ์ด์ง๋ฏธ๋ฅผ s*s grid๋ก ์ชผ๊ฐ ๋ค, grid cell ๋ณ๋ก b๊ฐ์ bounding box๋ฅผ ๋ง๋ค๊ณ , ๋ฐ์ด๋ฉ๋ฐ์ค์ ๋ํ confidence score๋ฅผ ๊ฐ์ด ๋งค์นญ์ํค๊ณ , confidence score๋ ๋ชจ๋ธ์ด ํด๋น ๋ฐ์ค์์ object๊ฐ ํฌํจ๋์ด ์์ ๊ฑฐ๋ผ๋ ํ์ ํ๋ ์ ๋๋ฅผ ๋ํ๋ธ๋ค. ๋ฐ์ค๊ฐ ์ผ๋ง๋ ์ ํํ์ง ์์ธกํ๋ ์งํ์ด๋ค. YOLO๊ฐ์ ๊ฒฝ์ฐ๋
object๊ฐ ์์ ํ๋ฅ ๊ณฑํ๊ธฐ IOU๊ฐ์ด๋ค.
cell๋ด์ object๊ฐ ์์ผ๋ฉด confidence ๊ฐ 0์ด ๋๋ค. ์ฆ, confidence score๋ predicted box๊ณผ ground box์ IOU๊ณผ ๊ฐ๋ค.
๊ฐ๋ณ ๋ฐ์ด๋ฉ๋ฐ์ค๋ 5๊ฐ์ ์์ธก๊ฐ์ ๋์ถํ๋ค. x,y,w,h,c ์ด๋ค. (x,y)๋ ์ด๋ฏธ์ง๋ฐ์ด๋ฉ ๋ฐ์ค๋ด์ object๊ฐ ์กด์ฌํ๋ ์ผํฐ๊ฐ์ ์๋ฏธํ๋ค. (w,h)๋ ์ ์ฒด ์ด๋ฏธ์ง์ ์๋์ ์ธ width height๋ฅผ ์๋ฏธํ๋ค. ๋ง์ง๋ง์ผ๋ก confidence๋ 0์์ 1์ฌ์ด ๊ฐ์ ๋ํ๋ธ๋ค. predict์ ๋ํ ํ์ ์ ์ ๋๋ฅผ ๋ํ๋ธ๋ค.
๊ฐ๋ณ grid cell์์๋ ํด๋์ค์ ๋ํ ์์ธก๋ ํด์ผ๋๋ค. YOLOv1์์๋ class์ ๋ํ ์์ธก์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ณ๋ก ์์ธกํ๋ ๊ฒ ์๋๋ผ, ๊ทธ๋ฆฌ๋ ์
๋ณ๋ก class probability map์ ๋ง๋ค์ด์, ํด๋น ๊ทธ๋ฆฌ๋ ์
์์ object class ์์ธก์ ๋ํ softmax regression vector๋ฅผ ๊ฐ์ง๋ค.
์ฌ๊ธฐ์ ์ฌ์ฉํ๋ ๊ฐ๊ฐ์ ์์๋ค์ ์ค์ ๊ฐ์ด ์๋๋ฐ, ๊ทธ๋ฆฌ๋๋ฅผ ๋ช๊ฐ๋ก ๋๋ ๊ฑด์ง, bounding box๋ฅผ ๋ช๊ฐ ์์ธกํ ๊ฑด์ง, class
์๋
ผ๋ฌธ์์๋
2.1 Network Design
YOLO๋ convolution neural network๊ธฐ๋ฐํด์ ๊ฐ์ฒด์ธ์ ๋ชจ๋ธ์ ๋ง๋ ๋ค. PASCAL VOC ๋ฐ์ดํฐ์
์์ ์ฑ๋ฅ์ ํ๊ฐํ๋ค. CNN์๋ถ๋ถ์์๋ feature extraction์ ์งํํ๊ณ , ๋ค์ ๋ถ๋ถ์์๋ fully connected layer๋ก YOLO์ ๋ง๋ ํํ๋ก ์ถ๋ ฅํ๋ค (ํ๋ฅ ๋ฐ ์ขํ)
๋ฐฑ๋ณธ๊ตฌ์กฐ์ ์์ด๋์ด๋ GoogLeNet model์์ ์ฐจ์ฉ์ ํ๋ค. ์ด 24๊ฐ cnn layer์ 2๊ฐ fully connected layer๋ก ๊ตฌ์ฑ๋ 26 dense์ ๋ชจ๋ธ์ ๋ง๋ค์๋ค. ์ ์ฒด ๋คํธ์ํฌ ๊ตฌ์กฐ๋ figure 3์ ๋ํ๋์๋ค.
fast YOLO๋ 9 convolution layer ์ ๋ ์ ์ fiter๋ก ๊ตฌ์ฑํ๋ค.๋คํธ์ํฌ ์ฌ์ด์ฆ ๋ง๊ณ ๋ ๋๋จธ์ง ํ๊ฒฝ์ ๋์ผํจ.
์ต์ข
์์ํ์ 7*7*30 tensor๊ฐ ๋์ถ๋๋ค.
448 *448 resize input image
(๋ค์๋ณด๊ธฐ)
2.2 Training
YOLO๋ ImageNet 1000-class์ ๋ํด์ pre-trained model๋ฅผ ๊ฐ์ ธ์์ ์ด์ด์ ํ์ต์ ์งํํ๊ณ ์๋ค. ํ์ตํ๋๋ฐ ์ผ์ฃผ์ผ ์ ๋ ๊ฑธ๋ ธ๋ค. 88% ์ ํ๋๊ฐ ๋์ค๋ ์ด๋ฏธ์ง classification cnn์ ๋ง๋ค์๋ค. YOLO๋ ์์ฒด์ ์ธ c๋ก ๋ง๋ค์ด์ง Darknet ํ๋ ์์ํฌ๋ก ํ์ต์ ์์ผฐ๋ค.
์ด๋ฏธ์ง ๋ถ๋ฅ์ ๋ง๊ฒ ํ์ต๋ cnn๋ชจ๋ธ์ ๊ฐ์ฒด ํ์ง์ ๋ง๊ฒ ๋ค์ ํ์ต์ ์์ผฐ๋ค.20๊ฐ์ cnn์ ์ถ๊ฐ์ ์ผ๋ก 4๊ฐ์ convolutuon layer๋ฅผ ๋ํ๊ณ 2๊ฐ์ fullly connected layer๋ฅผ ๋ํด์ ํ์ต์ ์งํํ๋ค. ๊ฐ
6. Conclusion
ํตํฉ๋ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ ์ํ๋ค. ๋งค์ฐ ๊ฐ๋จํ๊ณ ์ ์ฒด์ด๋ฏธ์ง์์ ํ๋ฒ์ ํ์ต๋ ์ ์๋ค.
Fast YOLO๋ ๋น ๋ฅธ ์๋๋ก ์ฒ๋ฆฌํ ์ ์๋ค. YOLO๋ ๊ฐ๊ฑดํ๊ณ (rubust) ๋น ๋ฅธ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์๋ ์ข์ ์์คํ
์ด๋ค.
ย