๐Ÿ“‘Paper Review

[paper review]YOLOv1

date
Aug 3, 2023
slug
paper-review-yolov1
author
status
Public
tags
DeepLearning
paper
summary
YOLOv1 review for SESAC
type
Post
thumbnail
category
๐Ÿ“‘Paper Review
updatedAt
Aug 3, 2023 10:18 AM
ย 

You Only Look Once: Unified, Real-Time Object Detection

0. Abstract

YOLO๋ผ๋Š” ์ƒˆ๋กœ์šด ์•„์ด๋””์–ด๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ๊ธฐ์กด์˜ object detection ๋ชจ๋ธ๊ณผ ๋‹ค๋ฅด๋‹ค. ๊ธฐ์กด์˜ object detection์€ ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์—ˆ๋Š”๋ฐ, YOLO๋Š” ํ•œ๋ฒˆ์— ๋Œ€์‘๋˜๋Š” ์˜์—ญ์— bounding box๋ฅผ ์ฐพ๋Š” regression problem์œผ๋กœ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค. ๋‹จ์ผํ•œ neural network๊ฐ€ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค ์œ„์น˜์™€ ํด๋ž˜์Šค์˜ ํ™•๋ฅ ์„ ์ „์ฒด ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ํ•œ๋ฒˆ์— ํ‰๊ฐ€ํ•˜์˜€๋‹ค. end-to-end๋ฐฉ์‹์ด๋‹ค.
์šฐ๋ฆฌ๊ฐ€ ์ œ์•ˆํ•œ ๊ตฌ์กฐ๋Š” ๋งค์šฐ ๋น ๋ฅด๋‹ค. ์ดˆ๋‹น 45์žฅ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฑฐ์˜ real-time์— ์ค€ํ•˜๋‹ค. YOLO ๋ฐฑ๋ณธ์„ ๊ฒฝ๋Ÿ‰ํ™”ํ•œ fast YOLO๋Š” ์„ฑ๋Šฅ์€ ์กฐ๊ธˆ ๋–จ์–ด์ง€์ง€๋งŒ, ์ดˆ๋‹น 155์žฅ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. YOLO๋Š” ๋‹ค๋ฅธ state-of-the-art detection ๋ชจ๋ธ์— ๋น„ํ•ด localization error๋Š” ํด ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ฐฐ๊ฒฝ์— ๋Œ€ํ•œ false positive๋Š” ์ž‘๋‹ค.
YOLO๋Š” ๋ฒ”์šฉ์ ์ธ objection์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค. DPM and R-CNN์— ๋น„ํ•ด ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ผ๋ฐ˜์ ์ธ ์ž์—ฐ์ด๋ฏธ์ง€ ๋ฐ artwork์—์„œ๋„ ์ž˜ ๋™์ž‘ํ•œ๋‹ค.

1. Introduction

์‚ฌ๋žŒ์€ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋ฉด ํ•œ๋ฒˆ์— ์–ด๋–ค ํ•„์š”ํ•œ ๋ถ€๋ถ„์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‚ฌ๋žŒ์˜ ๋น„์ฃผ์–ผ ์‹œ์Šคํ…œ์€ ๋Œ€๊ฒŒ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๋‹ค. ๋ณต์žกํ•œ tast, ์˜ˆ๋ฅผ ์šด์ „์„ ํ•œ๋‹ค๊ฑฐ๋‚˜ ์ด๋Ÿฐ ๊ฒƒ์„ ๋งค์šฐ ์ ์€ ์ฃผ์˜๋งŒ ๊ธฐ์šธ๋ฆฌ๊ณ  ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ทธ๋ž˜์„œ ๋งŒ์•ฝ์— ์šฐ๋ฆฌ๊ฐ€ ์ •ํ™•ํ•˜๊ณ  ๋น ๋ฅธ object detection model๋ฅผ ์ปดํ“จํ„ฐ์— ๊ฐ€๋ฅด์ณ ์ค„ ์ˆ˜ ์žˆ๋‹ค๋ฉด ์ปดํ“จํ„ฐ๋Š” ์šด์ „๊ณผ ๊ฐ™์ด ๋ณต์žกํ•œ ๋ฌธ์ œ๋„ ์ถ”๊ฐ€์ ์ธ ์„ผ์„œ ๋ฐ์ดํ„ฐ ์—†์ด ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์•ž์„ ๋ฐ”๋ผ๋ณด๊ณ  ๊ทธ๊ฑธ ํ† ๋Œ€๋กœ ์šด์ „๊ฐ™์€ ๋ณต์žกํ•œ ๊ฒƒ์„ ์ปดํ“จํ„ฐ๋„ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.
์ •๋ฆฌ : ์ด๋ ‡๊ฒŒ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ object detection model์„ ์ปดํ“จํ„ฐ์— ์•Œ๋ ค ์ค„ ์ˆ˜ ์žˆ์œผ๋ฉด ๋งŽ์€ ๋„์›€์ด ๋  ๊ฒƒ์ด๋‹ค.
ํ˜„์žฌ ํƒ์ง€ ์‹œ์Šคํ…œ์€ ๋ถ„๋ฅ˜๊ธฐ(classifier) ๊ธฐ๋ฐ˜์œผ๋กœ ํƒ์ง€๋ฅผ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค. DPM๋„ ๋ถ„๋ฅ˜๊ธฐ์— ๊ธฐ๋ฐ˜ํ•œ ๋ชจ๋ธ์ด๋‹ค. ํ•˜๋‚˜์˜ ์ด๋ฏธ์ง€๊ฐ€ ๋“ค์–ด์˜ค๋ฉด ์—ฌ๋Ÿฌ๊ฐœ์˜ bounding box๋ฅผ ๋งŒ๋“ค๊ณ  ๊ทธ๊ฒƒ์— ๋Œ€ํ•ด ๊ฐœ๋ณ„ ๋ถ„๋ฅ˜๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด ์ง€๊ธฐ์— ์†๋„๊ฐ€ ์˜ค๋ž˜ ๊ฑธ๋ ธ๋‹ค.
๊ทธ ๋‹น์‹œ ์ตœ์‹  ๊ธฐ๋ฒ•์€ R-CNN๋Š” ๋จผ์ € ํ›„๋ณด๊ตฐ bounding box๋ฅผ ๋งŒ๋“ค๊ณ  classifier๋ฅผ ํ†ตํ•ด ์ฒ˜๋ฆฌํ•˜๋Š” ํ˜•ํƒœ์˜€๋‹ค.
๋ถ„๋ฅ˜ํ›„, ์ค‘๋ณต๋˜๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์ œ๊ฑฐํ•˜์˜€๋‹ค. ํŒŒ์ดํ”„๋ผ์ธ์ด ๋งค์šฐ๋Š๋ฆฌ๊ณ  ์ตœ์ ํ™”ํ•˜๊ธฐ๊ฐ€ ์–ด๋ ค์›Œ์„œ ๋ฌธ์ œ๊ฐ€ ์žˆ๋Š” ๋ชจ๋ธ์ด์—ˆ๋‹ค.
์šฐ๋ฆฌ๋Š” object detection๋ฌธ์ œ๋ฅผ ํšŒ๊ท€๋ฌธ์ œ๋กœ ๋ฐ”๊พธ๊ณ  ์ด๋ฏธ์ง€๋กœ ๋ถ€ํ„ฐ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค ํฌ์ง€์…˜์„ ๋ฐ”๋กœ ์ฐพ์•„๋‚ด๋Š” ํ˜•ํƒœ๋กœ ๋งŒ๋“ค์—ˆ๋‹ค. class ํ™•๋ฅ ๋„ ๋ฐ”๋กœ ์ฐพ์•„๋‚ด๋Š” ํ˜•ํƒœ๋กœ ๋งŒ๋“ค์—ˆ๋‹ค. YOLO๋Š” ์ด๋ฏธ์ง€๋ฅผ ํ•œ๋ฒˆ๋ณด๊ณ  ์ฒ˜๋ฆฌํ•œ๋‹ค๊ณ  ํ•ด์„œ ์ด๋Ÿฐ์ด๋ฆ„์„ ๋ถ™์˜€๋‹ค.
notion image
YOLO๋Š” figure1์ฒ˜๋Ÿผ ์ „๋ฐ˜์ „์œผ๋กœ input์ด๋ฏธ์ง€๊ฐ€ ๋“ค์–ด์˜ค๋ฉด resizeํ•ด์„œ cnn ๋„ฃ์„ ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋งŒ๋“ ๋‹ค์Œ์— cnn์—์„œ ์˜ค๋ธŒ์ ํŠธ๋””ํ…์Šค๋ฅผ ์•ˆ์—์„œ ์ˆ˜ํ–‰ํ•˜๋„๋ก ๋งŒ๋“ค์—ˆ๋‹ค. ๊ทธ๋‹ค์Œ non-max suppression์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.
๋งค์šฐ๊ฐ„๋‹จํ•˜๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” 448*448 ์‚ฌ์ด์ฆˆ๋กœ resizeํ–ˆ๋‹ค.
YOLO๋Š” ํ†ตํ•ฉ๋œ ๋ชจ๋ธ์ด๋‹ค. ๋ช‡๊ฐ€์ง€ ์žฅ์ ์ด ์žˆ๋‹ค.
์ฒซ๋ฒˆ์งธ ์žฅ์ ์€ ๋งค์šฐ ๋น ๋ฅด๋‹ค. YOLO๋Š” Regression problem์œผ๋กœ ํ•œ๋ฒˆ ๋ณด๋ฉด ํ•œ๋ฒˆ๋งŒ์— ์˜ˆ์ธกํ•œ๋‹ค. R-CNN ๊ฒฝ์šฐ๋Š” region proposal๋กœ 2000๋ฅผ ๊ทธ๋ ค์„œ 2000์žฅ์— ๋Œ€ํ•œ ๋ถ„๋ฅ˜๋ฅผ ํ•ด์•ผ๋˜๋Š”๋ฐ, ์ฆ‰ 1์žฅ์— ๋Œ€ํ•ด 2000๋ฒˆ์˜ ๋ถ„๋ฅ˜๋ฅผ ํ•ด์•ผ๋œ๋‹ค.
Tian X GPU๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ดˆ๋‹น 45์žฅ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅํ•˜๊ณ  fast ๋ฒ„์ „์€ ์ดˆ๋‹น 150์žฅ ์ •๋„ ๊ฐ์ฒด ํƒ์ง€๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋™์˜์ƒ๊ฐ™์€ ๊ณณ์—์„œ ์‚ฌ์šฉ๊ฐ€๋Šฅํ•˜๋‹ค. ๊ฒŒ๋‹ค๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋ธ์— ๋น„ํ•ด mean average precision๋„ ์ข‹๋‹ค.
๋‘๋ฒˆ์งธ ์žฅ์ ์€ ์ด๋ฏธ์ง€๋ฅผ ํ•œ๋ฒˆ์— ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค์–ด ๋‚ธ๋‹ค. ์ „์ฒด๋ฅผ ํ•œ๋ฒˆ์— ๋ณด๊ธฐ๋•Œ๋ฌธ์— ์ „์ฒด ์ด๋ฏธ์ง€์˜ ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ fast R-cnn์€ ๋ฐฑ๊ทธ๋ผ์šด ํŒจ์น˜์— ๋Œ€ํ•ด ์‹ค์ˆ˜ ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ๊ทธ ์ด์œ ๋Š” bounding box๋ฅผ ๋ถ€๋ถ„์ ์œผ๋กœ ๋ณด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋Ÿฌํ•œ ์ด์œ  ๋•Œ๋ฌธ์— fast R-CNN๋ณด๋‹ค ์ข‹๋‹ค.
์„ธ๋ฒˆ์งธ๋Š” YOLO๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ๋งค์šฐ ์ข‹๋‹ค. artwork(ํŠน์ˆ˜ํ•œ ์ƒํ™ฉ) ์ผ๋ฐ˜์ ์ธ ์ด๋ฏธ์ง€์™€ ๊ฒฐ์ด ๋‹ค๋ฅด๋‹ค. ์ถ”ํ›„์— ๋‹ค๋ฅธ ๋ถ€๋ถ„์— ์‘์šฉ์„ ํ•˜๊ณ  ์‹ถ์„ ๋•Œ์—๋„ YOLO๊ฐ€ ํ›จ์”ฌ ํšจ์œจ์ ์ผ ๊ฒƒ์ด๋‹ค.
YOLO๋Š” SOTA๋ชจ๋ธ์— ๋น„ํ•ด ์ •ํ™•๋„๋Š” ๋–จ์–ด์ง„๋‹ค. ์ž‘์€ object์— ๋Œ€ํ•ด ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง„๋‹ค.
์ด ๋ชจ๋“  ๊ณผ์ •์„ open source๋กœ ์˜คํ”ˆํ–ˆ๋‹ค.
์ •๋ฆฌ : YOLO๋Š” ๋น ๋ฅด๊ณ  ํ†ตํ•ฉ์ ์ด๊ณ  ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ์ด๋‹ค ๊ทธ๋ฆฌ๊ณ  ๋ฒ”์šฉ์ ์œผ๋กœ ์ž์—ฐ ์ด๋ฏธ์ง€ ๋ฟ๋งŒ์•„๋‹ˆ๋ผ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ๋„ ๋™์ž‘ํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์ž‘์€ ์˜ค๋ธŒ์ ํŠธ๋ฅผ ์ฐพ๋Š”๋ฐ๋Š” ๊ธฐ์กด SOTA๋ชจ๋ธ์— ๋น„ํ•ด ์„ฑ๋Šฅ์ด ์•ฝ๊ฐ„ ๋–จ์–ด์ง„๋‹ค.

2. Unified Detection

ํ•˜๋‚˜์˜ input์ด๋ฏธ์ง€๋ฅผ ๋ฐ›์•„์„œ, ๊ทธ๊ฑฐ์— ๋Œ€ํ•ด bounding box ์˜ˆ์ธก์„ ํ•œ๋ฒˆ์— ํ•˜๋Š” ํ˜•ํƒœ์ด๋‹ค. ๋ฐ”์šด๋”ฉ๋ฐ•์Šค ํฌ์ง€์…˜๋ฟ๋งŒ์•„๋‹ˆ๋ผ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํ™•๋ฅ ์˜ˆ์ธก๋„ ํ•œ๋ฒˆ์— ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ „์ฒด๋ฅผ ๊ธ€๋กœ๋ฒŒํ•˜๊ฒŒ ํ•œ๋ฒˆ์— ๋ณด๋Š” ๊ตฌ์กฐ์ด๋‹ค. end-to-end ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๊ณ  real-time speed์ด ๊ฐ€๋Šฅํ•˜๋‹ค.๋†’์€ ์˜ˆ์ธก ํ‰๊ท ์„ ์œ ์ง€ํ•œ๋‹ค.
์ธํ’‹์ด์ง€๋ฏธ๋ฅผ s*s grid๋กœ ์ชผ๊ฐ  ๋’ค, grid cell ๋ณ„๋กœ b๊ฐœ์˜ bounding box๋ฅผ ๋งŒ๋“ค๊ณ , ๋ฐ”์šด๋”ฉ๋ฐ•์Šค์— ๋Œ€ํ•œ confidence score๋ฅผ ๊ฐ™์ด ๋งค์นญ์‹œํ‚ค๊ณ , confidence score๋Š” ๋ชจ๋ธ์ด ํ•ด๋‹น ๋ฐ•์Šค์•ˆ์— object๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์„ ๊ฑฐ๋ผ๋Š” ํ™•์‹ ํ•˜๋Š” ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๋ฐ•์Šค๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ์ง€ ์˜ˆ์ธกํ•˜๋Š” ์ง€ํ‘œ์ด๋‹ค. YOLO๊ฐ™์€ ๊ฒฝ์šฐ๋Š”
notion image
object๊ฐ€ ์žˆ์„ ํ™•๋ฅ  ๊ณฑํ•˜๊ธฐ IOU๊ฐ’์ด๋‹ค.
cell๋‚ด์— object๊ฐ€ ์—†์œผ๋ฉด confidence ๊ฐ€ 0์ด ๋œ๋‹ค. ์ฆ‰, confidence score๋Š” predicted box๊ณผ ground box์˜ IOU๊ณผ ๊ฐ™๋‹ค.
๊ฐœ๋ณ„ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค๋Š” 5๊ฐœ์˜ ์˜ˆ์ธก๊ฐ’์„ ๋„์ถœํ•œ๋‹ค. x,y,w,h,c ์ด๋‹ค. (x,y)๋Š” ์ด๋ฏธ์ง€๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋‚ด์˜ object๊ฐ€ ์กด์žฌํ•˜๋Š” ์„ผํ„ฐ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค. (w,h)๋Š” ์ „์ฒด ์ด๋ฏธ์ง€์˜ ์ƒ๋Œ€์ ์ธ width height๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ confidence๋Š” 0์—์„œ 1์‚ฌ์ด ๊ฐ’์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. predict์— ๋Œ€ํ•œ ํ™•์‹ ์˜ ์ •๋„๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.
๊ฐœ๋ณ„ grid cell์—์„œ๋Š” ํด๋ž˜์Šค์— ๋Œ€ํ•œ ์˜ˆ์ธก๋„ ํ•ด์•ผ๋œ๋‹ค. YOLOv1์—์„œ๋Š” class์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ณ„๋กœ ์˜ˆ์ธกํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, ๊ทธ๋ฆฌ๋“œ ์…€๋ณ„๋กœ class probability map์„ ๋งŒ๋“ค์–ด์„œ, ํ•ด๋‹น ๊ทธ๋ฆฌ๋“œ ์…€์—์„œ object class ์˜ˆ์ธก์— ๋Œ€ํ•œ softmax regression vector๋ฅผ ๊ฐ€์ง„๋‹ค.
์—ฌ๊ธฐ์„œ ์‚ฌ์šฉํ•˜๋Š” ๊ฐ๊ฐ์˜ ์š”์†Œ๋“ค์˜ ์„ค์ •๊ฐ’์ด ์žˆ๋Š”๋ฐ, ๊ทธ๋ฆฌ๋“œ๋ฅผ ๋ช‡๊ฐœ๋กœ ๋‚˜๋ˆŒ ๊ฑด์ง€, bounding box๋ฅผ ๋ช‡๊ฐœ ์˜ˆ์ธกํ•  ๊ฑด์ง€, class
์›๋…ผ๋ฌธ์—์„œ๋Š”
notion image

2.1 Network Design

YOLO๋Š” convolution neural network๊ธฐ๋ฐ˜ํ•ด์„œ ๊ฐ์ฒด์ธ์‹ ๋ชจ๋ธ์„ ๋งŒ๋“ ๋‹ค. PASCAL VOC ๋ฐ์ดํ„ฐ์…‹์—์„œ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ–ˆ๋‹ค. CNN์•ž๋ถ€๋ถ„์—์„œ๋Š” feature extraction์„ ์ง„ํ–‰ํ•˜๊ณ , ๋’ค์— ๋ถ€๋ถ„์—์„œ๋Š” fully connected layer๋กœ YOLO์— ๋งž๋Š” ํ˜•ํƒœ๋กœ ์ถœ๋ ฅํ•œ๋‹ค (ํ™•๋ฅ ๋ฐ ์ขŒํ‘œ)
๋ฐฑ๋ณธ๊ตฌ์กฐ์˜ ์•„์ด๋””์–ด๋Š” GoogLeNet model์—์„œ ์ฐจ์šฉ์„ ํ–ˆ๋‹ค. ์ด 24๊ฐœ cnn layer์™€ 2๊ฐœ fully connected layer๋กœ ๊ตฌ์„ฑ๋œ 26 dense์˜ ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋‹ค. ์ „์ฒด ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋Š” figure 3์— ๋‚˜ํƒ€๋‚˜์žˆ๋‹ค.
fast YOLO๋Š” 9 convolution layer ์™€ ๋” ์ ์€ fiter๋กœ ๊ตฌ์„ฑํ–ˆ๋‹ค.๋„คํŠธ์›Œํฌ ์‚ฌ์ด์ฆˆ ๋ง๊ณ ๋Š” ๋‚˜๋จธ์ง€ ํ™˜๊ฒฝ์€ ๋™์ผํ•จ.
์ตœ์ข… ์•„์›ƒํ’‹์€ 7*7*30 tensor๊ฐ€ ๋„์ถœ๋œ๋‹ค.
notion image
448 *448 resize input image
(๋‹ค์‹œ๋ณด๊ธฐ)

2.2 Training

YOLO๋Š” ImageNet 1000-class์— ๋Œ€ํ•ด์„œ pre-trained model๋ฅผ ๊ฐ€์ ธ์™€์„œ ์ด์–ด์„œ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค. ํ•™์Šตํ•˜๋Š”๋ฐ ์ผ์ฃผ์ผ ์ •๋„ ๊ฑธ๋ ธ๋‹ค. 88% ์ •ํ™•๋„๊ฐ€ ๋‚˜์˜ค๋Š” ์ด๋ฏธ์ง€ classification cnn์„ ๋งŒ๋“ค์—ˆ๋‹ค. YOLO๋Š” ์ž์ฒด์ ์ธ c๋กœ ๋งŒ๋“ค์–ด์ง„ Darknet ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ํ•™์Šต์„ ์‹œ์ผฐ๋‹ค.
์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์— ๋งž๊ฒŒ ํ•™์Šต๋œ cnn๋ชจ๋ธ์„ ๊ฐ์ฒด ํƒ์ง€์— ๋งž๊ฒŒ ๋‹ค์‹œ ํ•™์Šต์„ ์‹œ์ผฐ๋‹ค.20๊ฐœ์˜ cnn์— ์ถ”๊ฐ€์ ์œผ๋กœ 4๊ฐœ์˜ convolutuon layer๋ฅผ ๋”ํ•˜๊ณ  2๊ฐœ์˜ fullly connected layer๋ฅผ ๋”ํ•ด์„œ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ๋‹ค. ๊ฐœ

6. Conclusion

ํ†ตํ•ฉ๋œ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์„ ์ œ์•ˆํ–ˆ๋‹ค. ๋งค์šฐ ๊ฐ„๋‹จํ•˜๊ณ  ์ „์ฒด์ด๋ฏธ์ง€์—์„œ ํ•œ๋ฒˆ์— ํ•™์Šต๋  ์ˆ˜ ์žˆ๋‹ค.
Fast YOLO๋Š” ๋น ๋ฅธ ์†๋„๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. YOLO๋Š” ๊ฐ•๊ฑดํ•˜๊ณ (rubust) ๋น ๋ฅธ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค„ ์ˆ˜ ์žˆ๋Š” ์ข‹์€ ์‹œ์Šคํ…œ์ด๋‹ค.
ย