๐Paper Review
[paper reivew] Resolution-robust Large Mask Inpainting with Fourier Convolutions
date
May 18, 2023
slug
Resolution-robust
author
status
Public
tags
DeepLearning
paper
summary
type
Post
thumbnail
category
๐Paper Review
updatedAt
Sep 6, 2024 03:34 PM
Abstract
ํ๋์ ์ด๋ฏธ์ง ์ธํ์ธํ
์์คํ
์ ๋ฌธ์
- ๋๊ท๋ชจ ๋๋ฝ
- ๋ณตํฉํ ์ฌ์ง
- ๊ณ ํด์๋ ์ด๋ฏธ์ง
- ์ธํ์ธํ ๋คํธ์ํฌ์ ์์คํจ์์ ๋ชจ๋ ํจ์จ์ ์ธ receptive field๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ
- receptive field
- ์ถ๋ ฅ ๋ ์ด์ด์ ๋ด๋ฐ ํ๋์ ์ํฅ์ ๋ฏธ์น๋ ์ ๋ ฅ ๋ด๋ฐ๋ค์ ๊ณต๊ฐ ํฌ๊ธฐ
LaMa ์ ์
- FFC๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ์ ๋ฐ์ ๋ํ receptive field๋ฅผ ๊ฐ์ง๋ ์๋ก์ด inpainting network ๊ตฌ์กฐ
- high receptive field perceptual loss
- large training masks
ย
B. Introduction
๋ํ ๋ง์คํฌ๊ฐ ์กด์ฌํ๋ ๋ฌธ์ ์ ๊ฒฝ์ฐ receptive field๊ฐ ํด๋น ๋ง์คํฌ ํฌ๊ธฐ ์ด์์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ ์์ด์ผ inpainting์ ์์ฑํ ์ ์์ง๋ง, popular convolutional architecture๋ค์ด ๊ทธ ์ ๋๋ก ํฐ receptive field๋ฅผ ๊ฐ์ง๊ณ ์์ง ์์.
ํด๊ฒฐ ๋ฐฉ์
- FFC๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ์ ๋ฐ์ ๋ํ receptive field๋ฅผ ๊ฐ์ง๋ ์๋ก์ด inpainting network ๊ตฌ์กฐ
- high receptive field perceptual loss
- large training masks
ย
contribution
- ์ ํด์๋ ๋ฐ์ดํฐ์ ๋ํ ๊ต์ก๋ง์ผ๋ก ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ผ๋ฐํ ํ ์ ์์
- complex periodic sructures๋ฅผ ์์ฑํ ์ ์์
- ๋ํ ๋ง์คํฌ์ robust ํจ
- ์ ์ ํ๋ผ๋ฏธํฐ๋ก๋ ๋ฌ์ฑ ๊ฐ๋ฅํ๊ธฐ์ ๋ฒ ์ด์ค๋ผ์ธ๋ค์ ๋นํด ์ถ๋ก ์๊ฐ์ด ์งง์
ย
C. Method
x : color image
m : unknown pixels (mask)
xโm : masked image
๋ง์คํฌ๋ ์ด๋ฏธ์ง ๋ง์คํฌ๋ฅผ ์์ ๋ง๋ 4์ฑ๋ ์
๋ ฅํ
์ : x'=stack(xโm,m)
feed-forward inpainting network (generator) : fฮธ()
x'๋ฅผ ๋ฃ์ผ๋ฉด, fully-convolutional ๋ฐฉ๋ฒ์ผ๋ก ์ฒ๋ฆฌํ๊ณ , ํฉ์ฑ๋ 3์ฑ๋ color image์ธ x_hat = fฮธ(x')์ ์์ฑ
์ค์ ์ด๋ฏธ์ง์ ํฉ์ฑ ์ด๋ฏธ์ง์ ์์ ๋ํด ํ์ต ์ํ
ย
C-1. Global context within early layers
resnet ๊ฐ์ fully-convolutional model๋ค์ ๋คํธ์ํฌ์ ์ด๊ธฐ ๊ณ์ธต์ ์ฌ์ฉ๋๋ 3x3๊ณผ ๊ฐ์ ์์ ์ปค๋ ๋๋ฌธ์ ๋ง์ ์ธต์์ global context๊ฐ ๋ถ์กฑํ๊ณ , ์ด๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ง์ ๊ณ์ฐ๊ณผ parameter๊ฐ ๋ญ๋น๋จ
ํนํ ๊ณ ํด์๋ ์ด๋ฏธ์ง์์ ๋๋๋ฌ์ง
fast fourier convolution์ ์ด๊ธฐ ๊ณ์ธต์์ global context ์ฌ์ฉ ๊ฐ๋ฅ
ย
FFC
- local branch๋ ๊ธฐ์กด์ convolution์ ์ฌ์ฉ
- global branch๋ FFT ์ฌ์ฉ
- global branch์ ๋ชฉ์ ์ ์ด๊ธฐ ๊ณ์ธต์์ global context๋ฅผ ๊ณ ๋ คํ๊ธฐ ์ํจ
- FFT๋ฅผ ํตํด spatial domain์ ์ ๋ณด๋ฅผ spectral domain์ผ๋ก ๋ฐ๊พธ๋ฉด, global context๊ฐ ๊ณ ๋ ค๋จ (FFT๋ ์๊ฐ์ถ์์์ ํํ์ ์ฃผํ์์ถ์์ ๋ณด๋๋ก ๋ณํ)\
- ์์
- Real FFT2d๋ฅผ input tensor์ ์ ์ฉ
- real part์ imaginary part ๋ณํฉ
- spectral domain์์ conv
- Spatial structure๋ก ๋ณต์ํ๊ธฐ ์ํด inverse transform
- local branch์ global branch ๋ณํฉ
- ๊ณต๊ฐ ๋ฐ ์คํํธ๋ผ ์ ๋ณด ์ฆ local๊ณผ global ์ ๋ณด๋ฅผ ๋ชจ๋ ํ์ตํ ์ ์์
C-2. Loss function
- High receptive field perceptual loss
- ๋ ผ๋ฌธ์์์ perceptual loss (์์ธก ์ด๋ฏธ์ง์ ๋ชฉํ์ด๋ฏธ์ง๊ฐ ์ค์ฐจ)
- Adversarial loss
- The final loss function
- R1: gradient penalty
- DiscPL : discriminator-based perceptual loss (feature matching loss)
ย
C-3. Generation of masks during training
์๋์ ๊ฐ์ ์ ์ฒด์ด๋ฏธ์ง์ 50%๋ฅผ ๋์ง ์๋ ๋ค์ํ mask๋ฅผ ์ฌ์ฉ
ย
ย
D. Experiments
LaMa์ ํ๋ผ๋ฏธํฐ ์๊ฐ ๋ ์ ์ง๋ง, ์ ๋ฐ์ ์ผ๋ก ์ฑ๋ฅ์ด ๋ฐ์ด๋๊ณ , ํนํ segmentation mask์์์ ์ฑ๋ฅ์ ๊ฐ์ฅ ์ข์
ย
FFC๋ฅผ ์ฌ์ฉํ์ ๋ ๋ฐ๋ณต ์ ์ด๊ณ , ๊ท์น์ ์ธ ํจํด์ ๋ณต์ํ๋ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋๊ณ , ๋์ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์์ฑ ํ ๋ ํด์๋์ ์์ค์ด ์ ์
ย
ย
E. Experiments on UAV data
ย
์๋ณธ ์ด๋ฏธ์ง
๋ง์คํฌ
๊ฒฐ๊ณผ
- masking ๋ ๋ถ๋ถ์ ๋ํ ์์์ฒ๋ผ ์ฐจ๋์ ํ์์ด ๋ณต์๋จ
- ํด๋น ๋ชจ๋ธ์ masking ๋ ๋ถ๋ถ์ ๋ํ ์๋ณธ ์ ๋ณด๋ฅผ ๊ฐ์ง ์์ ์ฑ๋ก inpainting ํ๋ฉฐ, ๋์ผ ์ฌ์ง์ผ๋ก training ํ์ง๋ ์์๊ธฐ์ ์ฐจ๋ฅผ ๋ณต์ํ ์ ์์
- ์ฌ์ง์ด ๋นจ๊ฐ ์ฐจ์ ๋ํด์๋ ๋นจ๊ฐ์์ผ๋ก, ํ๋ ์ฐจ์ ๋ํด์๋ ํ๋์์ผ๋ก ๋ณต์ ํ๋ค๋ ๊ฒ์ gan ๋ชจ๋ธ์ด ๊ฐ๋ ๋ฌธ์ ๋ผ๊ธฐ ๋ณด๋จ, segmentation mask๊ฐ ํด๋น ๋ฌผ์ฒด์ ๋ํด ์์ ํ ๊ฐ๋ฆฌ์ง ๋ชปํ ๊ฒ์ผ๋ก ์์
- ์ด์ segmentaion mask์ ํฌ๊ธฐ๋ฅผ ์ฃผ๋ณ์ผ๋ก ํ ํฝ์ ์ฉ ๋ํ๊ฐ๋ฉฐ inpainting ๊ฒฐ๊ณผ ๋น๊ต
ย
- ๊ฒฐ๋ก
- 10ํฝ์ ๋ํ ๊ฒฐ๊ณผ ์ฌ์ ํ ์กฐ๊ธ์ ์์์ด ๋จ์ง๋ง, ์ฐจ๋์์ ์ธ์ํ๊ธฐ ์ด๋ ค์ด ์ ๋
- 15 ํฝ์ ๋ํ ๊ฒฐ๊ณผ inpainting์ด ์ ๋จ
- segmentaion ํ ๋ฌผ์ฒด๊ฐ ์ถฉ๋ถํ ํฌํจ๋๋๋ก mask์ ๋ฒ์๋ฅผ ๋ํ๋ ์์ ์ด ํ์ํจ
ย