XAI

XAI Method 2

date
Jul 9, 2023
slug
xai-method-2
author
status
Public
tags
DeepLearning
XAI
summary
type
Post
thumbnail
Untitled (1).png
category
XAI
updatedAt
Sep 6, 2024 12:45 PM

<Influence function-based>

notion image
๋งˆ์ง€๋ง‰์œผ๋กœ ์ง€๊ธˆ๊นŒ์ง€ ๋ณธ ๊ฒƒ๋“ค๊ณผ๋Š” ์•ฝ๊ฐ„ ๋‹ค๋ฅธ influence function์˜ ๊ธฐ๋ฐ˜ํ•œ ์„ค๋ช… ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•˜๊ฒ ๋‹ค. ์ง€๊ธˆ๊นŒ์ง€๋Š” ์ฃผ์–ด์ง„ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๊ฐ€ ์žˆ์œผ๋ฉด ๋ชจ๋ธ์ด ์ด๋ฏธ์ง€๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ณ  ๊ทธ ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ํ•ด๋‹น ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€์—์„œ ํ•˜์ด๋ผ์ดํŠธ ํ•˜๋Š” ๋ฐฉ์‹์˜ ๋ฐฉ๋ฒ•๋“ค์ด์—ˆ๋‹ค.
๊ทธ๋Ÿฐ๋ฐ ์ด ๋ฐฉ๋ฒ•์—์„œ๋Š”, ์ฃผ์–ด์ง„ ๋ชจ๋ธ์ด ์–ด๋–ค ํ•™์Šต๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•œ ๊ฒƒ์ด๋ฏ€๋กœ ๊ทธ ๋ฐ์ดํ„ฐ์…‹์— ์žˆ๋Š” ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€๋“ค์˜ ํ•จ์ˆ˜๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ณ , ๋”ฐ๋ผ์„œ ๊ฐ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š”๋ฐ ๊ฐ€์žฅ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€๊ฐ€ ํ•ด๋‹น๋ถ„๋ฅ˜์— ๋Œ€ํ•œ ์„ค๋ช…์ด๋ผ๊ณ  ์ œ๊ณต์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
notion image
[Koh and Liang, Understanding black-box predictions via influence functions, ICML 2017]
์ฆ‰, ์ด ๊ทธ๋ฆผ์—์„œ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€๋“ค์ด ์žˆ๋Š”๋ฐ, ์ด ์ฃผ์–ด์ง„ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ๊ฐ•์•„์ง€๋ผ๊ณ  ๋ถ„๋ฅ˜ํ•˜๋Š”๋ฐ ์žˆ์–ด์„œ ๊ฐ€์žฅ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ ํŠธ๋ ˆ์ด๋‹ ์ƒ˜ํ”Œ์€ ์—ฌ๊ธฐ ๋นจ๊ฐ„์ƒ‰์œผ๋กœ ํ‘œ์‹œํ•œ ์ •๋ฉด์„ ๋ฐ”๋ผ๋ณด๊ณ  ์žˆ๋Š” ๊ฐ•์•„์ง€ ์ด๋ฏธ์ง€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์ด๋‹ค.
๊ทธ๋ž˜์„œ ์ด ํŠธ๋ ˆ์ด๋‹ ์ƒ˜ํ”Œ ๋ณด์—ฌ ์ฃผ๊ฒŒ ๋˜๋ฉด ํ•ด๋‹น ํ…Œ์ŠคํŠธ์— ๋Œ€ํ•œ ๊ฐ€์žฅ ํฐ ๋„์›€์„ ์ค€ ํ•™์Šต ์ด๋ฏธ์ง€๋ž€ ๊ฒƒ์„ ๋ณด์—ฌ ์คŒ์œผ๋กœ์จ ์„ค๋ช…์„ ํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

1) Influence function

notion image
์ด๋Ÿฌํ•œ ์ข…๋ฅ˜์˜ ์„ค๋ช…์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ๋Š” influence function ์ด๋ผ๋Š” ๊ฒƒ์„ ํ™œ์šฉํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ๋งŒ์•ฝ ์–ด๋–ค ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€(์—ฌ๊ธฐ๋Š” z๋กœ ํ‘œ์‹œ)์—†์ด ๋ชจ๋ธ์„ ํ›ˆ๋ จ ์‹œ์ผฐ์„ ๋•Œ ํ•ด๋‹น ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€์— ๋ถ„๋ฅ˜ ์Šค์ฝ”์–ด๊ฐ€ ์–ผ๋งˆ๋งŒํผ ๋ณ€ํ•  ๊ฒƒ์ธ์ง€๋ฅผ ๊ทผ์‚ฌํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ๋ฐ”๋กœ influence function์ด๋‹ค.
๊ทธ๋ž˜์„œ ๊ทธ ํ•จ์ˆ˜๊ฐ’์„ ๊ฐ€์ง€๊ณ  ๊ฐ ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€๋งˆ๋‹ค ์ด ์˜ํ–ฅ๋ ฅ์„ ๊ณ„์‚ฐํ•˜๊ณ  ๊ทธ ์˜ํ–ฅ๋ ฅ์ด ๊ฐ€์žฅ ํฐ ์ด๋ฏธ์ง€๋ฅผ ์„ค๋ช…์œผ๋กœ ์ œ๊ณตํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.
notion image
์ด๋Ÿฌํ•œ influence function์„ ์ด์šฉํ•ด์„œ ์™ผ์ชฝ ์œ„์— ์žˆ๋Š” ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ๋ฌผ๊ณ ๊ธฐ๋ผ๊ณ  ๋ถ„๋ฅ˜ํ•˜๋Š”๋ฐ ์žˆ์–ด์„œ ๊ฐ€์žฅ ๋„์›€์„ ์ค€ ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€๋“ค์„ ์ฐพ์•„๋‚ธ ์˜ˆ์‹œ๊ฐ€ ๊ทธ๋ฆผ์— ๋‚˜์™€์žˆ๋‹ค.
์—ฌ๊ธฐ์„œ๋Š” ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ, ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ ๋‘ ๋ฒˆ์งธ ํ–‰์— ๋‚˜์™€ ์žˆ๋Š” RBF ์ปค๋„์„ ์‚ฌ์šฉํ•˜๋Š” svm ๋ชจ๋ธ๊ณผ ๋˜ Inception์ด๋ผ๋Š” CNN ๋ชจ๋ธ ์—์„œ ๋ฝ‘์•„๋‚ธ ํŠน์ง•๋“ค์— ๊ธฐ๋ฐ˜ํ•œ ๋ถ„๋ฅ˜๊ธฐ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ์ œ๊ณตํ•˜๊ณ  ์žˆ๋‹ค.
๊ทธ๋ฆผ์„ ๋ณด๋ฉด svm ๋ชจ๋ธ์€ ๋‹จ์ˆœํžˆ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€์™€ ์ƒ‰๊น”์ด ๋น„์Šทํ•œ ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€๋“ค์„ ์ค‘์š”ํ•˜๊ฒŒ ์‚ฌ์šฉํ•ด์„œ ํ…Œ์ŠคํŠธ๋ฅผ ํ•˜๊ฒŒ ๋œ๋‹ค. ๋ฐ˜๋ฉด์—, ์ธ์…‰์…˜ ๋ชจ๋ธ์€ ์‹ค์ œ๋กœ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€์™€ ๋งค์šฐ ์œ ์‚ฌํ•œ ๊ทธ๋Ÿฐ ๋น„์Šทํ•œ ์—ด๋Œ€์–ด ์‚ฌ์ง„๋“ค์ด ์ค‘์š”ํ•˜๊ฒŒ ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€๋กœ ์ž‘์šฉํ•œ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๊ณ  ์ด๋ฅผ ํ†ตํ•ด์„œ ์ธ์…‰์…˜ ๋ชจ๋ธ์ด ๋” ์ œ๋Œ€๋กœ ๋œ ํŠน์ง•๋“ค์„ ์ž˜ ๋ฝ‘์•„๋‚ด์„œ ํ•™์Šตํ•˜๊ณ  ๋ถ„๋ฅ˜ํ•˜๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

<Quantitative Metrics>

notion image
์ด๋Ÿฌํ•œ XAI๋ฐฉ๋ฒ•๋“ค์„ ์–ด๋–ป๊ฒŒ ๋น„๊ตํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š”์ง€, ๊ณ ์•ˆ๋œ ์„ค๋ช…๋ฐฉ๋ฒ•๋“ค์— ๋ฌธ์ œ์ ๋“ค์€ ์—†๋Š”์ง€ ์‚ดํŽด๋ณด๊ฒ ๋‹ค.
์•ž์„œ ๋ง์”€๋“œ๋ฆฐ ๊ฒƒ์ฒ˜๋Ÿผ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ๊ณ ์•ˆ๋œ xai์˜ ๋ฐฉ๋ฒ•๋“ค์ด ์žˆ๋Š”๋ฐ, ๊ณผ์—ฐ ์–ด๋Š ๋ฐฉ๋ฒ•์ด ์ข‹์€ ์„ค๋ช… ๋ฐฉ๋ฒ•์ธ์ง€ ์ด๋Ÿฐ ๊ฒƒ๋“ค์„ ํ‰๊ฐ€ ์ดํ•ดํ•  ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค์— ๊ด€ํ•œ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค.

1) Metrics : Human-based visual assessment

๊ฐ€์žฅ ๋จผ์ € ์‰ฝ๊ฒŒ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์€ ์‚ฌ๋žŒ๋“ค์ด ์ง์ ‘ ์ด๋Ÿฌํ•œ Xai ๋ฐฉ๋ฒ•๋“ค์ด ๋งŒ๋“ค์–ด ๋‚ธ ์„ค๋ช…์„ ๋ณด๊ณ  ๋น„๊ต ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
notion image
notion image
[Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization [Ramprasaath et al., 2017]
Amazon Mechanical Turk ๊ฐ™์€ ๊ฒƒ๋“ค์„ ํ™œ์šฉํ•ด์„œ ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ์ง์ ‘ ํ€ด์ฆˆ๋ฅผ ๋‚ด๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ํ•œ ์˜ˆ๋กœ ์•„๋ž˜์™€ ๊ฐ™์ด ์ž…๋ ฅ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ ์–ด๋–ค ๋ชจ๋ธ์ด ์‚ฌ๋žŒ์ด๋‚˜ ๋˜๋Š” ๋ง์ด๋ผ๊ณ  ์˜ˆ์ธก์„ ํ•˜์˜€๊ณ , ๊ทธ ์˜ˆ์ธก์— ๋Œ€ํ•œ ์„ค๋ช…์„ ์˜ค๋ฅธ์ชฝ์— ๋ณด์—ฌ ์ค๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋ฉด ์‚ฌ๋žŒ๋“ค์ด ๊ทธ๋Ÿฐ ์„ค๋ช…์„ ๋ณด๊ณ  ์ด ๋ชจ๋ธ์ด ๊ณผ์—ฐ ์–ด๋–ค ์˜ˆ์ธก์„ ํ•˜์˜€๋Š”์ง€, ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ ์–ด๋–ค ์˜ˆ์ธก์— ๋Œ€ํ•œ ์„ค๋ช…์ธ์ง€๋ฅผ ๋งž์ถฐ ๋ณด๋„๋ก ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๋งŒ์•ฝ์— ์ด๋Ÿฌํ•œ ์„ค๋ช…์ด "๋ง"์„ ํ•˜์ด๋ผ์ดํŠธ ํ•˜๊ณ  ์žˆ๋‹ค๊ณ  ํ•˜๋ฉด ์‚ฌ๋žŒ๋“ค์€ ๊ทธ ์„ค๋ช…์„ ๋ณด๊ณ  ์•„๋งˆ๋„ ์ด ๋ชจ๋ธ์ด ๋ง์ด๋ผ๊ณ  ์˜ˆ์ธก ํ•˜์˜€์„ ๊ฒƒ์ด๋ผ๊ณ  ํ•  ๊ฒƒ์ด๊ณ , ๋งŒ์•ฝ ๊ทธ๊ฒƒ์ด ์ง„์งœ ๋งž๋Š” ๋ชจ๋ธ ์˜ˆ์ธก ์ด๋ผ๋ฉด ๋Œ€ํ•œ ์„ค๋ช…์€ ์ž˜ ๋œ ๊ฒƒ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋‘ ๊ฐ€์ง€ ์„ค๋ช…๋ฐฉ๋ฒ• ์ด ์˜ˆ์—์„œ๋Š” Guided Backprop๊ณผ Guided Grad-CAM์„ ์ง์ ‘์ ์œผ๋กœ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๊ณ ์š”.
์—ฌ๊ธฐ์„œ๋Š” Guided grad-cam์ด๋ผ๋Š” ๋ฐฉ๋ฒ•์— ์„ค๋ช…์„ ๋ณด๊ณ  ์‚ฌ๋žŒ๋“ค์ด ๋” ๋ชจ๋ธ์˜ ์˜ˆ์ธก์„ ์ž˜ ๋งˆ์ถ”์—ˆ์œผ๋‹ˆ(61.23%) , Guided grad-cam์ด๋ผ๋Š” ๋ฐฉ๋ฒ•์ด ๋” ์ข‹์€ ์„ค๋ช… ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
notion image
notion image
์ด๋Ÿฌํ•œ ์‚ฌ๋žŒ์˜ ์ง์ ‘์ ์ธ ํ‰๊ฐ€๋ฅผ ์–ป๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋˜ ํ•˜๋‚˜ ๊ฐ€๋Šฅํ•œ ๊ฒƒ์€ ์œ„์™€ ๊ฐ™๋‹ค.
์ด๋ฒˆ์—๋Š” ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ ๋ชจ๋ธ์ด ์˜ˆ๋ฅผ ๋“ค์–ด์„œ โ€œ์‚ฌ๋žŒโ€์ด๋ผ๊ณ  ์˜ˆ์ธก์„ ํ•˜์˜€๋Š”๋ฐ, ๊ทธ ์‚ฌ๋žŒ์˜ ์˜ˆ์ธก์— ๋Œ€ํ•œ ๋‘ ๊ฐ€์ง€ ๋‹ค๋ฅธ ์„ค๋ช…์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. ๊ฐ ์„ค๋ช… ๋ฐฉ๋ฒ•์— ๊ฒฐ๊ณผ๋ฅผ ์™ผ์ชฝ์— ๋ณด์—ฌ์ค„์ง€ ์•„๋‹ˆ๋ฉด ์˜ค๋ฅธ์ชฝ์— ๋ณด์—ฌ์ค„์ง€๋Š” ์ด๋ฏธ์ง€๋งˆ๋‹ค ๋žœ๋คํ•˜๊ฒŒ ๋ณด์—ฌ์ค€๋‹ค.
๊ทธ๋Ÿฌ๋ฉด ์ด ๋‘ ๊ฐ€์ง€ ์„ค๋ช…์„ ๋ณด๊ณ  ๊ณผ์—ฐ ์–ด๋Š ์ชฝ ์„ค๋ช…์ด ๋” ์ข‹์€์ง€ ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ๊ณ ๋ฅด๋ผ๊ณ  ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ์ง์ ‘ ๋น„๊ต๋ฅผ ํ†ตํ•ด ์–ด๋Š ์„ค๋ช… ๋ฐฉ๋ฒ•์ด ์ข‹์€์ง€ ํ‰๊ฐ€๋ฅผ ํ•  ์ˆ˜๊ฐ€ ์žˆ๊ฒŒ ๋˜๊ณ , ์ด ์˜ˆ์‹œ์—์„œ๋„ ์—ญ์‹œ Guided grad-cam๋ฐฉ๋ฒ•์ด ๋” ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์•„์„œ ์ข‹์€ ์„ค๋ช…์ด์—ˆ๋‹ค๋ผ๊ณ  ๊ฒฐ๋ก ์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ์—ˆ๋‹ค.
notion image
์ด๋ ‡๊ฒŒ ์ง์ ‘ ์‚ฌ๋žŒ์ด ์„ค๋ช… ๋ฐฉ๋ฒ•๋“ค์„ ๋น„๊ต ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ๊ฐ’์ด ๋น„์‹ธ๊ณ , ๋˜ ๊ทธ ํ‰๊ฐ€ํ•˜๋Š”๋ฐ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฌ๊ฒŒ ๋˜๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜๊ฐ€ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ ์ด๋ ‡๊ฒŒ ์ง์ ‘ ๋น„๊ต๋ณด๋‹ค๋Š” ์•ฝ๊ฐ„์˜ ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ์ˆ˜๋Š” ์žˆ์ง€๋งŒ ๋” ํšจ์œจ์ ์œผ๋กœ ์„ค๋ช… ๊ฐ€๋Šฅ ๋ฐฉ๋ฒ•๋“ค์„ ๋น„๊ตํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” ๊ทธ๋Ÿฐ ๋ฐฉ๋ฒ•๋“ค๋„ ๋งŽ์ด ๊ณ ์•ˆ๋˜๊ณ  ์žˆ๋‹ค.

2) Metrics : Human annotation

notion image
์ฒซ ๋ฒˆ์งธ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์€ ์‚ฌ๋žŒ๋“ค์ด ์ด๋ฏธ ๋งŒ๋“ค์–ด ๋†“์€ annotation ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰, object detection์ด๋‚˜ ์‹œ๋ฉ˜ํ‹ฑ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ํ•™์Šต๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋Š” ์˜ค๋ฅธ์ชฝ์— ๋ณด๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๊ทธ ๊ฐ์ฒด์— ๋ฐ”์šด๋”ฉ๋ฐ•์Šค๋‚˜ ์•„๋‹ˆ๋ฉด ํ”ฝ์…€ ๋ ˆ๋ฒจ์˜ ๋ ˆ์ด๋ธ”๋˜์–ด์žˆ๋Š” ์‹œ๋งจํ‹ฑ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋งต์ด ์ด๋ฏธ ์ œ๊ณต๋˜๊ณ  ์žˆ๋‹ค.
๊ทธ๋Ÿฌ๋ฉด ์ด๋Ÿฐ ์–ด๋…ธํ…Œ์ด์…˜์„ ํ™œ์šฉํ•ด์„œ ์„ค๋ช…๊ฐ€๋Šฅ๊ธฐ๋ฒ•๋“ค์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๊ณ , ์—ฌ๊ธฐ์„œ๋Š” pointing game๊ณผ weakly supervised semantic segmentation ์ด๋ผ๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœ ํ•˜๊ฒ ๋‹ค.

2-1) pointing Game

notion image
notion image
[Zhang et al., Top-down Neural Attention by Excitation Backprop, IJCV 2018]
pointing game์€ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค๋ฅผ ํ™œ์šฉํ•ด์„œ ํ‰๊ฐ€๋ฅผ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
์œ„์˜ ์‹์—์„œ ๋ณด์‹œ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๊ฐ ์ด๋ฏธ์ง€ i์— ๋Œ€ํ•œ B๋ผ๊ณ  ํ‘œ์‹œํ•œ ๋ผ์šด๋”ฉ ๋ฐ•์Šค๋“ค์ด ์ฃผ์–ด์ ธ ์žˆ์„ ๋•Œ ๊ทธ ๊ฐ๊ฐ์˜ ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์„ค๋ช… h๋ฅผ ๊ตฌํ–ˆ๋‹ค๊ณ  ํ•˜๋ฉด,
Grad-CAM์„ ์˜ˆ๋ฅผ ๋“ค๋ฉด Grad-CAM์˜ ์„ค๋ช… ์ค‘์—์„œ ๊ฐ€์žฅ ์ค‘์š”๋„๊ฐ€ ๋†’์€ ํ”ฝ์…€์„ ๊ตฌํ•  ์ˆ˜๊ฐ€ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ ํ”ฝ์…€์„ ์—ฌ๊ธฐ P๋ผ๊ณ  ํ–ˆ์„ ๋•Œ ๊ทธ P๊ฐ€ ์ฃผ์–ด์ง„ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค ์•ˆ์— ๋“ค์–ด๊ฐ€๋Š”์ง€๋ฅผ ๋ณด๊ณ  ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
๊ณ ์–‘์ด์ด๋ฏธ์ง€๋ฅผ ์˜ˆ๋ฅผ ๋“ค๋ฉด ๊ณ ์–‘์ด์˜ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค๊ฐ€ ์žˆ์„ ๋•Œ, XAI๋ฐฉ๋ฒ•์ด ๊ฐ€์žฅ ์ค‘์š”ํ•˜๋‹ค๊ณ  ๋ณด์—ฌ์ฃผ๋Š” ํ”ฝ์…€์ด ์‚ฌ๋žŒ์ด ๋งŒ๋“  ๊ทธ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค ์•ˆ์— ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค๋ฉด ์ข‹์€ ์„ค๋ช…์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ๋Š” ๊ฐ€์ •์—์„œ ์ถœ๋ฐœํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
๊ทธ๋ ‡๊ฒŒ ๊ฐ ์ด๋ฏธ์ง€๋งˆ๋‹ค ๊ฐ€์žฅ ์„ค๋ช… ๊ฐ’์ด ๋†’์€ ํ”ฝ์…€์ด ๋ฐ”์šด๋”ฉ๋ฐ•์Šค ์•ˆ์— ๋“ค์–ด๊ฐ€๋Š” ์ •ํ™•๋„๋ฅผ ๊ณ„์‚ฐํ•ด์„œ ํ‰๊ฐ€๋ฅผ ํ•œ๋‹ค.
notion image
์œ„ ํ‘œ์— ๋ณด๋ฉด ์ด๋Ÿฐ ํฌ์ธํŒ… ๊ฒŒ์ž„ ๋ฐฉ์‹์„ ์ด์šฉํ•ด์„œ ์„ค๋ช…๊ฐ€๋Šฅ ๋ฐฉ๋ฒ•๋“ค์„ ์—ฌ๋Ÿฌ๋ชจ๋ธ ๊ตฌ์กฐ์™€ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด์„œ ํ‰๊ฐ€ ํ•œ ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๊ณ , ์—ฌ๊ธฐ์„œ๋Š” CAM ๋˜๋Š” RISE ๋ฐฉ์‹์ด ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ ์ฃผ๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
์ด๋Ÿฐ ์‹์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅธ ์„ค๋ช…ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋น„๊ตํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

2-2) Weakly supervised semantic segmentation

๋‘ ๋ฒˆ์งธ๋กœ ์‚ฌ๋žŒ์˜ ์–ด๋…ธํ…Œ์ด์…˜์„ ์ด์šฉํ•˜๋Š” ํ‰๊ฐ€๋ฐฉ๋ฒ•์€ weakly supervised semantic segmentation ๋ฐฉ๋ฒ•์ด๋‹ค.
์ฆ‰, ์–ด๋–ค ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ classification label๋งŒ ์ฃผ์–ด์ ธ ์žˆ์„ ๋•Œ ๊ทธ๊ฒƒ์„ ํ™œ์šฉํ•˜์—ฌ ํ”ฝ์…€๋ณ„๋กœ ๊ฐ์ฒด์˜ label์„ ์˜ˆ์ธกํ•˜๋Š” ์‹œ๋ฉ˜ํ‹ฑ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ weakly supervised semantic segmentation์ด๋ผ๊ณ  ํ•œ๋‹ค. ์ด๋•Œ weakly supervised๋ผ๊ณ  ํ•˜๋Š” ์ด์œ ๋Š” ์ •๋ง ์šฐ๋ฆฌ๊ฐ€ ํ•˜๊ณ ์ž ํ•˜๋Š” ํ”ฝ์…€๋ณ„๋กœ ์ •๋‹ต ๋ ˆ์ด๋ธ”์ด ๋‹ค ์ฃผ์–ด์ ธ ์žˆ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
notion image
์ด๋•Œ classification label๋งŒ ์žˆ์œผ๋ฉด ๊ทธ๊ฒƒ์„ ์ด์šฉํ•ด์„œ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๊ณ  ๊ทธ์— ๋Œ€ํ•œ ์„ค๋ช…์„ ๊ตฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ ‡๊ฒŒ ๊ตฌํ•˜๋Š” ์„ค๋ช…, ๊ทธ๋Ÿฌ๋‹ˆ๊นŒ ์ด๋ฏธ์ง€ ๋‚ด์—์„œ ์ค‘์š”ํ•œ ํ”ฝ์…€๋“ค์„ ํ•˜์ด๋ผ์ดํŠธ๋ฅผ ํ–ˆ์„ ๋•Œ ์ด๋ฅผ ์ด์šฉํ•ด์„œ ์—ญ์‹œ ์ ์ ˆํ•œ thersholding ๋“ฑ์„ ํ†ตํ•ด ๊ฐ€์žฅ ์˜ค๋ฅธ์ชฝ์— ์žˆ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ํ”ฝ์…€๋ณ„ ๋ ˆ์ด๋ธ”, ๋˜๋Š” ์„ธ๊ทธ๋งจํ…Œ์ด์…˜ ๋งต์„ ๊ตฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.
๊ทธ๋ ‡๊ฒŒ ๊ตฌํ•œ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜์„ ์ ค ์™ผ์ชฝ์— ์žˆ๋Š” ์ •๋‹ต ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋งต๊ณผ ๋น„๊ตํ•ด์„œ ํ‰๊ฐ€๋ฅผ ํ•œ๋‹ค.
์ด๋•Œ ํ‰๊ฐ€ํ•˜๋Š” ๋ฉ”ํŠธ๋ฆญ์€ mean IOU, ์ฆ‰ Intersection over Union์„ ํ™œ์šฉํ•˜๋Š”๋ฐ, ์ด๋Š” ์ •๋‹ต ๋งต๊ณผ ์ด๋ ‡๊ฒŒ ๋งŒ๋“ค์–ด ๋‚ธ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋งต์ด ์–ผ๋งˆ๋‚˜ ๊ฒน์น˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฉ”ํŠธ๋ฆญ์ด๋‹ค. ๋ฉ”ํŠธ๋ฆญ ๊ฐ’์„ ํ†ตํ•ด์„œ ์„ค๋ช…๊ฐ€๋Šฅ ๋ฐฉ๋ฒ•์œผ๋กœ ๋งŒ๋“ค์–ด๋‚ธ ์‹œ๋งจํ‹ฑ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๊ฒฐ๊ณผ๊ฐ€ ์ข‹์„์ˆ˜๋ก ๊ทธ ์„ค๋ช… ๊ฐ€๋Š” ๋ฐฉ๋ฒ•์ด ๋” ์ข‹๋‹ค๋ผ๊ณ  ํ‰๊ฐ€๋ฅผ ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.
์ด๋Ÿฌํ•œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๋“ค์— ๋‹จ์ ์€ ์—ฌ์ „ํžˆ ์•„๋งˆ์กด ๋ฏธ์ผ€๋‹ˆ์ปฌ ํ„ฐ์ปค์™€ ๊ฐ™์ด ๋งค๋ฒˆ ๊ฒฐ๊ณผ๋ฅผ ์ง์ ‘ ์‚ฌ๋žŒ์—๊ฒŒ ๋ฌป๋Š” ๊ฒƒ๊นŒ์ง€๋Š” ์•„๋‹ˆ์ง€๋งŒ ๊ทธ๋ž˜๋„ ์‚ฌ๋žŒ์ด ์ง์ ‘ ์ œ๊ณตํ•œ ์–ด๋…ธํ…Œ์ด์…˜์„ ํ™œ์šฉํ•˜๋ฏ€๋กœ ๊ทธ๋Ÿฌํ•œ ์–ด๋…ธํ…Œ์ด์…˜ ๋ฐ์ดํ„ฐ๋ฅผ ์–ป๊ธฐ๊ฐ€ ์‰ฝ์ง€ ์•Š๊ณ  ๋น„์‹ธ๋‹ค๋Š”๋ฐ ์žˆ๋‹ค.
notion image
๋˜, ์ด๋Ÿฌํ•œ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค๋‚˜ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ๋ ˆ์ด๋ธ”์ด ๊ณผ์—ฐ ์ง„์งœ ์ข‹์€ ์„ค๋ช…์„ ๊ฐ€์ ธ์˜ค๋Š” ์ •๋‹ต์ธ๊ฐ€์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•˜์ง€ ์•Š์€ ๋‹จ์ ์ด ์žˆ๋‹ค.