XAI

XAI Introduction 전체 정리

date
Dec 15, 2023
slug
xai-introduction
author
status
Public
tags
DeepLearning
XAI
summary
XAI에 대해 전체 정리한 자료입니다.
type
Post
thumbnail
category
XAI
updatedAt
Sep 6, 2024 04:06 PM
 
최근 지도학습에 기반한 프레임워크가 큰 혁신을 이루고 있다. 그중에서도 딥러닝에 기반한 기술들이 다양한 분야의 성능을 비약적으로 발전시키고 있다.
notion image
notion image
왼쪽 그래프를 보면 2012년을 기점으로 ImageNet이라는 데이터셋의 인식 에러율이 딥러닝을 적용하면서 매년 절반으로 줄어드는 혁신이 있었고, 그 외에도 음성인식(speech recognition), 기계번역(machine translation) 등에서 놀라운 성능 향상을 가져와 현재 많은 사람의 삶에 직접 영향을 미치고 응용 분야의 널리 적용되고 있다.

1. Limitation of supervised learning

이를 통해서 인공지능 AI에 대한 사회적인 관심이 매우 높아졌고, AI가 4차 산업 혁명의 핵심적인 기술로 자리 잡게 되었다. 하지만, 이렇게 매우 좋은 성능을 내는 지도학습 기반 딥러닝 모델에도 중요한 한계점이 존재한다.
한계점은 바로 대용량 학습 데이터로부터 학습하는 모델의 구조가 점점 더 복잡해지고 이해하기 어려워진다는 점이다.
단순신경망 → ResNet/DesenNet → Transfomer
단순신경망 → ResNet/DesenNet → Transfomer
초창기 딥러닝 모델인 왼쪽에 있는 단순한 신경망 모델로부터 여러 가지 Skip Connection을 가지고 있는 엄청나게 깊은 구조를 가지는 ResNet, DenseNet 등으로 발전하였고, 최근에는 오른쪽에 보시는 것과 같은 transformer라는 attention 메커니즘을 활용하는 모델로도 발전하고 있다.
이렇게 점점 성능이 좋아지면서 점점 복잡한 모델로 발전하는데, 결국 이러한 모델은 입력을 집어넣으면 출력이 튀어나오는 하나의 블랙박스처럼 동작하게 된다.
notion image
그런데 이렇게 복잡한 구조의 모델을 응용 분야에 적용할 때, 영화 추천과 같이 단순히 예측 결과만 필요한 경우에는 큰 문제가 없지만, 모델의 예측 결과가 사람에게 직접 영향을 미칠 수 있는 경우는 문제가 생길 수 있다.
즉, 이미지 인식 기술에 기반한 자율주행 자동차가 사고를 냈을 때, 의료영상 기반 질병 진단을 하는 경우, AI 기반 인터뷰, AI 기반 대출 여부 결정 등을 하는 경우 단순히 딥러닝 모델이 내어 주는 예측 결과만을 사용하기에는 한계가 있고, 왜 해당 모델이 이러한 예측 결과를 내었는지 그 이유를 설명해야 하는 경우가 반드시 존재한다.
그리고 그렇게 설명을 제공하지 못하는 경우,법적 및 사회적으로 해당 모델을 적용하는데 제약이 생길 수 있다. 예를 들어서 최근에 대두되고 있는 AI 모델의 편향성 문제를 보면 설명 가능 인공지능이 꼭 필요하면 알 수 있다.
notion image
딥러닝 기반 대화 모델이나 이미지 인식 태깅 문제에서 특정 인종이나 성별에 편향된 결과 및 예측을 만들어내는 경우가 있다.
예를 들어, Google Photo에서 어떤 흑인 여성을 고릴라라고 잘못 인식하거나, 뉴질랜드 여권 인식 프로그램이 아시아계 남성이 눈을 감고 있다고 오인식하는 경우에 모델이 왜 인종과 관련하여 잘못된 예측 결과를 내었고, 이러한 편향성(바이어스)을 해결하기 위해서는 이 모델을 결과를 설명할 수 있는 설명 가능 인공지능이 꼭 필요하다.

2. Some Examples of Explainable AI

2-1) example 1

notion image
이미지 분류 연구를 위해 벤치마크로 널리 쓰이는 PASCAL VOC라는 데이터셋이 있다.
독일의 한 연구진이 XAI기법을 PASCAL VOC Data set으로 훈련한 분류기에 적용해보았다.
즉, 어떤 딥러닝 모델이 이미지를 받아, 예를 들어 말에 대한 사진이라고 분류하였는데, XAI기법은 과연 해당 모델이 이미지 어느 부분을 보고 이미지를 "말"이라고 했는지 빨간색으로 하이라이트를 해서 보여 주는 방식이다.
위의 사진에서 왼쪽에 있는 다섯 개의 이미지가 모두 말에 관한 이미지이고, 해당 딥러닝 모델은 모두 제대로 정답 클래스인 을 제대로 예측하였다.
그런데 XAI의 기법은 모델이 이상하게도 이미지 내에서 말에 해당하는 부분이 아니라 이미지 아래쪽을 주로 보고 있는 것을 보여주었다.
그래서 연구진들은 다시 해당 말 사진들을 확인을 해보니 사진 하단부에 오른쪽 그림에서 보는 것처럼 텍스트로 워터마크가 있는 것을 발견하였고. 이 데이터셋의 버그가 있는 것을 알게 되었다.
즉, 다른 클래스에 사진들은 이런 버그가 없었지만, 데이터 셋에 있는 모든 말 관련 사진들에는 이런 텍스트 워터마크가 있었고 학습한 딥러닝 모델 실제 말 사진이 아닌, 텍스트 워터마크의 기반에서 말이라고 분류하고 있었던 것이었다.
이 데이터셋에서의 정확도는 높았겠지만, 일반적인 상황에 적용할 수 있는 제대로 된 말 분류기라고 할 수는 없을 것이다.
이처럼 XAI의 기법을 사용하면 모델이나 데이터셋이 가지고 있는 오류를 찾아낼 수 있다.

2-2) example 2

notion image
두 번째 예시로, XAI 기법이 모델이 얼마나 편향되어 있는지도 알아낼 수 있다.
미국에서 실제로 COMPAS 라는 범죄 재범률 예측 시스템을 설명해 본 것이다. 이 시스템은 현재 교도소에 수감되어있는 사람 중에서 어떤 사람을 집행유예로 풀어줬을 때 다시 범죄를 저질러서 교도소로 돌아올지를 예측하는 시스템이다.
그런데 오른쪽 표를 보시면 사람이 예측한 것(Humans)COMPAS라고 하는 시스템이 예측한 것에 전체평균 정확도는 60 몇 퍼센트 정도로 비슷한 결과에 반해서, 흑인과 백인으로 나눠서 정확도를 세분화해서 보게 되면 흑인에 대한 first positive rate와 백인에 대한 first negative rate가 COMPAS에서 사람 예측(humans)보다 훨씬 더 높다는 것을 알 수 있다.
즉, XAI로 자동화 시스템의 편향된 문제를 찾아낸 것이다.

2-3) example 3

notion image
자율주행 자동차가 잘못 동작해서 사고가 발생했는데, 이때 인식 알고리즘이 왜 그런 잘못된 동작을 하게 되었는지 설명하는 것은 매우 중요하다. 따라서, 사고 책임 소재를 찾을 수도 있고, 오류를 고쳐서 향후 더 안전한 알고리즘을 만들 수 있기 때문이다.

3-4) example 4

notion image
X-ray 사진을 이용해서 COVID-19를 자동으로 진단하는 시스템에서 의사도 알고리즘에 도출된 예측 결과만 무작정 믿을 수는 없을 것이고, 왜 알고리즘이 그런 예측 결과를 도출했는지에 대한 설명을 보고 그 AI 모델의 예측을 신뢰할 것인지 아닌지를 결정할 수 있을 것이다.
 

3. What is Explainability(설명을 한다는 것) / Interpretability?

[1] Miller, Tim. "Explanation in artificial intelligence: Insights from the social sciences." arXiv Preprint arXiv:1706.07269. (2017)
[2] Kim, Been, Rajiv Khanna, and Oluwasanmi O. Koyejo. "Examples are not enough, learn to criticize! Criticism for interpretability." Advances in Neural Information Processing Systems (2016)
[1] Miller, Tim. "Explanation in artificial intelligence: Insights from the social sciences." arXiv Preprint arXiv:1706.07269. (2017) [2] Kim, Been, Rajiv Khanna, and Oluwasanmi O. Koyejo. "Examples are not enough, learn to criticize! Criticism for interpretability." Advances in Neural Information Processing Systems (2016)
"설명을 한다는 것(Explainability)"이 무엇을 뜻하는 건지 한번 생각해 볼 수 있다. 그러나, 사전이나 논문들을 찾아보면 설명가능성(explanation)이 정확하게 무엇을 뜻하는지 정의되어 있지 않고, 여러 가지를 함께 뜻하고 있는 것을 알 수 있다.
  1. 사람이 그 이유를 이해할 수 있게 해주는 것
  1. 설명을 통해 모델의 결과를 예측할 수 있게 해 주는 것
  1. 이유를 설명할 수 있게 해 주는 것
이라고 논문에서 정의한다.
하지만, 정확히 어떻게 하는 것이 설명 가능성을 높이는 것인지에 대한 구체적인 답을 알기는 어렵다.
Arrieta, Alejandro Barredo, et al. "Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI." Information Fusion 58 (2020): 82-115.
Arrieta, Alejandro Barredo, et al. "Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI." Information Fusion 58 (2020): 82-115.
XAI의 연구 분야에서도 XAI는 사람이 모델을 쓸 때 그 동작을 이해하고 신뢰할 수 있게 해주는 기계 학습 기술이라고만 되어 있다.

4. Taxonomy of XAI Methods : 분류 방법

예측 결과에 중요한 영향을 미치는 특징들을 찾아내어 그 중요도를 시각화 등을 통해서 설명하는 방법을 고안하는 연구들이 최근에 많이 제시되었는데, 그런 방법들이 어떻게 분류되고 있는지 정리하겠다.
  • Local vs. Global – Local: Describes an individual prediction – Global: Describes entire model behavior
  • White-box vs. Black-box – White-box: Explainer can access the inside of model – Black-box: Explainer can access only the output
  • Intrinsic vs. Post-hoc – Intrinsic: Restricts the model complexity before training – Post-hoc: Applies after the ML model is trained
  • Model-specific vs. Model-agnostic – Model-specific: Some methods restricted to specific model classes (e.g., CAM requires global average pooling) – Model-agnostic: Some methods can be used for any model
XAI방법을 구분하는 첫번째 분류방법은 local한 설명 방법과 global한 설명 방법으로 나눠볼 수 있다.
  • Local : 주어진 특정 데이터에 대한 예측 결과를 개별적으로 설명하려는 방법
  • Global : 개별 데이터에 대한 결과를 따로따로 설명하는 것이 아니라, 전체 데이터셋에서 모델의 전반적인 행동을 설명하고자 하는 방법
두 번째 분류는 White-box 설명 방법, Black-box 설명 방법으로 구분하는 것이다.
  • White-box : 모델의 내부구조를 정확하게 알고 있는 상황에서 설명을 시도하는 방법
  • Black-box : 모델의 내부 구조는 전혀 모르는 상태에서 단순히 모델의 입력과 출력만 가지고 설명을 시도하는 방법
세 번째 분류는 intrinsic(내재적인 설명 방법)과 Post(사후 추론)을 통한 설명 방법이다.
  • Intrinsic : 모델의 복잡도를 훈련하기 이전부터 설명하기 용이하도록 제안한 뒤, 학습을 시켜서 그 후 학습된 모델을 가지고 설명하는 방법
  • Post-hoc : 임의의 모델의 훈련이 끝난 뒤에 이 방법을 적용해서 그 모델의 행동을 설명하는 방법.

5. Taxonomy of XAI Methods : Examples

예시 1) 머신러닝 : Linear model, Decision Tree

notion image
머신러닝 모델에서 linear model이나 decision tree에 기반한 모델들의 분류는 Global, White-box, intrinsic, model-specific 한 설명 방법이다.
linear 모델에서는 학습하고 난 뒤에 얻어지는 선형 계수(수식에서는 베타)가 바로 이 모델의 설명으로 직접 작용할 수 있는 것을 알 수 있다. 왜냐하면 각 x 변수들이 선형적으로 조합되어 예측값 y를 만들어내는데, 이 선형계수가 클수록 그 특정 특징(x 변수)들이 예측에 작용하는 정도가 크다고 할 수 있기 때문이다.
또한, 이러한 설명은 주어진 특정 데이터 설명을 해주는 것이 아니라 전체 데이터부터 학습된 모델을 설명하는 것이므로 Global 한 설명이다.
또, 모델의 정확한 구조를 알아야 하므로 White-box 설명 방식이다.
학습되는 모델 자체가 간단하고 직접적으로 설명을 만들어내는 모델이라서 Intrinsic이다.
이 경우는 선형 모델에만 적용되는 설명이기 때문에 model-specific 한 설명 방법이다.
이와 비슷한 분류기인 desicion tree 기반 모델에도 적용된다. 학습 과정에서 Mean Squre Error를 많이 감소시키는 것을 중요한 특징이라는 설명을 제공하게 되므로 마찬가지로 global, white-box, intrinsic, model-specific 한 설명 방법이라고 할 수 있다.

예시 2) 딥러닝 : Grad-CAM

notion image
주로 딥러닝 기반의 분류모델을 설명하는데 많이 쓰이는 Grad-CAM 방법은 local, white-box, pos-hoc, model-agnostic 설명 방법이라고 분류할 수 있다.
즉, 그림에 보는 것처럼 주어진 어떤 개별 이미지마다 그 예측 결과를 설명할 수 있는 방법이기 때문에 local 한 설명이고 마찬가지로 모델의 정확한 구조와 계수들을 모두 알아야 구할 수 있는 설명이기 때문에 White-box 설명 방법이며, 모델이 학습되고 난 후 적용해서 설명을 제공하는 Post-hoc설명 방법이고, 딥러닝 모델 구조와 상관없이 항상 적용할 수 있는 방법이기 때문에 딥러닝 모델에 대해서는 model-agnostic 한 설명 방법이다.