📑Paper Review

[paper review] Hierarchical Attention Networks for Document Classification

date
Dec 1, 2023
slug
HAN
author
status
Public
tags
DeepLearning
paper
summary
type
Post
thumbnail
category
📑Paper Review
updatedAt
Sep 6, 2024 03:33 PM

초록

HAN모델은 계층적 어텐션 네트워크로, 2가지의 특징이 있다.
  1. 문서의 계층적 구조를 mirror하는 계층적 구조를 가지고 있다.
  1. 단어와 문장에 적용되는 각각의 attention mechanism이 존재하고, content의 중요성의 정도에 따라 document representation을 만든다.
six large scale text classification에 적용한 결과 이전의 method를 뛰어넘는 성능을 가졌고, attention layer를 시각화해보았을 때 모델이 질적으로 informative한 단어와 문장을 선택했음을 확인할 수 있다.
 

서론

본 논문에서는 문서 구조에 대한 지식 통합을 model architecture에서 이룬다면 더 나은 text representation을 얻을 수 있지 않을까하는 가설을 test한다.
본 논문의 모델링은 “문서의 모든 부분이 질문(query)과 전부 관련있는 것은 아니며 관련 섹션을 결정하는 것은 단지 단어의 존재여부가 아니라 단어들의 상호 작용을 포함한다”는 직관에 기초한다.
HAN model은 문서구조에 대한 두개의 basic insight를 capture하도록 디자인되었다.
  1. 문서는 계층적 구조를 가지고 있다.(단어는 문장을, 문장은 문서를 형성함)
→ 문장에 대한 representation을 먼저 만들고 그것을 aggregate하여 document representation을 만든다.
  1. 문서에서 단어와 문장의 중요성은 맥락에 의존한다. 즉 같은 단어나 문장도 다른 맥락 속에서 다른 중요성을 가질 수 있다.
→ 이러한 직관을 모델에 포함시키기 위해 단어수준과 문장수준 각각의 level의 어텐션 레이어를 추가했다.
 
해당 모델이 이전의 모델들과 다른 주요한 포인트는 context를 단순히 tokens의 sequence를 필터링하는 것에 사용하는 것이 아니라 언제 tokens의 sequence가 관련이 있는지를 찾는데 사용한다는 점이다.
 

HAN

notion image

GRU-based sequence encoder

reset gate, update gate를 이용해 얼마나 정보를 updated할지 결정하는 모델이다.
위 식을 통해 이전의 정보를 얼마나 가져가고 새로운 정보를 얼마나 가져갈지를 결정한다.

Hierachical attention

해당 논문에서는 문서 수준의 classification에 집중한다. 앞으로의 논의에서는 어떻게 계층적 구조를 이용해 문서를 vector representation으로 표현하는지를 보인다.
  • L이라는 문서에 개의 문장 각각에 개의 단어가 들어 있을 때 , 는 i번째 sentence에 있는 단어들을 가리킨다.
 
word encder
단어 가 주어지면 를 이용해 임베딩 벡터를 구한다.
, bidirection이므로 해당식 왼쪽 방향 버전 추가
(and left side)들을 이용해 단어 를 center로 하는 문장의 정보를 요약한다.
 
word attention
문장의 모든 단어가 중요성을 가지는 것은 아니다. 이를 catch하기 위해 attention mechanism을 적용했다.
중요한 의미를 가진 단어를 문장으로부터 추출하고 이러한 informative한 words를 aggregate한 representation을 만든다.
notion image
sentence encoder
notion image
sentence attention
notion image

Experiment

notion image
notion image

Conclusion

해당 논문에서는 문서분류를 위한 HAN모델을 제인하였다. 해당 모델은 문서에서 중요한 부분이 어디인지 시각화를 하는데 유용하다. 또한 중요한 단어를 문장 벡터로, 중요한 문장벡터를 문서벡터로 집계하여 점진적으로 문서벡터를 구축한다.
또한 attention layer에 대한 시각화는 해당 모델이 중요한 단어와 문장을 효과적으로 pick함을 보여준다.