📑Paper Review
[paper review] Fine-tune BERT for Extractive Summarization
IntroductionMethdologyExtractive Summarization with BERTEncoding Multiple SentencesInterval Segment EmbeddingsFine-tuning with Summarization Layerssimple classifierInter-sentence TransformerExperiment
Introduction
요약 task 중 extractive summarization은 문서 내에서 중요하다고 판단되는 문장을 카피하고 연결함으로써 요약문 생성한다.
논문에서는 BERT를 사용하여 extractive summarization의 rouge score 성능을 향상시켰다.
Methdology
: 여러 문장을 포함하는 문서
: 문서 내의 번째 문장
extractive summarization은 각 문장()이 요약문에 포함되어야 하는지 아닌지 를 판별하는 문제로 정의할 수 있음.
Extractive Summarization with BERT
extractive summarization에 BERT를 사용하기 위해 각 sentence에 대한 representation을 산출하길 원함.
MLM을 통해 학습하는 BERT는 토큰 단위로 output vector를 뱉음. BERT가 segment embadding을 사용하긴 하지만 이는 두 개의 sentence에 한정되어 있음.
extractive summarization에 적합하게 BERT의 input sequence와 embedding을 수정
Encoding Multiple Sentences
각 sentence 별로 [CLS], [SEP] 토큰 사용. 각 sentence 앞의 [CLS]토큰은 해당 sentence의 symbol로 사용됨.
Interval Segment Embeddings
여러 sentence를 구별하기 위한 embedding으로 홀수 번째 sentence에는 , 짝수번째 sentence에는 segment embedding을 할당.
(에 대한 segment embedding은 )
Fine-tuning with Summarization Layers
BERT의 output에 별도의 layer를 쌓아 classification 진행
simple classifier
BERT output에 linear layer만 붙인 구조.
Inter-sentence Transformer
별도의 transformer layer를 붙인 구조.
은 layer의 output.
multi head attention 연산을 거친 후 residual connection을 진행하는 transformer 구조와 동일하다.
이때도 최종 layer는 simple classifier의 linear layer
Experiment
이전에 제안된 다른 요약 모델들보다 논문이 제안한 BERT 기반 모델(BERTSUM)이 더 좋은 성능 보여줌.
interval segment embedding과 trigram blocking에 대한 ablation study
두 방법론 모두 모델 성능 향상에 기여하는 것 확인하였고 특히 trigram blocking은 요약 결과 크게 향상 시킴.
(trigram blocking은 모델의 요약문과 후보 문장 사이 trigram overlapping이 있으면 해당 후보 문장은 요약문에서 제외하는 것)