📑Paper Review

[paper review] Fine-tune BERT for Extractive Summarization

date
Sep 6, 2023
slug
fine-tune-bert
author
status
Public
tags
paper
DeepLearning
summary
type
Post
thumbnail
캡처.PNG
category
📑Paper Review
updatedAt
Sep 6, 2024 01:31 PM

Introduction

요약 task 중 extractive summarization은 문서 내에서 중요하다고 판단되는 문장을 카피하고 연결함으로써 요약문 생성한다.
논문에서는 BERT를 사용하여 extractive summarization의 rouge score 성능을 향상시켰다.

Methdology

: 여러 문장을 포함하는 문서
: 문서 내의 번째 문장
extractive summarization은 각 문장()이 요약문에 포함되어야 하는지 아닌지 를 판별하는 문제로 정의할 수 있음.

Extractive Summarization with BERT

extractive summarization에 BERT를 사용하기 위해 각 sentence에 대한 representation을 산출하길 원함.
MLM을 통해 학습하는 BERT는 토큰 단위로 output vector를 뱉음. BERT가 segment embadding을 사용하긴 하지만 이는 두 개의 sentence에 한정되어 있음.
extractive summarization에 적합하게 BERT의 input sequence와 embedding을 수정

Encoding Multiple Sentences

notion image
각 sentence 별로 [CLS], [SEP] 토큰 사용. 각 sentence 앞의 [CLS]토큰은 해당 sentence의 symbol로 사용됨.

Interval Segment Embeddings

여러 sentence를 구별하기 위한 embedding으로 홀수 번째 sentence에는 , 짝수번째 sentence에는 segment embedding을 할당.
(에 대한 segment embedding은 )

Fine-tuning with Summarization Layers

BERT의 output에 별도의 layer를 쌓아 classification 진행

simple classifier

BERT output에 linear layer만 붙인 구조.
notion image

Inter-sentence Transformer

별도의 transformer layer를 붙인 구조.
notion image
은 layer의 output.
multi head attention 연산을 거친 후 residual connection을 진행하는 transformer 구조와 동일하다.
이때도 최종 layer는 simple classifier의 linear layer
notion image

Experiment

notion image
이전에 제안된 다른 요약 모델들보다 논문이 제안한 BERT 기반 모델(BERTSUM)이 더 좋은 성능 보여줌.
notion image
interval segment embedding과 trigram blocking에 대한 ablation study
두 방법론 모두 모델 성능 향상에 기여하는 것 확인하였고 특히 trigram blocking은 요약 결과 크게 향상 시킴.
(trigram blocking은 모델의 요약문과 후보 문장 사이 trigram overlapping이 있으면 해당 후보 문장은 요약문에서 제외하는 것)