본문 바로가기

AI Theory/NLP

GLUE Benchmark Dataset이란?

GLUE Benchmark Dataset이란?

 

pretrained model의 성능을 측정한다고 했을 때, 한가지 task에 대한 모델의 성능을 측정하는 것이 아닌 여러가지 task를 종합적으로 수행하면서 모델의 종합적인 성능을 측정하는 것이 일반적이다.

 

그 중 자연어 처리 모델의 성능을 측정하기 위한 10개 task에 대한 데이터셋이 존재하는데 이게 바로 GLUE Benchmark Dataset( General Language Understanding Evaluation)이다.

 

각 task의 종류는 다음과 같다.

 

name of dataset task score
CoLA 문법에 맞는 문장인지 판단 Matthew's Corr
MNLI 두 문장의 관계 파단(entailment, contradiction, neutral) Accuracy
MNLI-MM 두 문장이 안 맞는지 판단 Accuracy
MRPC 두 문장의 유사도 평가 F1 / Accuracy
SST-2 감정분석 Accuracy
STS-B  두 문장의 유사도 평가 Pearson-Spearman Corr
QQP  두 질문의 유사도 평가 F1 / Accuracy
QNLI 질문과 paragraph 내 한 문장이 함의 관계(entailment)인지 판단 Accuracy
RTE  두 문장의 관계 판단(entailment, not_entailment) Accuracy
WNLI 원문장과 대명사로 치환한 문장 사이의 함의 관계 판단 Matthew's Corr