GLUE Benchmark Dataset이란?

pretrained model의 성능을 측정한다고 했을 때, 한가지 task에 대한 모델의 성능을 측정하는 것이 아닌 여러가지 task를 종합적으로 수행하면서 모델의 종합적인 성능을 측정하는 것이 일반적이다.

그 중 자연어 처리 모델의 성능을 측정하기 위한 10개 task에 대한 데이터셋이 존재하는데 이게 바로 GLUE Benchmark Dataset( General Language Understanding Evaluation)이다.

각 task의 종류는 다음과 같다.

name of dataset	task	score
CoLA	문법에 맞는 문장인지 판단	Matthew's Corr
MNLI	두 문장의 관계 파단(entailment, contradiction, neutral)	Accuracy
MNLI-MM	두 문장이 안 맞는지 판단	Accuracy
MRPC	두 문장의 유사도 평가	F1 / Accuracy
SST-2	감정분석	Accuracy
STS-B	두 문장의 유사도 평가	Pearson-Spearman Corr
QQP	두 질문의 유사도 평가	F1 / Accuracy
QNLI	질문과 paragraph 내 한 문장이 함의 관계(entailment)인지 판단	Accuracy
RTE	두 문장의 관계 판단(entailment, not_entailment)	Accuracy
WNLI	원문장과 대명사로 치환한 문장 사이의 함의 관계 판단	Matthew's Corr

기계 번역의 역사 (0)	2023.09.11
[GoingDeeper] 04. 단어 빈도, 텍스트 분포로 벡터화하기 (0)	2023.08.18
[케창딥] ch11 텍스트를 위한 딥러닝 (1)	2023.08.09
텍스트 데이터 전처리 \| 1. 토큰화(tokenization) (0)	2023.07.31
[데이터마이닝] 텍스트 데이터? (0)	2023.03.12

Too scarce, still filling it up