GLUE Benchmark Dataset이란?
pretrained model의 성능을 측정한다고 했을 때, 한가지 task에 대한 모델의 성능을 측정하는 것이 아닌 여러가지 task를 종합적으로 수행하면서 모델의 종합적인 성능을 측정하는 것이 일반적이다.
그 중 자연어 처리 모델의 성능을 측정하기 위한 10개 task에 대한 데이터셋이 존재하는데 이게 바로 GLUE Benchmark Dataset( General Language Understanding Evaluation)이다.
각 task의 종류는 다음과 같다.
name of dataset | task | score |
CoLA | 문법에 맞는 문장인지 판단 | Matthew's Corr |
MNLI | 두 문장의 관계 파단(entailment, contradiction, neutral) | Accuracy |
MNLI-MM | 두 문장이 안 맞는지 판단 | Accuracy |
MRPC | 두 문장의 유사도 평가 | F1 / Accuracy |
SST-2 | 감정분석 | Accuracy |
STS-B | 두 문장의 유사도 평가 | Pearson-Spearman Corr |
QQP | 두 질문의 유사도 평가 | F1 / Accuracy |
QNLI | 질문과 paragraph 내 한 문장이 함의 관계(entailment)인지 판단 | Accuracy |
RTE | 두 문장의 관계 판단(entailment, not_entailment) | Accuracy |
WNLI | 원문장과 대명사로 치환한 문장 사이의 함의 관계 판단 | Matthew's Corr |
'AI Theory > NLP' 카테고리의 다른 글
기계 번역의 역사 (0) | 2023.09.11 |
---|---|
[GoingDeeper] 04. 단어 빈도, 텍스트 분포로 벡터화하기 (0) | 2023.08.18 |
[케창딥] ch11 텍스트를 위한 딥러닝 (1) | 2023.08.09 |
텍스트 데이터 전처리 | 1. 토큰화(tokenization) (0) | 2023.07.31 |
[데이터마이닝] 텍스트 데이터? (0) | 2023.03.12 |