본문 바로가기

반응형

AI Theory/NLP

(6)
GLUE Benchmark Dataset이란? GLUE Benchmark Dataset이란? pretrained model의 성능을 측정한다고 했을 때, 한가지 task에 대한 모델의 성능을 측정하는 것이 아닌 여러가지 task를 종합적으로 수행하면서 모델의 종합적인 성능을 측정하는 것이 일반적이다. 그 중 자연어 처리 모델의 성능을 측정하기 위한 10개 task에 대한 데이터셋이 존재하는데 이게 바로 GLUE Benchmark Dataset( General Language Understanding Evaluation)이다. 각 task의 종류는 다음과 같다. name of dataset task score CoLA 문법에 맞는 문장인지 판단 Matthew's Corr MNLI 두 문장의 관계 파단(entailment, contradiction, n..
기계 번역의 역사 기계 번역의 역사 신경망 기반 번역기 이전의 역사 규칙 기반 기계 번역(RBMT, Rule Based Machine Translation) 언어 간 번역 규칙을 기반으로 번역. 이 때 규칙들은 언어 간 문법, 어휘 및 구문적 차이 고려 장점: 정교한 언어 규칙을 활용해 특정 도메인의 번역에 효과적 단점: 규칙을 개발하고 유지하는 데 많은 인적 자원, 시간이 필요하며 다양한 언어에 대해 일반화가 어려움 통계적 기계 번역(SMT, Statiscal Machine Translation) 대규모 병렬 말뭉치를 기반으로 통계 모델을 학습하여 번역. 확률 분포를 사용해 다음 단어를 선택함 장점: 대용량의 데이터를 활용해 다양한 언어쌍에 대한 번역 수행 가능, 문맥을 고려한 번역 가능 단점: 훈련 데이터의 부족, 품..
[GoingDeeper] 04. 단어 빈도, 텍스트 분포로 벡터화하기 [GoingDeeper] 04. 단어 빈도, 텍스트 분포로 벡터화하기 목차 단어 빈도를 이용한 벡터화 1. Bag of words 2. DTM 3. TF-IDF 4. LSA(Latent Semetic analysis 5. LDA(Latent Dirichlet Allocation 텍스트 분포를 이용한 벡터화: soynlp 자연어 처리에서 텍스트를 숫자 벡터로 변환하는 과정을 벡터화(Vectorization) 이라고 한다. 벡터화 방법은 크게 1.통계와 머신러닝을 활용한 방법 과 2. 인공신경망을 활용한 방법 으로 나뉜다. 단어 빈도를 이용한 벡터화와 텍스트 분포를 이용한 벡터화의 경우 통계와 머신러닝을 활용한 벡터화에 속한다. 단어 빈도를 이용한 벡터화 1. Bag of words(BoW) 자연어처리, 정..
[케창딥] ch11 텍스트를 위한 딥러닝 [케창딥] ch11 텍스트를 위한 딥러닝 텍스트 데이터 준비 딥러닝 모델은 수치 텐서만 처리할 수 있으므로 원시 텍스트에 대해 텍스트 벡터화를 수행해야 함 텍스트 벡터화란 텍스트를 수치 텐서로 바꾸는 과정 케라스의 TextVectorizeation 층을 통해 빠르고 효율적으로 사용 가능 텍스트 벡터화의 단계 1. 텍스트 표준화(standardization) 소문자로 바꾸거나 구두점 제거 (고급) 어간 추출(stemming): 어형이 변형된 단어를 하나의 표현으로 바꾸기 표준화를 통해 모델에 필요한 훈련 데이터가 줄어들고 일반화가 잘되는 장점이 있으나, 일정량의 정보를 삭제할 수 있다는 단점이 있다. 2. 텍스트 토큰화(텍스트 분할) 텍스트 표준화 진행 후 텍스트를 벡터화하기 위한 단위(토큰)로 분할 크게..
텍스트 데이터 전처리 | 1. 토큰화(tokenization) 텍스트 데이터 전처리 (Text Data Preprocessing) 크롤링 등으로 얻어낸 코퍼스 데이터가 전처리되지 않은 상태일 경우, 용도에 맞게 토큰화, 정제, 정규화 등을 수행하는 전처리 과정을 지난다. 이 중 토큰화 내용 정리 토큰화(tokenization) 주어진 corpus에서 token이라는 단위로 나누는 작업 보통 의미있는 단위로 token을 정의한다 크게 단어 토큰화, 문장 토큰화가 있다. 단어 토큰화(word tokenization) 토큰의 기준을 단어(word)로 하는 경우 여기서 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 설정할 수 있다. 띄어쓰기, 구두점만으로 토큰화하는 것은 불가능하다. 특히 한국어의 경우 띄어쓰기만으로는 단어 토큰을 구분하기 어렵다. 예를 들어, ..
[데이터마이닝] 텍스트 데이터? [데이터마이닝] 텍스트 데이터 텍스트 데이터의 분류 크기 순으로 corpus(말뭉치), document, sentence, word, morpheme(형태소), phoneme(음소)로 분리된다. 음소는 주로 언어학 차원에서 다루며, 데이터마이닝에서는 형태소까지만 다룸 corpus? 문서의 상위 개념 수집한 문서들의 전체 집합, 또는 특정 언어의 정형화된 대용량 텍스트 표본들의 집합 token 텍스트 분석의 분석 단위 대개 단어를 의미하기도 하지만, 하나의 글자 단위, 형태소 단위일 수 있음 토큰은 통계적 기법을 적용해 빈도 분석을 수행 이를 통해 전체적 맥락 분석, 문서의 주제나 감정을 추정 텍스트 데이터의 분석법 사전기반 접근방법(Dictionary Based Approach) 단어사전 기준으로 빈도 ..

반응형