전체 글 (282) 썸네일형 리스트형 GLUE Benchmark Dataset이란? GLUE Benchmark Dataset이란? pretrained model의 성능을 측정한다고 했을 때, 한가지 task에 대한 모델의 성능을 측정하는 것이 아닌 여러가지 task를 종합적으로 수행하면서 모델의 종합적인 성능을 측정하는 것이 일반적이다. 그 중 자연어 처리 모델의 성능을 측정하기 위한 10개 task에 대한 데이터셋이 존재하는데 이게 바로 GLUE Benchmark Dataset( General Language Understanding Evaluation)이다. 각 task의 종류는 다음과 같다. name of dataset task score CoLA 문법에 맞는 문장인지 판단 Matthew's Corr MNLI 두 문장의 관계 파단(entailment, contradiction, n.. NLP Frameworks: Hugging Face 기본 사용법 NLP Frameworks: Hugging Face 세상에는 하루가 갈수록 수많은 NLP 모델들이 쏟아져 나오고 있다. 이러한 모델들을 직접 짜보는 것은 실력 향상에 도움이 되지만, 시간적/자원적으로 매우 힘든 일이다. 그리고 논문과 함께 공개된 리서치 코드를 이용해 모델을 사용할 수는 있지만, 프로젝트마다 코드 스타일이 다르고 서로 다른 딥러닝 프레임워크(텐서플로우 or 파이토치)를 사용하기 때문에 이 점에 있어서도 모델 사용에 어려움이 있다. 이러한 문제점들을 해결해주는 것이 바로 NLP Framework이다. framework란 프로젝트의 뼈대를 이루는 클래스와 인터페이스의 집합으로 이를 이용해 손쉽게 다양한 응용 프로그램을 제작할 수 있다. 대부분의 NLP framework들은 태스크나 데이터셋,.. 기계 번역의 역사 기계 번역의 역사 신경망 기반 번역기 이전의 역사 규칙 기반 기계 번역(RBMT, Rule Based Machine Translation) 언어 간 번역 규칙을 기반으로 번역. 이 때 규칙들은 언어 간 문법, 어휘 및 구문적 차이 고려 장점: 정교한 언어 규칙을 활용해 특정 도메인의 번역에 효과적 단점: 규칙을 개발하고 유지하는 데 많은 인적 자원, 시간이 필요하며 다양한 언어에 대해 일반화가 어려움 통계적 기계 번역(SMT, Statiscal Machine Translation) 대규모 병렬 말뭉치를 기반으로 통계 모델을 학습하여 번역. 확률 분포를 사용해 다음 단어를 선택함 장점: 대용량의 데이터를 활용해 다양한 언어쌍에 대한 번역 수행 가능, 문맥을 고려한 번역 가능 단점: 훈련 데이터의 부족, 품.. [TFX 스터디 2주차] TFX 프레임워크를 활용한 머신러닝 파이프라인 [TFX 스터디 2주차] TFX 프레임워크를 활용한 머신러닝 파이프라인 TFX를 이용해 머신러닝 워크플로우를 한번에 연결하고 관리할 수 있다. 머신러닝 파이프라인은 지난 글에서 정리했었다. 2023.09.03 - [데이터 사이언스/TFX] - [TFX 스터디 1주차] TFX 프레임워크를 활용한 머신러닝 워크플로우 개요 [TFX 스터디 1주차] TFX 프레임워크를 활용한 머신러닝 워크플로우 개요 [TFX 스터디 1주차] 살아 움직이는 머신러닝 파이프라인 설계 CH1~4 스터디 참여 계기 그동안 머신러닝을 책으로 배웠는데 실전 서비스 등에서 사용되는 머신러닝의 경우 책에서 배운 것과 차이가 itmaster98.tistory.com 파이프라인의 각 단계에서 사용하는 TFX 컴포넌트가 있다. 데이터 수집 기본 .. [TFX 스터디 1주차] TFX 프레임워크를 활용한 머신러닝 워크플로우 개요 [TFX 스터디 1주차] 살아 움직이는 머신러닝 파이프라인 설계 CH1~4 스터디 참여 계기 그동안 머신러닝을 책으로 배웠는데 실전 서비스 등에서 사용되는 머신러닝의 경우 책에서 배운 것과 차이가 있다는 것을 느꼈다. 예를 들어, 하나의 ipynb 파일에 전체적 프로세스를 작성하도록 하게 하는데, 실전에서 모델을 제작할 경우 새로운 데이터가 추가됨에 따라 모델의 재학습이 필요하고 이러한 재학습을 위해서는 기존에 배웠던 내용만으로는 부족함이 있다. 그리고 이번 학기 캡스톤 디자인 과목을 수강하면서 AI 기반 웹서비스를 제작하려고 하는데 현재 지식만으로는 부족함이 있다고 느껴 TFX 스터디에 참여하게 되었다. TFX TFX는 Tensorflow Extended의 약자로, 텐서플로우 기반의 머신러닝 파이프라인.. 2023 AIFFEL DLTON NLP 과정 후기 2023 AIFFEL DLTON NLP 과정 후기 1. 대회 주제 및 데이터 소개 지난 9월 29~31일에 열린 모두의 연구소 DLTON에 참가했다. 주제는 DKTC 데이터셋 다중분류 모델 제작하기였다! https://github.com/tunib-ai/DKTC GitHub - tunib-ai/DKTC: Dataset of Korean Threatening Conversations Dataset of Korean Threatening Conversations. Contribute to tunib-ai/DKTC development by creating an account on GitHub. github.com 일반 클래스를 제외한 협박, 갈취, 직장내 괴롭힘, 기타 괴롭힘 총 4개의 클래스를 분류하는 모.. [시계열 데이터] 1. introduction [시계열 데이터] 1. introduction 실생활 활용도가 매우 높은 시계열 데이터! 에 대해서 공부해보려고 한다. 일단 tutorialspoint라는 사이트에서 time series tutorial이라는 글들을 찾았는데 이거 공부하고 책으로도 보면 좋을 것 같다. https://www.tutorialspoint.com/time_series/time_series_python_libraries.htm Time Series - Python Libraries Time Series Python Libraries - Python has an established popularity among individuals who perform machine learning because of its easy-to-wr.. CS182 Lecture 1: Introduction CS182 Lecture 1: Introduction 전 세계에는 6000여개 이상의 언어가 존재하지만, 자동번역(automated translation)은 2개의 언어만을 요구한다. 번역 모델의 종류 1. standard machine translation 각각 언어 pair 별 번역 모델이 존재하며 각각의 모델 사용 2. multilingual machine translation 하나의 모델로 어떤 언어든 어떤 언어로 번역 효율성 증가 zero shot machine translation: 영어 > 한국어, 한국어>일본어 하면 영어>일본어도 구할 수 있다 여러 언어들의 mix(40% 스페인어, 60% 프랑스어) language 구성 가능 A언어를 B 언어로 번역한다고 할 때 A 언어를 thought로.. 이전 1 ··· 5 6 7 8 9 10 11 ··· 36 다음