본문 바로가기

반응형

전체 글

(260)
[TFX 스터디 3주차] 기존 프로젝트 분석 및 목표 [TFX 스터디 3주차] 기존 프로젝트 분석 및 목표 박찬성님의 깃허브 레포를 보고 TFX 프로세스를 파악한 뒤 다른 모델에 적용해보기로 했다. https://github.com/deep-diver/semantic-segmentation-ml-pipeline GitHub - deep-diver/semantic-segmentation-ml-pipeline Contribute to deep-diver/semantic-segmentation-ml-pipeline development by creating an account on GitHub. github.com 코드를 보며 느낀 점 README.md에 설치 관련 안내가 있는데 이걸 보고 main으로 가장 먼저 봐야 할 부분이 local_runner.py라는 ..
논문 쓰는 법 논문 쓰는 법 논문 제출처 저널 - 정기적으로 출판되는 학술지 - 학술 논문 뿐만 아니라 뉴스, 사설등의 기고문도 가능 - 컨퍼런스 논문보다 분량이 많고 마감 기한이 없어 논문 심사 과정이 철저한 편 - 네이처, 사이언스 등 컨퍼런스 - 정기적으로 개최되는 학술행사 - 연구자들이 본인의 논문을 발표하고 논문 내용이 담긴 큰 포스터를 만들어 전시함 - 행사 일정이 있으므로 논문 제출 기한이 명확하고 그 이전에 심사가 왼료됨 - 논문 분량, 심사 과정에 저널에 비해 가벼운 편 - 인공지능 분야에서 컨퍼런스에 논문을 투고하는 경우가 많음 - AI Conference Deadlines 워크샵 - 메인 컨퍼런스가 진행되는 기간에 특정 주제를 두고 열리는 작은 컨퍼런스 - 진입장벽이 가장 낮고 비슷한 연구하는 사람..
GLUE Benchmark Dataset이란? GLUE Benchmark Dataset이란? pretrained model의 성능을 측정한다고 했을 때, 한가지 task에 대한 모델의 성능을 측정하는 것이 아닌 여러가지 task를 종합적으로 수행하면서 모델의 종합적인 성능을 측정하는 것이 일반적이다. 그 중 자연어 처리 모델의 성능을 측정하기 위한 10개 task에 대한 데이터셋이 존재하는데 이게 바로 GLUE Benchmark Dataset( General Language Understanding Evaluation)이다. 각 task의 종류는 다음과 같다. name of dataset task score CoLA 문법에 맞는 문장인지 판단 Matthew's Corr MNLI 두 문장의 관계 파단(entailment, contradiction, n..
NLP Frameworks: Hugging Face 기본 사용법 NLP Frameworks: Hugging Face 세상에는 하루가 갈수록 수많은 NLP 모델들이 쏟아져 나오고 있다. 이러한 모델들을 직접 짜보는 것은 실력 향상에 도움이 되지만, 시간적/자원적으로 매우 힘든 일이다. 그리고 논문과 함께 공개된 리서치 코드를 이용해 모델을 사용할 수는 있지만, 프로젝트마다 코드 스타일이 다르고 서로 다른 딥러닝 프레임워크(텐서플로우 or 파이토치)를 사용하기 때문에 이 점에 있어서도 모델 사용에 어려움이 있다. 이러한 문제점들을 해결해주는 것이 바로 NLP Framework이다. framework란 프로젝트의 뼈대를 이루는 클래스와 인터페이스의 집합으로 이를 이용해 손쉽게 다양한 응용 프로그램을 제작할 수 있다. 대부분의 NLP framework들은 태스크나 데이터셋,..
기계 번역의 역사 기계 번역의 역사 신경망 기반 번역기 이전의 역사 규칙 기반 기계 번역(RBMT, Rule Based Machine Translation) 언어 간 번역 규칙을 기반으로 번역. 이 때 규칙들은 언어 간 문법, 어휘 및 구문적 차이 고려 장점: 정교한 언어 규칙을 활용해 특정 도메인의 번역에 효과적 단점: 규칙을 개발하고 유지하는 데 많은 인적 자원, 시간이 필요하며 다양한 언어에 대해 일반화가 어려움 통계적 기계 번역(SMT, Statiscal Machine Translation) 대규모 병렬 말뭉치를 기반으로 통계 모델을 학습하여 번역. 확률 분포를 사용해 다음 단어를 선택함 장점: 대용량의 데이터를 활용해 다양한 언어쌍에 대한 번역 수행 가능, 문맥을 고려한 번역 가능 단점: 훈련 데이터의 부족, 품..
[TFX 스터디 2주차] TFX 프레임워크를 활용한 머신러닝 파이프라인 [TFX 스터디 2주차] TFX 프레임워크를 활용한 머신러닝 파이프라인 TFX를 이용해 머신러닝 워크플로우를 한번에 연결하고 관리할 수 있다. 머신러닝 파이프라인은 지난 글에서 정리했었다. 2023.09.03 - [데이터 사이언스/TFX] - [TFX 스터디 1주차] TFX 프레임워크를 활용한 머신러닝 워크플로우 개요 [TFX 스터디 1주차] TFX 프레임워크를 활용한 머신러닝 워크플로우 개요 [TFX 스터디 1주차] 살아 움직이는 머신러닝 파이프라인 설계 CH1~4 스터디 참여 계기 그동안 머신러닝을 책으로 배웠는데 실전 서비스 등에서 사용되는 머신러닝의 경우 책에서 배운 것과 차이가 itmaster98.tistory.com 파이프라인의 각 단계에서 사용하는 TFX 컴포넌트가 있다. 데이터 수집 기본 ..
[TFX 스터디 1주차] TFX 프레임워크를 활용한 머신러닝 워크플로우 개요 [TFX 스터디 1주차] 살아 움직이는 머신러닝 파이프라인 설계 CH1~4 스터디 참여 계기 그동안 머신러닝을 책으로 배웠는데 실전 서비스 등에서 사용되는 머신러닝의 경우 책에서 배운 것과 차이가 있다는 것을 느꼈다. 예를 들어, 하나의 ipynb 파일에 전체적 프로세스를 작성하도록 하게 하는데, 실전에서 모델을 제작할 경우 새로운 데이터가 추가됨에 따라 모델의 재학습이 필요하고 이러한 재학습을 위해서는 기존에 배웠던 내용만으로는 부족함이 있다. 그리고 이번 학기 캡스톤 디자인 과목을 수강하면서 AI 기반 웹서비스를 제작하려고 하는데 현재 지식만으로는 부족함이 있다고 느껴 TFX 스터디에 참여하게 되었다. TFX TFX는 Tensorflow Extended의 약자로, 텐서플로우 기반의 머신러닝 파이프라인..
2023 AIFFEL DLTON NLP 과정 후기 2023 AIFFEL DLTON NLP 과정 후기 1. 대회 주제 및 데이터 소개 지난 9월 29~31일에 열린 모두의 연구소 DLTON에 참가했다. 주제는 DKTC 데이터셋 다중분류 모델 제작하기였다! https://github.com/tunib-ai/DKTC GitHub - tunib-ai/DKTC: Dataset of Korean Threatening Conversations Dataset of Korean Threatening Conversations. Contribute to tunib-ai/DKTC development by creating an account on GitHub. github.com 일반 클래스를 제외한 협박, 갈취, 직장내 괴롭힘, 기타 괴롭힘 총 4개의 클래스를 분류하는 모..

반응형