본문 바로가기

반응형

분류 전체보기

(270)
[TFX 스터디 1주차] TFX 프레임워크를 활용한 머신러닝 워크플로우 개요 [TFX 스터디 1주차] 살아 움직이는 머신러닝 파이프라인 설계 CH1~4 스터디 참여 계기 그동안 머신러닝을 책으로 배웠는데 실전 서비스 등에서 사용되는 머신러닝의 경우 책에서 배운 것과 차이가 있다는 것을 느꼈다. 예를 들어, 하나의 ipynb 파일에 전체적 프로세스를 작성하도록 하게 하는데, 실전에서 모델을 제작할 경우 새로운 데이터가 추가됨에 따라 모델의 재학습이 필요하고 이러한 재학습을 위해서는 기존에 배웠던 내용만으로는 부족함이 있다. 그리고 이번 학기 캡스톤 디자인 과목을 수강하면서 AI 기반 웹서비스를 제작하려고 하는데 현재 지식만으로는 부족함이 있다고 느껴 TFX 스터디에 참여하게 되었다. TFX TFX는 Tensorflow Extended의 약자로, 텐서플로우 기반의 머신러닝 파이프라인..
2023 AIFFEL DLTON NLP 과정 후기 2023 AIFFEL DLTON NLP 과정 후기 1. 대회 주제 및 데이터 소개 지난 9월 29~31일에 열린 모두의 연구소 DLTON에 참가했다. 주제는 DKTC 데이터셋 다중분류 모델 제작하기였다! https://github.com/tunib-ai/DKTC GitHub - tunib-ai/DKTC: Dataset of Korean Threatening Conversations Dataset of Korean Threatening Conversations. Contribute to tunib-ai/DKTC development by creating an account on GitHub. github.com 일반 클래스를 제외한 협박, 갈취, 직장내 괴롭힘, 기타 괴롭힘 총 4개의 클래스를 분류하는 모..
[시계열 데이터] 1. introduction [시계열 데이터] 1. introduction 실생활 활용도가 매우 높은 시계열 데이터! 에 대해서 공부해보려고 한다. 일단 tutorialspoint라는 사이트에서 time series tutorial이라는 글들을 찾았는데 이거 공부하고 책으로도 보면 좋을 것 같다. https://www.tutorialspoint.com/time_series/time_series_python_libraries.htm Time Series - Python Libraries Time Series Python Libraries - Python has an established popularity among individuals who perform machine learning because of its easy-to-wr..
CS182 Lecture 1: Introduction CS182 Lecture 1: Introduction 전 세계에는 6000여개 이상의 언어가 존재하지만, 자동번역(automated translation)은 2개의 언어만을 요구한다. 번역 모델의 종류 1. standard machine translation 각각 언어 pair 별 번역 모델이 존재하며 각각의 모델 사용 2. multilingual machine translation 하나의 모델로 어떤 언어든 어떤 언어로 번역 효율성 증가 zero shot machine translation: 영어 > 한국어, 한국어>일본어 하면 영어>일본어도 구할 수 있다 여러 언어들의 mix(40% 스페인어, 60% 프랑스어) language 구성 가능 A언어를 B 언어로 번역한다고 할 때 A 언어를 thought로..
[GoingDeeper] 04. 단어 빈도, 텍스트 분포로 벡터화하기 [GoingDeeper] 04. 단어 빈도, 텍스트 분포로 벡터화하기 목차 단어 빈도를 이용한 벡터화 1. Bag of words 2. DTM 3. TF-IDF 4. LSA(Latent Semetic analysis 5. LDA(Latent Dirichlet Allocation 텍스트 분포를 이용한 벡터화: soynlp 자연어 처리에서 텍스트를 숫자 벡터로 변환하는 과정을 벡터화(Vectorization) 이라고 한다. 벡터화 방법은 크게 1.통계와 머신러닝을 활용한 방법 과 2. 인공신경망을 활용한 방법 으로 나뉜다. 단어 빈도를 이용한 벡터화와 텍스트 분포를 이용한 벡터화의 경우 통계와 머신러닝을 활용한 벡터화에 속한다. 단어 빈도를 이용한 벡터화 1. Bag of words(BoW) 자연어처리, 정..
수열과 점화식 수열과 점화식 학습 이유 데이터사이언스에서 연속적인 개념을 근사적으로 표현할 때 자주 등장 특히 수열의 점화식과 극한은 반복적이고 순차적인 데이터에 특화된 순환신경망 분석에서 매우 중요 수열(sequence) 정해진 규칙에 따라 차례대로 나열한 수 등차수열(arithmetic sequence) 두 항의 차가 일정한 수열 첫번째 항 a에 차례로 공차(common difference) d를 더해서 만든 수열 등비수열(geomoetric sequence) 두 항의 비가 일정한 수열 첫번째 항 a에 차례로 공비(common ratio) r을 곱해서 만든 수열 일반적으로 공비 r 은 0이 아니다. 그외 수열들 자연수 거듭제곱의 합 수열의 점화식(recurrence formula) 주어진 수열 {a_n} 의 이웃하..
[케창딥] ch11 텍스트를 위한 딥러닝 [케창딥] ch11 텍스트를 위한 딥러닝 텍스트 데이터 준비 딥러닝 모델은 수치 텐서만 처리할 수 있으므로 원시 텍스트에 대해 텍스트 벡터화를 수행해야 함 텍스트 벡터화란 텍스트를 수치 텐서로 바꾸는 과정 케라스의 TextVectorizeation 층을 통해 빠르고 효율적으로 사용 가능 텍스트 벡터화의 단계 1. 텍스트 표준화(standardization) 소문자로 바꾸거나 구두점 제거 (고급) 어간 추출(stemming): 어형이 변형된 단어를 하나의 표현으로 바꾸기 표준화를 통해 모델에 필요한 훈련 데이터가 줄어들고 일반화가 잘되는 장점이 있으나, 일정량의 정보를 삭제할 수 있다는 단점이 있다. 2. 텍스트 토큰화(텍스트 분할) 텍스트 표준화 진행 후 텍스트를 벡터화하기 위한 단위(토큰)로 분할 크게..
[케창딥] ch8. 컴퓨터 비전 ConvNet 합성곱 연산 Dense layer(fully connected layer) 입력 특성 공간의 전역 패턴을 학습 합성곱 층 지역 패턴 학습 평행 이동 불변성(translation invariant) 패턴의 공간적 계층 구조 학습 지역적이고 평행이동으로 변하지 않는 특성을 학습하므로 지각에 관한 문제에서 매우 효율적이므로 매우 작은 이미지 데이터셋에서 특성공학 없이 컨브넷 훈련해도 좋은 결과를 만들수 있다. 합성곱 작동 방식 3D input feature map을 3*3 윈도우가 sliding하며 3D feature patch 추출 3D feature patch와 합성곱 커널의 점곱으로 1D patch로 변환 변환된 1D patch를 3D feature map으로 재구성 이때 출력 높이와 너비는 입력 높이와..

반응형