본문 바로가기

반응형

전체 글

(260)
[시계열 데이터] 1. introduction [시계열 데이터] 1. introduction 실생활 활용도가 매우 높은 시계열 데이터! 에 대해서 공부해보려고 한다. 일단 tutorialspoint라는 사이트에서 time series tutorial이라는 글들을 찾았는데 이거 공부하고 책으로도 보면 좋을 것 같다. https://www.tutorialspoint.com/time_series/time_series_python_libraries.htm Time Series - Python Libraries Time Series Python Libraries - Python has an established popularity among individuals who perform machine learning because of its easy-to-wr..
CS182 Lecture 1: Introduction CS182 Lecture 1: Introduction 전 세계에는 6000여개 이상의 언어가 존재하지만, 자동번역(automated translation)은 2개의 언어만을 요구한다. 번역 모델의 종류 1. standard machine translation 각각 언어 pair 별 번역 모델이 존재하며 각각의 모델 사용 2. multilingual machine translation 하나의 모델로 어떤 언어든 어떤 언어로 번역 효율성 증가 zero shot machine translation: 영어 > 한국어, 한국어>일본어 하면 영어>일본어도 구할 수 있다 여러 언어들의 mix(40% 스페인어, 60% 프랑스어) language 구성 가능 A언어를 B 언어로 번역한다고 할 때 A 언어를 thought로..
[GoingDeeper] 04. 단어 빈도, 텍스트 분포로 벡터화하기 [GoingDeeper] 04. 단어 빈도, 텍스트 분포로 벡터화하기 목차 단어 빈도를 이용한 벡터화 1. Bag of words 2. DTM 3. TF-IDF 4. LSA(Latent Semetic analysis 5. LDA(Latent Dirichlet Allocation 텍스트 분포를 이용한 벡터화: soynlp 자연어 처리에서 텍스트를 숫자 벡터로 변환하는 과정을 벡터화(Vectorization) 이라고 한다. 벡터화 방법은 크게 1.통계와 머신러닝을 활용한 방법 과 2. 인공신경망을 활용한 방법 으로 나뉜다. 단어 빈도를 이용한 벡터화와 텍스트 분포를 이용한 벡터화의 경우 통계와 머신러닝을 활용한 벡터화에 속한다. 단어 빈도를 이용한 벡터화 1. Bag of words(BoW) 자연어처리, 정..
수열과 점화식 수열과 점화식 학습 이유 데이터사이언스에서 연속적인 개념을 근사적으로 표현할 때 자주 등장 특히 수열의 점화식과 극한은 반복적이고 순차적인 데이터에 특화된 순환신경망 분석에서 매우 중요 수열(sequence) 정해진 규칙에 따라 차례대로 나열한 수 등차수열(arithmetic sequence) 두 항의 차가 일정한 수열 첫번째 항 a에 차례로 공차(common difference) d를 더해서 만든 수열 등비수열(geomoetric sequence) 두 항의 비가 일정한 수열 첫번째 항 a에 차례로 공비(common ratio) r을 곱해서 만든 수열 일반적으로 공비 r 은 0이 아니다. 그외 수열들 자연수 거듭제곱의 합 수열의 점화식(recurrence formula) 주어진 수열 {a_n} 의 이웃하..
[케창딥] ch11 텍스트를 위한 딥러닝 [케창딥] ch11 텍스트를 위한 딥러닝 텍스트 데이터 준비 딥러닝 모델은 수치 텐서만 처리할 수 있으므로 원시 텍스트에 대해 텍스트 벡터화를 수행해야 함 텍스트 벡터화란 텍스트를 수치 텐서로 바꾸는 과정 케라스의 TextVectorizeation 층을 통해 빠르고 효율적으로 사용 가능 텍스트 벡터화의 단계 1. 텍스트 표준화(standardization) 소문자로 바꾸거나 구두점 제거 (고급) 어간 추출(stemming): 어형이 변형된 단어를 하나의 표현으로 바꾸기 표준화를 통해 모델에 필요한 훈련 데이터가 줄어들고 일반화가 잘되는 장점이 있으나, 일정량의 정보를 삭제할 수 있다는 단점이 있다. 2. 텍스트 토큰화(텍스트 분할) 텍스트 표준화 진행 후 텍스트를 벡터화하기 위한 단위(토큰)로 분할 크게..
[케창딥] ch8. 컴퓨터 비전 ConvNet 합성곱 연산 Dense layer(fully connected layer) 입력 특성 공간의 전역 패턴을 학습 합성곱 층 지역 패턴 학습 평행 이동 불변성(translation invariant) 패턴의 공간적 계층 구조 학습 지역적이고 평행이동으로 변하지 않는 특성을 학습하므로 지각에 관한 문제에서 매우 효율적이므로 매우 작은 이미지 데이터셋에서 특성공학 없이 컨브넷 훈련해도 좋은 결과를 만들수 있다. 합성곱 작동 방식 3D input feature map을 3*3 윈도우가 sliding하며 3D feature patch 추출 3D feature patch와 합성곱 커널의 점곱으로 1D patch로 변환 변환된 1D patch를 3D feature map으로 재구성 이때 출력 높이와 너비는 입력 높이와..
train loss와 validation loss 그래프로 모델 학습 상태 확인하기 train loss와 validation loss 그래프로 모델 학습 상태 확인하기 파란 선이 train loss, 빨간 선이 validation loss이다. A train loss와 validation loss가 둘다 감소하지 않음 학습이 잘 안되고 있는 상태 B train loss는 계속해서 감소하지만 validation loss는 약간 감소하다가 증가하고 있다 overfitting 상태이므로 모델을 수정해서 overfitting을 처리해야 함 C(good) train loss와 validation loss가 둘다 감소하는 상태 train loss와 validation loss가 유사하게 감소하여 validation data가 유출됐다고 생각할 수도 있으나 X 학습이 잘 진행되는 중 D(good) ..
케창딥 | 모델 배포 케창딥 | 모델 배포 다음은 머신러닝 모델을 개발하는 일반적인 워크플로우이다. 1. 작업 정의 문제 정의 데이터 수집 데이터 이해 성공지표 선택 2. 모델 개발 데이터 준비 평가 방법 선택 기준 모델 뛰어넘기 모델 용량 키우기:과대적합 모델 만들기 모델 규제와 하이퍼파라미터 튜닝 3. 모델 배포 고객에게 작업을 설명하고 기대치 설정하기 모델이 실패하는 몇가지 사례 거짓음성비율, 거짓양성비율 모델의 성능지표와 비즈니스 목표를 명확하게 연관짓기 출시할 때 적용할 핵심 파라미터에 대해서도 고객과 논의하기 추론 모델 배치하기 REST API로 모델 배포하기 모델을 제품으로 바꾸는 가장 보편적인 방법 서버나 클라우드 인스턴스에 텐서플로우를 설치하고 REST API로 모델 예측 요청 플라스크 같은 웹 개발 라이브러..

반응형