본문 바로가기

반응형

AI Theory/key concept of AI

(53)
Batch Normalization과 Layer Normalization Batch Normalization과 Layer Normalization 배치 정규화(batch normalization) 해당 레이어 층의 값의 분포를 변경하는 방법 평균과 분산 고정시킴 그래디언트 소실을 줄임으로서 신경망의 학습 속도를 향상시킬 수 있음 미니배치의 각 feature별로 평균, 분산을 계산하고 이를 이용해 정규화하여 평균0, 분산1이 되도록 함 scale prapmeter $\gamma$, shift parameter $\beta$를 이용해 정규화 시킨 값에 affine transformation을 수행할 수도 있음 단점 batch size가 너무 작은 모델에서는 잘 동작하지 않는다 RNN에서는 sequence data를 사용하기에 배치 정규화를 적용하기 힘들다. 따라서 RNN 모델에서..
latent vector 과 latent space 의 의미 latent vector 과 latent space latent vector와 latent space generation model는 train dataset의 distribution을 학습하여 해당 distribution을 따르는 새로운 데이터를 생성한다. 이때 latent vector는 dataset의 하나의 데이터 샘플이 갖는 잠재적인(hidden) 벡터 형태의 변수이고, latent vector들이 모여 분포 형태를 이루며 latent space를 형성한다. 결국 latent vector는 데이터를 설명하는 하나의 feautre이고 latent space는 결국 데이터를 가장 잘 설명할 수 있는 feature의 모임을 의미한다. 이는 곧 차원 축소와도 관련이 있는 것 같다. 이미지 데이터로 예를 ..
down sampling과 up sampling down sampling, up sampling down sampling, up sampling은 데이터 처리 과정에서 자주 사용되는 기술로,데이터의 특성 및 목적에 따라 적절하게 선택하여 사용한다. down sampling 원본 데이터의 샘플링 속도를 줄이는 것, 즉 원본 데이터의 일부 데이터포인트를 제거해 데이터 크기를 줄이는 것을 의미한다. 예를 들어 음악 파일의 샘플링 속도를 1000kHz에서 400kHz로 줄이는 것, 이미지의 해상도를 1920x1080에서 640x480으로 줄이는 것 등이 있다. 시계열 데이터의 경우 원본 데이터의 시간단위가 실용적이지 않은 경우, 계절 주기의 특정 부분에만 집중하고 싶은 경우, 더 낮은 빈도의 데이터에 맞추는 경우, 데이터 포인트를 줄이는 다운샘플링을 수행한다..
few-data learning의 종류 zero-shot learning 모델이 학습과정에서 본 적 없는 새로운 클래스를 인식할 수 있도록 하는 학습 방법 모델이 클래스간 관계, 속성을 이용해 일반화하도록 함 few shot learning 모델이 각 클래스에 대해 단 하나 또는 소수의 예시만 학습하여 새로운 클래스를 인식할 수 있다록 함 meta learning 기법을 통해 새로운 클래스에 대해 빠르게 적응함 transfer learning 학습한 모델을 다른 작업에 적용하는 학습방법 이때 두 작업은 비슷한 특성을 갖고 있어야 함 domain adaption 서로 다른 두 분포를 가진 두 도메인에서 학습된 모델을 서로 적응시키는 방법 semantic embedding 단어, 문장, 문서를 벡터로 표현하는 방법 단어간 의미적 관계를 벡터 공간..
train loss와 validation loss 그래프로 모델 학습 상태 확인하기 train loss와 validation loss 그래프로 모델 학습 상태 확인하기 파란 선이 train loss, 빨간 선이 validation loss이다. A train loss와 validation loss가 둘다 감소하지 않음 학습이 잘 안되고 있는 상태 B train loss는 계속해서 감소하지만 validation loss는 약간 감소하다가 증가하고 있다 overfitting 상태이므로 모델을 수정해서 overfitting을 처리해야 함 C(good) train loss와 validation loss가 둘다 감소하는 상태 train loss와 validation loss가 유사하게 감소하여 validation data가 유출됐다고 생각할 수도 있으나 X 학습이 잘 진행되는 중 D(good) ..
케창딥 | 모델 배포 케창딥 | 모델 배포 다음은 머신러닝 모델을 개발하는 일반적인 워크플로우이다. 1. 작업 정의 문제 정의 데이터 수집 데이터 이해 성공지표 선택 2. 모델 개발 데이터 준비 평가 방법 선택 기준 모델 뛰어넘기 모델 용량 키우기:과대적합 모델 만들기 모델 규제와 하이퍼파라미터 튜닝 3. 모델 배포 고객에게 작업을 설명하고 기대치 설정하기 모델이 실패하는 몇가지 사례 거짓음성비율, 거짓양성비율 모델의 성능지표와 비즈니스 목표를 명확하게 연관짓기 출시할 때 적용할 핵심 파라미터에 대해서도 고객과 논의하기 추론 모델 배치하기 REST API로 모델 배포하기 모델을 제품으로 바꾸는 가장 보편적인 방법 서버나 클라우드 인스턴스에 텐서플로우를 설치하고 REST API로 모델 예측 요청 플라스크 같은 웹 개발 라이브러..
[케라스 창시자에게 배우는 딥러닝] ch5 딥러닝 모델의 일반화, 성능 평가 방법 [KR] keras_DL_CH5_ ch5 예상문제 Q1. 최적화와 일반화에 대해 설명하라(180P) 최적화는 가능한 훈련 데이터 내에서 최고의 성능을 얻으려고 모델을 조정하는 과정이다. 일반화는 훈련된 모델이 이전에 본 적 없는 데이터에서 얼마나 잘 수행되는지를 의미한다. 머신러닝의 목표는 좋은 일반화 성능을 얻는 것이다. 모델을 훈련데이터에 대해 최적화하려고만 하면 과대적합이 시작되고 일반화 성능이 나빠진다. Q2. 과대적합은 데이터가 어떤 경우 발생할 가능성이 높아지는가? 데이터에 잡음이 있거나, 불확실성이 존재하거나 드문 특성이 포함되어 있을 때 과대적합이 발생할 가능성이 높다. 딥러닝 모델의 일반화 모델을 학습하면 label과 feature 사이에 아무런 관계까 없지만 train loss가 감소한..
categorical cross entropy vs sparse cross entropy categorical cross entropy vs sparse cross entropy 둘 모두 분류문제에서 사용되는 loss function이다. 어떤 차이가 있을까? categorical cross entropy 레이블이 원-핫 인코딩(one-hot encoding)으로 표현된 경우에 주로 사용 다중 클래스 분류에 사용 예측값은 확률 분포로 표현되며, 모델이 예측한 클래스의 확률이 정답 레이블에 가까울수록 손실이 작아짐 sparse cross entropy 레이블이 정수 형태로 표현되는 경우에 주로 사용 클래스가 많은 경우, 원-핫 인코딩을 사용하면 메모리를 많이 소모하게 되기 때문에 정수 형태로 레이블을 표현하게 되고 이 때 sparse cross entropy를 손실함수로 사용

반응형