down sampling, up sampling
down sampling, up sampling은 데이터 처리 과정에서 자주 사용되는 기술로,데이터의 특성 및 목적에 따라 적절하게 선택하여 사용한다.
down sampling
원본 데이터의 샘플링 속도를 줄이는 것, 즉 원본 데이터의 일부 데이터포인트를 제거해 데이터 크기를 줄이는 것을 의미한다.
예를 들어 음악 파일의 샘플링 속도를 1000kHz에서 400kHz로 줄이는 것, 이미지의 해상도를 1920x1080에서 640x480으로 줄이는 것 등이 있다.
시계열 데이터의 경우 원본 데이터의 시간단위가 실용적이지 않은 경우, 계절 주기의 특정 부분에만 집중하고 싶은 경우, 더 낮은 빈도의 데이터에 맞추는 경우, 데이터 포인트를 줄이는 다운샘플링을 수행한다.
다운샘플링을 통해 데이터 크기를 줄이면서 저장 공간 절약 및 연산 속도를 향상하고, low pass filter를 사용할 경우 노이즈를 제거할 수도 있다.
up sampling
원본 데이터의 샘플링 속도를 높이는 것, 즉 원본 데이터 사이에 새로운 데이터 포인트를 추가해 데이터 크기를 늘리는 것이다.
예를 들어 음악 파일의 샘플링 속도를400kHz에서 1000kHz로 높이는 것, 이미지의 해상도를 640x480에서 1920x1080으로 높이는 것 등이 있다.
시계열의 경우 시계열이 불규칙적인 상황에서 업샘플링을 통해 시계열을 규칙적인 형태로 변환할 수 있다.
업샘플링을 통해 데이터의 해상도를 향상시키고 신호 간섭을 방지할 수 있으며, 서로 다른 샘플링 속도를 가진 데이터 간 동기화가 가능하다.
데이터 타입별 downsampling, upsampling 방식
1. 오디오
up-sampling | down-sampling |
zero-padding(원본 데이터 사이 0을 삽입하는 방식. 계산량이 적으나 음질 저하가 발생할 수 있음) | decimation(원본 데이터의 샘플 중 일정 간격으로 샘플 제거, 간단하지만 앨리어싱 현상 발생 가능성) |
Interpolation (보간)(원본 데이터 사이 값을 추정하여 데이터 크기를 늘리는 방식) | low-pass filtering(원본 데이터의 높은 주파수를 filtering하는 방식. 앨리어싱 현상을 방지할 수 있으며, 다양한 filter 사용 가능) |
Upsampling Filters(low pass filter를 사용해 원본 데이터의 주파수 스펙트럼을 확장하는 방식. 가장 음질이 좋으나 계산 과정 및 구현이 복잡) | resampling(sampling rate를 변경하는 방식으로 decimation과 low pass filtering을 함깨 사용함. 앨리어싱 현상을 방지하며 원하는 sampling rate를 얻을 수 있음) |
2. 이미지
up-sampling | down-sampling |
Nearest Neighbor Interpolation | Average Pooling(간단하지만 이미지의 디테일 정보 손실) |
Bilinear Interpolation | Max Pooling(특징 추출에 효과적이나 이미지의 질감 정보 손실) |
Bicubic Interpolation | Subsampling(이미지의 특정 부분에 집중할 수 있으나 이미지의 전체적인 정보 손실) |
unpooling | Dilated (Atrous) Convolution |
max unpooling | depthwise convolution |
deconvolution | depthwise separable convolution |
transposed convolution |
3. 시계열
up-sampling | down-sampling |
선형 보간(1차식 사용) | 합계 집계, 평균 집계 |
2차 보간(2차 방정식 사용) | 최대/최소 집계 |
Cubic Spline Interpolation(곡선 사용) | Decimation (데시메이션) |
4. 텍스트
up-sampling | down-sampling |
단어/문장 복제 (Word/Sentence Replication) | 임의 제거 (Random Removal) |
동의어 치환 (Synonym Substitution) | 키워드 기반 제거 (Keyword-based Removal) |
텍스트 생성 (Text Generation) | 요약 (Summarization) |
출처
'AI Theory > key concept of AI' 카테고리의 다른 글
Batch Normalization과 Layer Normalization (0) | 2024.04.12 |
---|---|
latent vector 과 latent space 의 의미 (0) | 2024.04.04 |
few-data learning의 종류 (0) | 2024.03.27 |
train loss와 validation loss 그래프로 모델 학습 상태 확인하기 (0) | 2023.08.01 |
케창딥 | 모델 배포 (0) | 2023.08.01 |