본문 바로가기

반응형

분류 전체보기

(258)
Phi3, LLaMa3 출시 1. Phi 3 출시3.8B, 7B, 14B의 SLM벤치마크 데이터셋으로 성능 평가한 결과 GPT-3.5 와 성능 비교도 가능 2. Stable Diffusion3 API 공개 3. 똑같은 실수를 반복하지 않으려면 실수에 대한 반응 패턴이 중요 4. OpenVoice v2 출시더 나은 음성 복제 품질, 다국어 지원, 상업적 사용 무료(MIT 라이센스)감정, 억양 등 음성 스타일을 세밀하게 제어 가능훈련 데이터에 포함되지 않은 언어도 제로샷으로 교차 언어 복제 가능  5. LLama3현재까지 성능이 가장 뛰어난 오픈소스 LLM실험적 동시성 기능: 단일 모델이 여러 요청 동시에 처리, 여러 모델 동시에 로드24.4.18. 모델 공개 이후 120만회 이상 모델 다운로드, huggingface에 600개 이상 ..
Batch Normalization과 Layer Normalization Batch Normalization과 Layer Normalization 배치 정규화(batch normalization) 해당 레이어 층의 값의 분포를 변경하는 방법 평균과 분산 고정시킴 그래디언트 소실을 줄임으로서 신경망의 학습 속도를 향상시킬 수 있음 미니배치의 각 feature별로 평균, 분산을 계산하고 이를 이용해 정규화하여 평균0, 분산1이 되도록 함 scale prapmeter $\gamma$, shift parameter $\beta$를 이용해 정규화 시킨 값에 affine transformation을 수행할 수도 있음 단점 batch size가 너무 작은 모델에서는 잘 동작하지 않는다 RNN에서는 sequence data를 사용하기에 배치 정규화를 적용하기 힘들다. 따라서 RNN 모델에서..
RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same 오류 해결방법 RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same 오류 해결방법 이름 그대로 데이터 형식이 달라서 생기는 문제로 모델의 weight는 torch.FloatTensor로 cpu에 있는데 input은 Gpu에 있어서 생기는 문제다. weight를 cpu에서 gpu로 옮기거나 input을 gpu에서 cpu로 옮기면 된다. 나는 weight를 gpu로 옮겼다. model.train()전에 model.to(DEVICE)를 하면 된다. model.to(DEVICE) # 모델을 GPU로 이동 model.train() 여기서 DEVICE는 cuda를 의미한다. DEVICE = "cu..
latent vector 과 latent space 의 의미 latent vector 과 latent space latent vector와 latent space generation model는 train dataset의 distribution을 학습하여 해당 distribution을 따르는 새로운 데이터를 생성한다. 이때 latent vector는 dataset의 하나의 데이터 샘플이 갖는 잠재적인(hidden) 벡터 형태의 변수이고, latent vector들이 모여 분포 형태를 이루며 latent space를 형성한다. 결국 latent vector는 데이터를 설명하는 하나의 feautre이고 latent space는 결국 데이터를 가장 잘 설명할 수 있는 feature의 모임을 의미한다. 이는 곧 차원 축소와도 관련이 있는 것 같다. 이미지 데이터로 예를 ..
down sampling과 up sampling down sampling, up sampling down sampling, up sampling은 데이터 처리 과정에서 자주 사용되는 기술로,데이터의 특성 및 목적에 따라 적절하게 선택하여 사용한다. down sampling 원본 데이터의 샘플링 속도를 줄이는 것, 즉 원본 데이터의 일부 데이터포인트를 제거해 데이터 크기를 줄이는 것을 의미한다. 예를 들어 음악 파일의 샘플링 속도를 1000kHz에서 400kHz로 줄이는 것, 이미지의 해상도를 1920x1080에서 640x480으로 줄이는 것 등이 있다. 시계열 데이터의 경우 원본 데이터의 시간단위가 실용적이지 않은 경우, 계절 주기의 특정 부분에만 집중하고 싶은 경우, 더 낮은 빈도의 데이터에 맞추는 경우, 데이터 포인트를 줄이는 다운샘플링을 수행한다..
4월 1주차 Personal Goals Nomad Coder chatGPT 활용법 1강 Learning Prompting 1개 번역 기여 김충락 수리통계학 1~3강 인공지능 및 기계학습개론 1강 stable diffusion review Lab Goals [ㅇ] 인공지능개론 발표준비 금요일 휴벳 미팅 [ㅇ] tacotron2 fine tuning
레지스터 레지스터 cpu내에서는 다양한 레지스터들이 존재 프로그램 속 명령어와 데이터는 실행 전후 반드시 레지스터에 저장됨 레지스터의 종류 프로그램 카운터 PC - 메모리에서 불러올 명령어의 주소를 저장함 - 일반적으로 꾸준히 증가하며 프로그램을 차례대로 실행함 (일반적이지 않은 경우: 특정 메모리 주소로 실행 흐름 이동하는 명령어, 인터럽트 발생) - 명령어 포인터(IP, Instuction Pointer)라고도 부름 명령어 레지스터 IR(instruction~) - 해석할 명령어, 즉 방금 메모리에서 읽어들인 명령어를 저장 - 제어장치는 명령어 레지스터 속 명령어를 받고 이를 해석한 뒤 제어 신호를 내보냄 메모리 주소 레지스터 MAR - 메모리의 주소 저장 - CPU가 읽고자 하는 주소를 주소 버스로 보낼 때..
few-data learning의 종류 zero-shot learning 모델이 학습과정에서 본 적 없는 새로운 클래스를 인식할 수 있도록 하는 학습 방법 모델이 클래스간 관계, 속성을 이용해 일반화하도록 함 few shot learning 모델이 각 클래스에 대해 단 하나 또는 소수의 예시만 학습하여 새로운 클래스를 인식할 수 있다록 함 meta learning 기법을 통해 새로운 클래스에 대해 빠르게 적응함 transfer learning 학습한 모델을 다른 작업에 적용하는 학습방법 이때 두 작업은 비슷한 특성을 갖고 있어야 함 domain adaption 서로 다른 두 분포를 가진 두 도메인에서 학습된 모델을 서로 적응시키는 방법 semantic embedding 단어, 문장, 문서를 벡터로 표현하는 방법 단어간 의미적 관계를 벡터 공간..

반응형