본문 바로가기

반응형

분류 전체보기

(270)
위키피디아 벡터 데이터셋, Llama3를 활용한 멀티모달 모델 1. 위키피디아 전체를 벡터로 임베딩한 데이터셋- JVector로 벡터 인덱스 생성 후 Chronicle Map으로 기사 데이터를 저장하여 사용함- 벡터 압축을 위해 Locally-Adaptive Quantization 사용- 데이터 병렬 처리- Linux, Mac에서만 사용가능  노트북에서 Wikipedia 전체를 벡터 인덱싱하기 | GeekNewsCohere가 위키피디아 전체를 벡터로 임베딩한 데이터셋을 공개했음이 데이터셋을 사용하면 개인이 위키피디아의 의미 기반 벡터 인덱스를 만들 수 있게 됨어려운 점데이터셋 크기(영어 코퍼스만news.hada.io  GitHub - jbellis/coherepedia-jvectorContribute to jbellis/coherepedia-jvector devel..
tensorboard "No dashboards are active" 오류? 바로 wandb로 갈아타기 tensorboard에서 wandb로 갈아타기 tacotron2를 training하면서 tensorboard error가 진짜 많이 일어났다.가장 최근에 발생한 오류는 event log랑 다 저장되어있는데 no dashboard are active라고 뜨면서 안되는 오류,,,버전문제인가 싶어서 tensorboard 재설치도 해보고 포트도 바꿔보고 command도 바꿔보고 했는데 해결이 안된다...근데 놀랍게도 tensorboard가 아니라 wandb랑 연동해서 여니까 잘 나옴...ㅎㅎㅎㅎㅎㅎㅎ...  연동도 겁나 쉽다.코드 몇줄만 추가하면 tensorboard에서 wandb로 갈아탈 수 있다. 나 이제 텐서보드 안쓸거야...(제발 안쓰게해주세요) training.py에 아래 코드만 추가하면 tensorb..
tensorboard error | localhost에서 연결을 거부했습니다. tensorboard error | localhost에서 연결을 거부했습니다. 이런 식으로 나오면서, 링크 접속시 로컬 호스트에서 연결을 거부했다고 나오는 문제 검색해보니까 38999e12c72는 ip 주소의 16진수인 것 같다. 좀 더 세부적으로 지정해주니까 해결tensorboard --logdir '\logdir 주소(.events 저장된 폴더 위치)' --host=0.0.0.0 --port 6010
Tacotron2 English TTS 훈련시키기 (2트) 똑같은 모델 돌리는 걸 왜 2트를 했냐면 분명 몇주 전에 tacotron2를 conda 가상환경에서 training하는거 성공했는데 어제 다시 하니까 안돌아갔다ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 아니 똑같은 conda 환경에서 지난번엔 됐는데 이번에 돌리니까 torch를 설치해야한다는데 원래 가상환경에 torch가 설치가 안돼있는데 이게 어떻게된일인가... 몇 주 전이어서 어케했었는지도 기억도 안나고 torch 설치하려고 하니까 충돌나서 안돼서 그냥 처음부터 다시했다. tacotron2는 github 찾아보면 레포가 좀 있긴 한데 다 4~5년 전 거여서 그런가 torch, tensorflow 1.xx 버전을 써야한다. (근데 그것도 자세한 내용이 없는게 함정) 있는 레포 README.md 보면서 다 해봤는데 안돼서..
Phi3, LLaMa3 출시 1. Phi 3 출시3.8B, 7B, 14B의 SLM벤치마크 데이터셋으로 성능 평가한 결과 GPT-3.5 와 성능 비교도 가능 2. Stable Diffusion3 API 공개 3. 똑같은 실수를 반복하지 않으려면 실수에 대한 반응 패턴이 중요 4. OpenVoice v2 출시더 나은 음성 복제 품질, 다국어 지원, 상업적 사용 무료(MIT 라이센스)감정, 억양 등 음성 스타일을 세밀하게 제어 가능훈련 데이터에 포함되지 않은 언어도 제로샷으로 교차 언어 복제 가능  5. LLama3현재까지 성능이 가장 뛰어난 오픈소스 LLM실험적 동시성 기능: 단일 모델이 여러 요청 동시에 처리, 여러 모델 동시에 로드24.4.18. 모델 공개 이후 120만회 이상 모델 다운로드, huggingface에 600개 이상 ..
Batch Normalization과 Layer Normalization Batch Normalization과 Layer Normalization 배치 정규화(batch normalization) 해당 레이어 층의 값의 분포를 변경하는 방법 평균과 분산 고정시킴 그래디언트 소실을 줄임으로서 신경망의 학습 속도를 향상시킬 수 있음 미니배치의 각 feature별로 평균, 분산을 계산하고 이를 이용해 정규화하여 평균0, 분산1이 되도록 함 scale prapmeter $\gamma$, shift parameter $\beta$를 이용해 정규화 시킨 값에 affine transformation을 수행할 수도 있음 단점 batch size가 너무 작은 모델에서는 잘 동작하지 않는다 RNN에서는 sequence data를 사용하기에 배치 정규화를 적용하기 힘들다. 따라서 RNN 모델에서..
RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same 오류 해결방법 RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same 오류 해결방법 이름 그대로 데이터 형식이 달라서 생기는 문제로 모델의 weight는 torch.FloatTensor로 cpu에 있는데 input은 Gpu에 있어서 생기는 문제다. weight를 cpu에서 gpu로 옮기거나 input을 gpu에서 cpu로 옮기면 된다. 나는 weight를 gpu로 옮겼다. model.train()전에 model.to(DEVICE)를 하면 된다. model.to(DEVICE) # 모델을 GPU로 이동 model.train() 여기서 DEVICE는 cuda를 의미한다. DEVICE = "cu..
latent vector 과 latent space 의 의미 latent vector 과 latent space latent vector와 latent space generation model는 train dataset의 distribution을 학습하여 해당 distribution을 따르는 새로운 데이터를 생성한다. 이때 latent vector는 dataset의 하나의 데이터 샘플이 갖는 잠재적인(hidden) 벡터 형태의 변수이고, latent vector들이 모여 분포 형태를 이루며 latent space를 형성한다. 결국 latent vector는 데이터를 설명하는 하나의 feautre이고 latent space는 결국 데이터를 가장 잘 설명할 수 있는 feature의 모임을 의미한다. 이는 곧 차원 축소와도 관련이 있는 것 같다. 이미지 데이터로 예를 ..

반응형