본문 바로가기

반응형

분류 전체보기

(258)
LLM 사용 전술, Dragonfly VLM LLM 사용전술1. 전술적 측면프롬프팅 기법 활용에 집중:n-shot prompting, 문맥내 학습, CoT, 관련 리소스 제공 등입출력 구조화하기작고 한 가지 일을 잘하는 프롬프트를 만들 것컨텍스트 토큰 만들기정보검색/RAG새로운 지식에 대해서는 파인튜닝보다 RAG를 더 선호워크플로우 튜닝 및 최적화평가 및 모니터링 2. 운영적 측면데이터개발-프로덕션 편향 확인매일 LLM 입출력 샘플 확인하기모델 버전 관리 및 고정하기작업을 완료할 수 있는 가장 작은 모델 선택하기초기부터 디자인을 INVOLVE하기항상 실험하기 3. 전략적 측면대부분의 조직에서 LLM을 거의 처음부터 pretraining하는 것은 의미없음필요하다고 확인되기 전까지는 fine tuning 금지llmovpsai를 루프안에 넣고 사람을 중..
Qwen2, Stable Audio Open 오픈소스 모델 공개 Qwen2알리바바에서 공개한 오픈소스 LLM으로 특히 코딩, 수학분야에서 뛰어남모델 크기는 Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72BQwen2-72B-Instruct는 16개 벤치마크에서 Llama-3-70B-Instruct와 견줄만한 성능을 보임특히 코딩, 수학분야는 Llama3보다 낫다고 말함Llama3와 마찬가지로 GQA 기법을 사용앞으로 멀티모달 언어 모델로서 확장할 계획임허깅페이스에서 사용가능 Stable Audio Open텍스트 to 오디오 오픈소스 모델최대 47초 분량의 오디오 생성 가능허깅페이스에서 사용가능Stable Audio는 최대 3분 길이의 일관된 음악 구조를 가진 풀 트랙을 생성하는 등 고급 기능을 제공하나, Stab..
LLM 웹데이터 기반 학습 ↓ 내용요약- 과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이며 이제는 맞춤형 데이터로 학습되고 있음- 증거?: OpenAI의 경우 GPT-3 논문때와 다르게 Sora, GPT-5 논문에서 학습 데이터에 대한 설명 없음- 데이터 처리 및 비공개 데이터(주석 및 필터링, RLHF, 사용 데이터 등)는 기존데이터와 다른 출력을 생성하는데 LLM이 취약하다는 단점을 완벽히 해결하지 못함- 해결방법: 개선된 아키텍처, 더 많은 파라미터, 그리고 새로운 예제 데이터- 예를 들어, Phi-3 모델의 경우 합성한 고품질의 맞춤형 데이터를 사용하여 더 크고 무거운 Mixtral 모델과 경쟁할만한 성능을 보여줌 결론데이터가 중요하다: 훌륭한 합성 데이터를 만드..
5월 5주차 ~ 6월 1주차 5월 5주차~6월 1주차 목표 진행상황IntroducionBody1. 논문 읽고 정리하기CMU 관련: SCOFT CIC EVCAP멀티모달 관련: CLIP BLIP BLIP2 LlaVa Llama3-V 이진규님 평가 metric 관련 논문2. LLM의 학습방법 공부 QLORA와 같은 quantization 기법 ORPO 등 LLM 학습 기법 분산학습 관련3. LLama3 이해하기 llama3.np그외 tacotron2 데이터셋 전처리 바꿔서 다시 학습시켜보기 GPT-API 강의 streamlit 파트 수강하기 Diffusion에 대한 블로그 정리글 Why most LLMs Decoder-Only? Bayesian Optimization Meets Self-Distillation Hierarchical Im..
위키피디아 벡터 데이터셋, Llama3를 활용한 멀티모달 모델 1. 위키피디아 전체를 벡터로 임베딩한 데이터셋- JVector로 벡터 인덱스 생성 후 Chronicle Map으로 기사 데이터를 저장하여 사용함- 벡터 압축을 위해 Locally-Adaptive Quantization 사용- 데이터 병렬 처리- Linux, Mac에서만 사용가능  노트북에서 Wikipedia 전체를 벡터 인덱싱하기 | GeekNewsCohere가 위키피디아 전체를 벡터로 임베딩한 데이터셋을 공개했음이 데이터셋을 사용하면 개인이 위키피디아의 의미 기반 벡터 인덱스를 만들 수 있게 됨어려운 점데이터셋 크기(영어 코퍼스만news.hada.io  GitHub - jbellis/coherepedia-jvectorContribute to jbellis/coherepedia-jvector devel..
tensorboard "No dashboards are active" 오류? 바로 wandb로 갈아타기 tensorboard에서 wandb로 갈아타기 tacotron2를 training하면서 tensorboard error가 진짜 많이 일어났다.가장 최근에 발생한 오류는 event log랑 다 저장되어있는데 no dashboard are active라고 뜨면서 안되는 오류,,,버전문제인가 싶어서 tensorboard 재설치도 해보고 포트도 바꿔보고 command도 바꿔보고 했는데 해결이 안된다...근데 놀랍게도 tensorboard가 아니라 wandb랑 연동해서 여니까 잘 나옴...ㅎㅎㅎㅎㅎㅎㅎ...  연동도 겁나 쉽다.코드 몇줄만 추가하면 tensorboard에서 wandb로 갈아탈 수 있다. 나 이제 텐서보드 안쓸거야...(제발 안쓰게해주세요) training.py에 아래 코드만 추가하면 tensorb..
tensorboard error | localhost에서 연결을 거부했습니다. tensorboard error | localhost에서 연결을 거부했습니다. 이런 식으로 나오면서, 링크 접속시 로컬 호스트에서 연결을 거부했다고 나오는 문제 검색해보니까 38999e12c72는 ip 주소의 16진수인 것 같다. 좀 더 세부적으로 지정해주니까 해결tensorboard --logdir '\logdir 주소(.events 저장된 폴더 위치)' --host=0.0.0.0 --port 6010
Tacotron2 English TTS 훈련시키기 (2트) 똑같은 모델 돌리는 걸 왜 2트를 했냐면 분명 몇주 전에 tacotron2를 conda 가상환경에서 training하는거 성공했는데 어제 다시 하니까 안돌아갔다ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 아니 똑같은 conda 환경에서 지난번엔 됐는데 이번에 돌리니까 torch를 설치해야한다는데 원래 가상환경에 torch가 설치가 안돼있는데 이게 어떻게된일인가... 몇 주 전이어서 어케했었는지도 기억도 안나고 torch 설치하려고 하니까 충돌나서 안돼서 그냥 처음부터 다시했다. tacotron2는 github 찾아보면 레포가 좀 있긴 한데 다 4~5년 전 거여서 그런가 torch, tensorflow 1.xx 버전을 써야한다. (근데 그것도 자세한 내용이 없는게 함정) 있는 레포 README.md 보면서 다 해봤는데 안돼서..

반응형