LLM 웹데이터 기반 학습 ↓

내용요약

- 과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이며 이제는 맞춤형 데이터로 학습되고 있음

- 증거?: OpenAI의 경우 GPT-3 논문때와 다르게 Sora, GPT-5 논문에서 학습 데이터에 대한 설명 없음

- 데이터 처리 및 비공개 데이터(주석 및 필터링, RLHF, 사용 데이터 등)는 기존데이터와 다른 출력을 생성하는데 LLM이 취약하다는 단점을 완벽히 해결하지 못함

- 해결방법: 개선된 아키텍처, 더 많은 파라미터, 그리고 새로운 예제 데이터

- 예를 들어, Phi-3 모델의 경우 합성한 고품질의 맞춤형 데이터를 사용하여 더 크고 무거운 Mixtral 모델과 경쟁할만한 성능을 보여줌

데이터가 중요하다: 훌륭한 합성 데이터를 만드는 방법론

LLM은 더 이상 "인터넷으로 학습"하지 않는다 | GeekNews

과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이 되고 있음"인터넷 시뮬레이터"라는 개념은 GPT-5 이상의 동작을 예측하는 데 유용하지 않음새

news.hada.io

LLM 사용 전술, Dragonfly VLM (1)	2024.06.11
Qwen2, Stable Audio Open 오픈소스 모델 공개 (0)	2024.06.09
위키피디아 벡터 데이터셋, Llama3를 활용한 멀티모달 모델 (0)	2024.05.31
Phi3, LLaMa3 출시 (0)	2024.05.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`