내용요약
- 과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이며 이제는 맞춤형 데이터로 학습되고 있음
- 증거?: OpenAI의 경우 GPT-3 논문때와 다르게 Sora, GPT-5 논문에서 학습 데이터에 대한 설명 없음
- 데이터 처리 및 비공개 데이터(주석 및 필터링, RLHF, 사용 데이터 등)는 기존데이터와 다른 출력을 생성하는데 LLM이 취약하다는 단점을 완벽히 해결하지 못함
- 해결방법: 개선된 아키텍처, 더 많은 파라미터, 그리고 새로운 예제 데이터
- 예를 들어, Phi-3 모델의 경우 합성한 고품질의 맞춤형 데이터를 사용하여 더 크고 무거운 Mixtral 모델과 경쟁할만한 성능을 보여줌
결론
데이터가 중요하다: 훌륭한 합성 데이터를 만드는 방법론
Reference
https://news.hada.io/topic?id=15150&utm_source=discord&utm_medium=bot&utm_campaign=1134
'AI Theory > Trends' 카테고리의 다른 글
LLM 사용 전술, Dragonfly VLM (1) | 2024.06.11 |
---|---|
Qwen2, Stable Audio Open 오픈소스 모델 공개 (0) | 2024.06.09 |
위키피디아 벡터 데이터셋, Llama3를 활용한 멀티모달 모델 (0) | 2024.05.31 |
Phi3, LLaMa3 출시 (0) | 2024.05.01 |