본문 바로가기

AI Theory/Trends

LLM 웹데이터 기반 학습 ↓

내용요약

- 과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이며 이제는 맞춤형 데이터로 학습되고 있음

- 증거?: OpenAI의 경우 GPT-3 논문때와 다르게 Sora, GPT-5 논문에서 학습 데이터에 대한 설명 없음

- 데이터 처리 및 비공개 데이터(주석 및 필터링, RLHF, 사용 데이터 등)는 기존데이터와 다른 출력을 생성하는데 LLM이 취약하다는 단점을 완벽히 해결하지 못함

- 해결방법: 개선된 아키텍처, 더 많은 파라미터, 그리고 새로운 예제 데이터

- 예를 들어, Phi-3 모델의 경우 합성한 고품질의 맞춤형 데이터를 사용하여 더 크고 무거운 Mixtral 모델과 경쟁할만한 성능을 보여줌

 

결론

데이터가 중요하다: 훌륭한 합성 데이터를 만드는 방법론

 

Reference

https://news.hada.io/topic?id=15150&utm_source=discord&utm_medium=bot&utm_campaign=1134

 

LLM은 더 이상 "인터넷으로 학습"하지 않는다 | GeekNews

과거에는 LLM이 주로 인터넷 데이터로 학습되었고, 현재도 대부분 그렇지만, 점점 덜 사실(less true)이 되고 있음"인터넷 시뮬레이터"라는 개념은 GPT-5 이상의 동작을 예측하는 데 유용하지 않음새

news.hada.io