- 기존 RAG의 경우 Retrieval 과정이 매우 중요함
- Retrieval 과정의 성능을 높이기 위해 BM25와 같은 키워드 기반 검색 기술, 임베딩을 사용하는 밀집 검색 방법이 제시됨
Reciprocal Rank Fusion(RRF)
- 여러 소스의 Rank를 하나의 통합된 순위로 결합하는 순위 집계 방법
- D: Document
- R: 순위 지정자 집합
- k: 상수(일반적으로 60)
- r(d): 순위 지정자 r에 있는 문서 d의 순위
Steps
- 사용자 쿼리 입력
- 쿼리가 다중 검색기로 전송
- 각 검색기가 관련 문서에 대한 자체 순위 생성
- RRF 공식을 사용해 각 검색기의 순위 결합
- RRF score를 토대로 통합 순위 산출
- 상위 순위 사용해 최종 답변 생성
수식에 대한 수학적 직관
- 1/(k+r(d))를 사용하면 더 높은 순위(낮은 숫자)에 더 큰 가중치 부여
- 점수에 대한 기여도는 순위가 증가함에 따라 비선형적으로 감소
- 여러 검색기를 사용해서 여러 출처의 증거를 효과적으로 결합
- 상수 k는 평활화 요인으로 작용. 60이 경험적으로 좋은 성능 보임
'AI Theory > key concept of AI' 카테고리의 다른 글
Batch Normalization과 Layer Normalization (0) | 2024.04.12 |
---|---|
latent vector 과 latent space 의 의미 (0) | 2024.04.04 |
down sampling과 up sampling (0) | 2024.04.03 |
few-data learning의 종류 (0) | 2024.03.27 |
train loss와 validation loss 그래프로 모델 학습 상태 확인하기 (0) | 2023.08.01 |