요약
- 기존의 RAG는 긴 context로 인해 kv cache를 위한 상당한 메모리를 사용해야되기 때문에 지연시간도 늘고 처리량이 감소한다.
- REFRAG는 원문을 압축된 의미의 임베딩으로 바꾸고, 강화 context에 입력해 RAG를 최적화한다.
본문
- REFRAG에서 최적화 하는 방식
- 원문을 인코더가 읽고 짧은 latent 시퀀스(고정 길이 벡터)로 바꿔서 저장
- 의미를 유지하면서 토큰수를 줄임
- 생성시 질의를 임베딩서 압축된 인덱스에서 검색하고 policy가 필요한 부분만 확장해서 원문 일부 복원
- policy는 압축된 latent 시퀀스중 어떤 부분을 확장할지 결정하는 강화학습 기반 모듈
- 압축된 모든 벡터를 복원하는게 토큰 낭비이기 때문에 "어디를 얼마나 확장할지"를 결정하는 것임
- Policy학습 방식
- action: 각 latent 벡터를 확장할지 말지 선택
- reward: 선택한 확장 결과로 RAG가 답변을 잘 맞추면 보상
참고 자료
https://arxiv.org/html/2509.01092v1 https://github.com/simulanics/REFRAG