REFRAG는 압축된 표현을 통해 RAG를 최적화한다.

2025.10.13·수정 2026.04.23·수정 2회

요약

기존의 RAG는 긴 context로 인해 kv cache를 위한 상당한 메모리를 사용해야되기 때문에 지연시간도 늘고 처리량이 감소한다.
REFRAG는 원문을 압축된 의미의 임베딩으로 바꾸고, 강화 context에 입력해 RAG를 최적화한다.

본문

REFRAG에서 최적화 하는 방식
- 원문을 인코더가 읽고 짧은 latent 시퀀스(고정 길이 벡터)로 바꿔서 저장
- 의미를 유지하면서 토큰수를 줄임
- 생성시 질의를 임베딩서 압축된 인덱스에서 검색하고 policy가 필요한 부분만 확장해서 원문 일부 복원
policy는 압축된 latent 시퀀스중 어떤 부분을 확장할지 결정하는 강화학습 기반 모듈
- 압축된 모든 벡터를 복원하는게 토큰 낭비이기 때문에 "어디를 얼마나 확장할지"를 결정하는 것임
Policy학습 방식
- action: 각 latent 벡터를 확장할지 말지 선택
- reward: 선택한 확장 결과로 RAG가 답변을 잘 맞추면 보상

참고 자료

https://arxiv.org/html/2509.01092v1 https://github.com/simulanics/REFRAG

이 문서를 참조하는 노트 (1)

임베딩 크기를 어떻게 결정하고, 출력된 임베딩 사이즈는 차원수 X 데이터 타입 크기로 결정된다.