Zettelkasten

REFRAG는 압축된 표현을 통해 RAG를 최적화한다.

·수정 2026.04.23·수정 2

요약

  • 기존의 RAG는 긴 context로 인해 kv cache를 위한 상당한 메모리를 사용해야되기 때문에 지연시간도 늘고 처리량이 감소한다.
  • REFRAG는 원문을 압축된 의미의 임베딩으로 바꾸고, 강화 context에 입력해 RAG를 최적화한다.

본문

  • REFRAG에서 최적화 하는 방식
    • 원문을 인코더가 읽고 짧은 latent 시퀀스(고정 길이 벡터)로 바꿔서 저장
    • 의미를 유지하면서 토큰수를 줄임
    • 생성시 질의를 임베딩서 압축된 인덱스에서 검색하고 policy가 필요한 부분만 확장해서 원문 일부 복원
  • policy는 압축된 latent 시퀀스중 어떤 부분을 확장할지 결정하는 강화학습 기반 모듈
    • 압축된 모든 벡터를 복원하는게 토큰 낭비이기 때문에 "어디를 얼마나 확장할지"를 결정하는 것임
  • Policy학습 방식
    • action: 각 latent 벡터를 확장할지 말지 선택
    • reward: 선택한 확장 결과로 RAG가 답변을 잘 맞추면 보상

참고 자료

https://arxiv.org/html/2509.01092v1 https://github.com/simulanics/REFRAG