요약
- 기존 RAG는 "쿼리 → top-k 검색 → 생성" 단발 파이프라인이라, 검색이 빗나가면 그대로 환각한다. Agentic RAG는 그 위에 계획 → 검색 → 충분성 검증 → 부족분 타겟 재검색 루프를 얹은 것이다.
- Google Gemini Enterprise의 차별점은 루프 자체(이미 FLARE/Self-RAG/CRAG가 2023~24년에 제시)가 아니라, "관련성 높은 청크"와 "답하기에 충분한 컨텍스트"를 분리한 Sufficient Context 검증의 형식화다.
- Claude Code는 한발 더 가서 벡터 인덱스 자체를 버리고 grep+모델 추론 루프를 검색 엔진으로 쓴다.
본문
기존 RAG의 구조적 실패 모드
쿼리 임베딩 → 벡터 top-k → 프롬프트 주입 → 생성. 검색이 한 번뿐이라:
- 멀티홉 질문(A 문서에서 서버 ID 단서 → B 문서에서 사양)을 구조적으로 못 푼다.
- top-k 결과가 "관련성은 높지만 답엔 불충분"해도 그대로 LLM에 넣어 환각을 유발한다. Sufficient Context 논문(ICLR 2025)의 핵심 관찰: 큰 모델(Gemini 1.5 Pro, GPT-4o, Claude 3.5)일수록 컨텍스트가 불충분할 때 기권하지 않고 그럴듯한 오답을 생성한다.
Google Agentic RAG 파이프라인 (Gemini Enterprise)
- Orchestration — Root Agent가 Planner Agent에 위임, Query Rewriter가 쿼리를 여러 하위 검색으로 분해
- Search — RAG Agent가 여러 소스 병렬 검색
- Sufficient Context Agent — 검색 스니펫 + 중간 초안을 보고 "답에 필요한 정보가 다 있는가" 판정. 부족하면 Insufficient Context 신호 + "정확히 뭐가 빠졌는지"("allergies 정보를 찾아라" 식) 구조화된 피드백 생성
- Iteration — 피드백을 받아 Query Rewriter가 새 쿼리 생성, 재검색
- Synthesis — 충분 판정 후에야 최종 답변 작성
벤치마크(자사 발표, FramesQA): 표준 RAG 대비 정확도 최대 34% 향상, 4개 코퍼스 중 올바른 소스 선택(cross-corpus)에서 90.1%, 루프가 있어도 지연시간은 ~3% 이내 차이 주장.
"원래 이렇게 하지 않았나?" — 절반은 맞다
- 루프 아이디어 자체는 선행 연구가 있다: FLARE(2023, 생성 중 confidence 하락 시 재검색), Self-RAG(2023, reflection token으로 검색 필요성·품질 자기 판정), CRAG(2024, 외부 평가기가 검색 결과를 Correct/Incorrect/Ambiguous로 분류 후 보정 검색).
- 그러나 실제 배포된 엔터프라이즈 RAG 대다수는 여전히 단발성(잘해야 rewrite 1회 + reranker)이라, 글의 "traditional RAG 대비"는 그쪽 기준이다.
- Google의 기여는 새 패러다임이 아니라 선행 연구의 제품화 + sufficiency 판정의 형식화(별도 검증 에이전트 + 구조화된 결핍 피드백)로 보는 게 정확하다.
Claude Code: 벡터 검색을 아예 버린 극단
Claude Code는 임베딩 인덱스 없이 Glob/Grep/Read 도구 루프로 검색한다:
- Planner/Query Rewriter/Sufficient Context Agent를 별도 컴포넌트로 두지 않고, 단일 모델의 추론 루프 안에서 암묵적으로 수행 (grep 키워드를
setUser→onUserChange로 바꿔가며 재시도, "setter 호출부를 아직 못 봤으니 불충분" 같은 인라인 판정) - 코드 도메인이라 가능한 선택: 식별자가 정확히 일치하는 텍스트라 lexical 검색이 임베딩보다 정밀하고, 인덱스 stale 문제가 없으며, 청킹이 함수를 중간에서 자르는 문제도 없다
- 비용 구조가 반대: RAG는 인덱싱 선불, agentic search는 질문마다 토큰 후불 — 대신 멀티홉이 자연스럽다
한 줄 비교: Google Agentic RAG는 "벡터 검색을 에이전트 루프로 감싼 것", Claude Code는 "벡터 검색을 버리고 에이전트 루프 자체를 검색 엔진으로 쓰는 것". 둘 다 단발 검색 → 충분성 판정 반복 탐색으로의 이동이라는 같은 방향이다.
관련 노트
- 검색에서 쿼리 표현이 결정적이지만 query rewriting보다 하이브리드 retrieval이 ROI가 크다
- qmd MCP는 한국어 작은 vault에서 Claude grep 베이스라인을 능가하지 못한다
- QMD는 BM25, 벡터, LLM 리랭킹을 로컬 SQLite에서 결합한다
- REFRAG는 압축된 표현을 통해 RAG를 최적화한다.
참고
- https://research.google/blog/unlocking-dependable-responses-with-gemini-enterprise-agent-platforms-agentic-rag/
- https://arxiv.org/abs/2411.06037 — Sufficient Context: A New Lens on RAG Systems (ICLR 2025)
- https://arxiv.org/abs/2310.11511 — Self-RAG (Asai et al., 2023)
- https://openreview.net/pdf?id=JnWJbrnaUE — Corrective RAG (CRAG)