2020
Meta 첫 제안
3단계
인덱싱·검색·생성
200K
Claude 컨텍스트
Perplexity
RAG 기반 검색
한눈에 보기 (TL;DR)
- RAG(검색 증강 생성)는 LLM이 답을 생성할 때 외부 문서를 먼저 검색해 그 근거로 답하게 하는 기법으로 2020년 Meta가 처음 제안했다.
- 3단계 — 인덱싱(문서→벡터DB), 검색(질문→유사 문서), 생성(LLM이 근거 기반 답) — 으로 환각을 줄이고 최신 정보를 다룬다.
- ChatGPT 브라우징·Perplexity·Claude Projects·회사 내부 챗봇이 주요 응용 사례 — 추가 학습보다 훨씬 저렴하다.
- 2024년 Microsoft GraphRAG와 Agentic RAG로 복합 추론 능력이 향상됐고, 한국어 RAG는 Upstage Solar·HyperCLOVA X·EXAONE이 제공한다.
Key Facts — RAG(검색 증강 생성)
| 항목 | 내용 |
|---|---|
| 정의 | 외부 문서 검색 + LLM 답변 생성 |
| 첫 제안 | 2020 Meta(Facebook) AI 연구 |
| 3단계 | 인덱싱(임베딩·벡터DB) → 검색 → 생성 |
| 주요 벡터 DB | Pinecone, Weaviate, Chroma, Milvus |
| 대표 응용 | Perplexity, ChatGPT 브라우징, 사내 챗봇 |
| 2024 신기법 | GraphRAG (MS), Agentic RAG |
| 한국어 솔루션 | Upstage Solar, HyperCLOVA X, EXAONE |
출처: Lewis et al. 2020(Meta RAG 논문), Microsoft GraphRAG 발표(2024), LangChain·LlamaIndex Docs
핵심 인사이트
RAG의 진짜 가치는 ‘LLM에 회사 지식을 입힌다’는 점이다. 추가 학습 없이도 회사 매뉴얼·계약서·고객 이력에 답하는 챗봇을 만들 수 있어 — 중소기업이 가장 빠르게 AI를 도입하는 표준 도구가 됐다. 컨텍스트 창 확대(Gemini 1.5M 토큰)와 결합돼 2025년 ‘AI 비서’ 시대의 기술 기반이 된다.
RAG(Retrieval-Augmented Generation) — LLM의 환각을 줄이는 ‘검색 결합’ 기법
RAG(검색 증강 생성)는 — LLM(대규모 언어 모델)이 답을 생성할 때 외부 문서·데이터베이스에서 관련 정보를 먼저 검색해 그것을 근거로 답하게 하는 기법입니다. 2020년 페이스북(현 Meta) AI 연구팀이 처음 제안했으며, ChatGPT·Claude·Gemini가 회사 자료·최신 뉴스에 답할 수 있는 핵심 기술이 됐습니다. ‘환각(hallucination)’ 문제를 줄이고, LLM이 학습 시점 이후의 최신 정보도 다룰 수 있게 합니다.
왜 필요한가
- 최신성: LLM은 학습 시점 이후 정보를 모름. RAG는 실시간 검색으로 최신 정보 제공.
- 회사 내부 자료: LLM은 회사 매뉴얼·계약서를 모름. RAG로 내부 문서에서 검색.
- 환각 감소: LLM이 모르는 것을 만들어내는 환각을 — 검색된 근거 위에서만 답하게 해 줄임.
- 비용 효율: 모델 자체를 추가 학습(fine-tuning)하는 것보다 RAG가 훨씬 저렴.
3단계 구조
- 1. 인덱싱(Indexing): 문서를 일정 크기로 잘라 임베딩 벡터로 변환 → 벡터 DB(Pinecone·Weaviate·Chroma·Milvus)에 저장.
- 2. 검색(Retrieval): 사용자 질문을 임베딩 벡터로 변환 → 가장 유사한 문서 조각 K개(보통 5~10개) 검색.
- 3. 생성(Generation): 검색된 문서를 LLM 프롬프트에 첨부 → LLM이 그 근거를 기반으로 답 생성.
실제 응용 사례
- ChatGPT ‘브라우징’: 웹 검색을 RAG로 통합해 최신 뉴스·정보 답변.
- Perplexity AI: 처음부터 RAG 기반 검색 엔진. 출처 링크 자동 제공.
- 회사 사내 챗봇: 매뉴얼·정책·FAQ를 벡터 DB에 인덱싱해 직원 질문 자동 응답.
- 법률·의료 검색: 판례·논문 데이터베이스에서 관련 자료 검색 후 요약.
- Claude Projects / ChatGPT Custom GPTs: 사용자가 업로드한 파일에 RAG 자동 적용.
한계
- 검색 품질 의존: 잘못된 문서가 검색되면 잘못된 답 — ‘쓰레기 인 쓰레기 아웃’.
- 컨텍스트 한계: LLM이 한 번에 읽을 수 있는 토큰 수 한정 (Claude 200K, GPT-4o 128K).
- 비용: 매 질문마다 임베딩·검색·LLM 호출 — 대규모 트래픽에 비용 누적.
- 복합 추론 약함: 단순 검색-답변에는 강하지만 — 여러 문서를 종합한 복잡한 추론에는 별도 기법(Agentic RAG·HyDE) 필요.
최신 동향 (2024-2025)
- GraphRAG (Microsoft, 2024-04): 단순 벡터 검색 대신 지식 그래프 구조로 검색 — 복합 추론 성능 크게 향상.
- Agentic RAG: AI 에이전트가 여러 단계로 검색·추론을 반복하는 발전형.
- Long Context vs RAG: GPT-4o 128K·Claude 200K·Gemini 1.5M 토큰 등 컨텍스트 창이 커지면서 ‘RAG가 필요 없다’는 논쟁 — 결론은 둘이 보완 관계.
- 한국어 RAG 솔루션: Upstage Solar·네이버 HyperCLOVA X·LG EXAONE·KT Mi:dm 등이 한국어 임베딩 최적화 RAG 제공.
자주 묻는 질문
최종 업데이트: 2024-12 — Microsoft GraphRAG 2024-04, Agentic RAG, Gemini 1.5M 토큰 vs RAG 논쟁, Upstage Solar 등 한국어 솔루션 반영.