RAG - TradingClue

2020

Meta 첫 제안

3단계

인덱싱·검색·생성

200K

Claude 컨텍스트

Perplexity

RAG 기반 검색

한눈에 보기 (TL;DR)

RAG(검색 증강 생성)는 LLM이 답을 생성할 때 외부 문서를 먼저 검색해 그 근거로 답하게 하는 기법으로 2020년 Meta가 처음 제안했다.
3단계 — 인덱싱(문서→벡터DB), 검색(질문→유사 문서), 생성(LLM이 근거 기반 답) — 으로 환각을 줄이고 최신 정보를 다룬다.
ChatGPT 브라우징·Perplexity·Claude Projects·회사 내부 챗봇이 주요 응용 사례 — 추가 학습보다 훨씬 저렴하다.
2024년 Microsoft GraphRAG와 Agentic RAG로 복합 추론 능력이 향상됐고, 한국어 RAG는 Upstage Solar·HyperCLOVA X·EXAONE이 제공한다.

Key Facts — RAG(검색 증강 생성)

항목	내용
정의	외부 문서 검색 + LLM 답변 생성
첫 제안	2020 Meta(Facebook) AI 연구
3단계	인덱싱(임베딩·벡터DB) → 검색 → 생성
주요 벡터 DB	Pinecone, Weaviate, Chroma, Milvus
대표 응용	Perplexity, ChatGPT 브라우징, 사내 챗봇
2024 신기법	GraphRAG (MS), Agentic RAG
한국어 솔루션	Upstage Solar, HyperCLOVA X, EXAONE

출처: Lewis et al. 2020(Meta RAG 논문), Microsoft GraphRAG 발표(2024), LangChain·LlamaIndex Docs

핵심 인사이트

RAG의 진짜 가치는 ‘LLM에 회사 지식을 입힌다’는 점이다. 추가 학습 없이도 회사 매뉴얼·계약서·고객 이력에 답하는 챗봇을 만들 수 있어 — 중소기업이 가장 빠르게 AI를 도입하는 표준 도구가 됐다. 컨텍스트 창 확대(Gemini 1.5M 토큰)와 결합돼 2025년 ‘AI 비서’ 시대의 기술 기반이 된다.

RAG(Retrieval-Augmented Generation) — LLM의 환각을 줄이는 ‘검색 결합’ 기법

RAG(검색 증강 생성)는 — LLM(대규모 언어 모델)이 답을 생성할 때 외부 문서·데이터베이스에서 관련 정보를 먼저 검색해 그것을 근거로 답하게 하는 기법입니다. 2020년 페이스북(현 Meta) AI 연구팀이 처음 제안했으며, ChatGPT·Claude·Gemini가 회사 자료·최신 뉴스에 답할 수 있는 핵심 기술이 됐습니다. ‘환각(hallucination)’ 문제를 줄이고, LLM이 학습 시점 이후의 최신 정보도 다룰 수 있게 합니다.

왜 필요한가

최신성: LLM은 학습 시점 이후 정보를 모름. RAG는 실시간 검색으로 최신 정보 제공.
회사 내부 자료: LLM은 회사 매뉴얼·계약서를 모름. RAG로 내부 문서에서 검색.
환각 감소: LLM이 모르는 것을 만들어내는 환각을 — 검색된 근거 위에서만 답하게 해 줄임.
비용 효율: 모델 자체를 추가 학습(fine-tuning)하는 것보다 RAG가 훨씬 저렴.

3단계 구조

1. 인덱싱(Indexing): 문서를 일정 크기로 잘라 임베딩 벡터로 변환 → 벡터 DB(Pinecone·Weaviate·Chroma·Milvus)에 저장.
2. 검색(Retrieval): 사용자 질문을 임베딩 벡터로 변환 → 가장 유사한 문서 조각 K개(보통 5~10개) 검색.
3. 생성(Generation): 검색된 문서를 LLM 프롬프트에 첨부 → LLM이 그 근거를 기반으로 답 생성.

실제 응용 사례

ChatGPT ‘브라우징’: 웹 검색을 RAG로 통합해 최신 뉴스·정보 답변.
Perplexity AI: 처음부터 RAG 기반 검색 엔진. 출처 링크 자동 제공.
회사 사내 챗봇: 매뉴얼·정책·FAQ를 벡터 DB에 인덱싱해 직원 질문 자동 응답.
법률·의료 검색: 판례·논문 데이터베이스에서 관련 자료 검색 후 요약.
Claude Projects / ChatGPT Custom GPTs: 사용자가 업로드한 파일에 RAG 자동 적용.

한계

검색 품질 의존: 잘못된 문서가 검색되면 잘못된 답 — ‘쓰레기 인 쓰레기 아웃’.
컨텍스트 한계: LLM이 한 번에 읽을 수 있는 토큰 수 한정 (Claude 200K, GPT-4o 128K).
비용: 매 질문마다 임베딩·검색·LLM 호출 — 대규모 트래픽에 비용 누적.
복합 추론 약함: 단순 검색-답변에는 강하지만 — 여러 문서를 종합한 복잡한 추론에는 별도 기법(Agentic RAG·HyDE) 필요.

자주 묻는 질문

RAG는 외부 문서를 그때그때 검색해서 LLM에 보여주는 방식이고, 파인튜닝은 모델 자체를 추가 학습시키는 방식입니다. 비용·시간은 RAG가 훨씬 낮고 자료 업데이트도 즉시 가능합니다. 다만 모델의 ‘말투’를 바꾸려면 파인튜닝이 적합합니다. 대부분의 회사 사례는 RAG로 시작해 필요 시 파인튜닝을 결합합니다.

네. 두 가지 방식으로 활용합니다 — ① ‘브라우징’ 기능으로 웹 검색 결과를 RAG로 통합, ② Custom GPTs에서 사용자가 업로드한 파일을 RAG로 처리. Claude Projects, Gemini, Perplexity 등 거의 모든 주요 AI 서비스가 RAG를 핵심 기술로 사용합니다.

네. LangChain·LlamaIndex 같은 오픈소스 프레임워크를 쓰면 Python으로 며칠 안에 만들 수 있습니다. 노코드로는 ChatGPT Custom GPTs, Claude Projects가 자동 RAG를 제공합니다. 한국어는 Upstage 같은 회사의 RAG API를 사용하는 것이 권장됩니다.

완전히 없애지는 못합니다. 검색된 문서에 답이 없거나 부정확할 때 — LLM은 여전히 추측을 만들 수 있습니다. 다만 ‘출처 인용’ 강제, 검색 결과 0건 시 ‘모르겠다’ 답변 등 프롬프트 설계로 환각을 크게 줄일 수 있습니다.

보완 관계입니다. 긴 컨텍스트가 가능하면 책 한 권을 그대로 넣고 질문할 수 있지만 — 매번 1.5M 토큰을 LLM에 보내는 것은 비용·속도 문제가 큽니다. RAG로 필요한 부분만 추려서 컨텍스트에 넣는 것이 효율적입니다. 둘이 합쳐진 ‘롱 컨텍스트 + RAG’가 2024년 표준 아키텍처가 됐습니다.

최종 업데이트: 2024-12 — Microsoft GraphRAG 2024-04, Agentic RAG, Gemini 1.5M 토큰 vs RAG 논쟁, Upstage Solar 등 한국어 솔루션 반영.