AI 엔지니어의 필독 논문 10

AI 엔지니어링은 오늘날 가장 빠르게 진화하는 분야 중 하나입니다. 이 새로운 산업을 이해하고, 현업에서 경쟁력을 갖추기 위해 반드시 알아야 할 핵심적인 논문들이 있습니다.

이 글에서는 모델 아키텍처의 혁신부터 시작해 파인튜닝, RAG, 그리고 AI 에이전트에 이르기까지, 현재의 AI 시스템을 G.O.A.T. 한 10가지 핵심 논문을 소개합니다. 각 논문의 핵심 개요와 가장 중요한점을 정리했으니, AI 엔지니어링 면접을 준비하거나 실무 역량을 키우고 싶은 분이라면 꼭 읽어보세요!

1. Attention Is All You Need

“모든 LLM의 시작, ‘트랜스포머’의 탄생”

우리가 AI를 생각할 때 떠올리는 ‘대형 언어 모델(LLM)’은 사실 1940년대에 발명된 신경망의 한 종류입니다. 그런데 왜 유독 최근 몇 년간 이렇게 큰 주목을 받게 된 걸까요?

가장 큰 이유 중 하나는 2017년 구글 연구원들이 발표한 이 논문, “Attention Is All You Need“입니다. 이 논문은 ‘트랜스포머(Transformer)’ 아키텍처를 세상에 소개했습니다.

핵심: 훈련 속도가 엄청나게 병렬화될 수 있었고, 문맥을 파악하는 능력이 향상되었습니다. 이 논문은 AI 분야 전체의 방향을 바꿨으며, 오늘날 거의 모든 최신 언어 모델은 이 트랜스포머 설계를 기반으로 합니다.

이전의 문제: 트랜스포머 이전에는 RNN이나 CNN 같은 모델이 텍스트를 순차적으로(step-by-step) 처리했습니다. 이는 훈련이 느리고, 문서 내에 멀리 떨어진 단어 간의 관계(장기 의존성)를 파악하기 어려웠습니다. 또한, GPU를 활용한 병렬 처리에도 한계가 있었습니다.

논문의 해결책: 트랜스포머는 이 모든 것을 “셀프 어텐션(self-attention)” 메커니즘으로 대체했습니다. 이 방식은 모델이 문장 내 모든 단어를 한꺼번에 보면서 각 단어가 다른 단어와 얼마나 중요한 관계를 맺는지 학습하게 합니다.

2. Language Models are Few-Shot Learners

“모델은 거대할수록 똑똑하다: GPT-3와 ‘인컨텍스트 러닝'”

2020년, GPT-3의 등장을 알린 이 논문은 또 한 번의 도약을 가져왔습니다. 놀라운 발견은 트랜스포머 모델을 ‘충분히 거대하게’ 만들었더니, 별도의 파인튜닝(미세조정) 없이도 프롬프트에 포함된 단 몇 개의 예시(few-shot)만 보고 새로운 작업을 수행하기 시작했다는 것입니다.

업계에 미친 영향: 엔지니어들은 이제 각 작업마다 새 모델을 훈련하는 대신, 잘 만들어진 범용 모델 하나를 ‘프롬프트’하여 원하는 작업을 수행하게 되었습니다.

새로운 발견: 이 논문의 핵심은 새로운 아키텍처가 아니라, ‘규모(scale)가 곧 능력‘임을 증명한 것입니다. 연구팀은 거대한 모델을 훈련시킨 뒤, 오직 프롬프트 텍스트만 변경하며 제로샷(지시만), 원샷(예시 1개), 퓨샷(예시 몇 개) 방식으로 성능을 체계적으로 평가했습니다.

핵심: ‘규모’와 ‘프롬프팅’이 결합하여 “인컨텍스트 러닝(In-context Learning)”이 가능하다는 것을 보여주었습니다. 즉, 모델이 프롬프트 내의 패턴만 보고도 작업을 추론할 수 있게 된 것입니다.

3. Training Language Models to Follow Instructions with Human Feedback

거대 모델이 강력한 능력을 갖췄지만, 여전히 엉뚱하거나 심지어 유해한 답변을 내놓는 문제가 있었습니다. 2022년 OpenAI가 발표한 이 논문(일명 InstructGPT 논문)은 이 문제를 해결하려 시도했습니다.

핵심: 이 논문의 가장 큰 발견은 “더 작지만 잘 정렬된(aligned) 모델이, 훨씬 더 크지만 정렬되지 않은 모델보다 사용자에 의해 선호될 수 있다”는 것입니다. AI가 사용자의 ‘의도’를 따르게 만드는 것이 중요하다는 점을 증명했습니다. (최근에는 보상 모델 없이 선호도 데이터로 직접 학습하는 DPO 같은 기법도 발전하고 있습니다.)

논문의 해결책: RLHF (인간 피드백을 통한 강화 학습)라는 기법을 도입했습니다.

먼저, 사람이 작성한 ‘좋은 답변’ 예시로 모델을 지도 미세조정(SFT)합니다.

그다음, 여러 답변 중 어떤 것이 더 나은지 사람이 순위를 매긴 데이터를 학습시켜, ‘좋은 답변’에 높은 점수를 주는 ‘보상 모델(Reward Model)’을 훈련합니다.

마지막으로, 기본 모델이 이 ‘보상 모델’로부터 더 높은 점수를 받도록 강화 학습을 진행합니다.

4. LoRA: Low-Rank Adaptation of Large Language Models

“내 GPU로 거대 모델 튜닝하기: 저비용 고효율 ‘LoRA'”

모델이 사용자의 의도를 따르도록 ‘정렬’했더라도, 법률이나 의료 같은 특정 도메인의 전문 용어를 사용하거나 특정 형식으로만 답하게 만들고 싶을 수 있습니다. 이때 ‘파인튜닝’이 필요합니다.

핵심: 이 방식은 전체 파인튜닝 대비 훈련 가능한 파라미터 수를 약 10,000배 줄이고 GPU 메모리 사용량을 3배가량 낮췄습니다. LoRA 덕분에 파인튜닝은 거대 연구소의 전유물이 아닌, 단일 GPU에서도 가능한 실용적인 작업이 되었습니다.

기존의 문제: 모델의 모든 가중치(weights)를 업데이트하는 ‘전체 파인튜닝’은 엄청난 시간과 GPU 메모리를 필요로 했습니다.

논문의 해결책: 2021년 LoRA 논문은 이 문제를 획기적으로 해결했습니다. 모델의 모든 가중치를 훈련하는 대신, 거대한 원본 가중치 행렬은 ‘고정(frozen)’시킨 채, 그 옆에 ‘저순위 어댑터(LoRA)’라는 아주 작은 행렬을 추가하여 이 어댑터만 훈련시킵니다.

5. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

“AI에게 최신 지식과 전문 지식을: ‘RAG’의 등장”

파인튜닝을 거친 모델이라도, 훈련 데이터에 없는 최신 정보나 회사의 내부 기밀문서 같은 외부 지식에는 접근할 수 없다는 한계가 있었습니다.

현대의 RAG: 오늘날 대부분의 상용 LLM 시스템은 이 RAG 패턴을 사용합니다. 최근에는 검색 품질(청킹, 인덱싱, 재순위)이 모델 자체보다 더 중요하다는 것이 알려졌으며, 더 나은 질문을 반복적으로 생성하는 다단계 파이프라인으로 발전하고 있습니다.

논문의 해결책: 2020년에 제안된 RAG (검색 증강 생성)는 간단하면서도 강력한 해법을 제시했습니다. 모델이 답변을 생성하기 전에, 먼저 외부 데이터베이스에서 관련 문서를 ‘검색(Retrieve)하고, 검색된 내용을 ‘참고하여(Augmented)’ 답변을 ‘생성(Generation)’하게 하는 것입니다.

핵심: RAG는 ‘오래된 지식’과 ‘환각(Hallucination)’이라는 두 가지 문제를 동시에 해결하려 시도합니다. 모델이 훈련 중에 암기한 부정확한 정보에 의존하는 대신, 실제 데이터를 ‘인용’하게 만듭니다.

6. The Rise and Potential of Large Language Model Based Agents

So now we have these powerful models and we can give them access to real data, but they still don’t “do” anything by themselves. That’s where Agents come in. I’m cheating a little “생각하고 행동하는 AI: ‘에이전트’ 프레임워크”

이제 우리는 강력한 모델을 가졌고, 외부 데이터에도 접근할 수 있게 되었습니다. 하지만 모델은 여전히 스스로 무언가를 ‘수행’하지는 못합니다. 여기서 ‘에이전트(Agents)’가 등장합니다.

핵심: 이 문서는 단일 에이전트, 다중 에이전트 팀, 인간과 협력하는 에이전트 등 다양한 구성을 보여줍니다. 또한 실제로 에이전트가 작동하게 만드는 실용적인 요소들(명확한 도구 명세, 무한 루프 방지, 최종 결과 검증)을 짚어줍니다.

논문의 내용: (엄밀히는 논문이 아닌 서베이 페이퍼지만, 이 분야를 이해하는 데 매우 중요합니다.) 이 문서는 AI 에이전트를 이해하는 간단한 프레임워크를 제시합니다.

두뇌 (Brain): LLM이 계획을 세우고 다음에 할 일을 결정합니다.

인식 (Perception): 도구 사용 결과, 파일, 웹페이지 등 현재 상태를 읽습니다.

행동 (Action): API를 호출하거나, 코드를 실행하거나, 글을 씁니다.

7. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

“효율적으로 모델 확장하기: ‘전문가 혼합(MoE)'”

다시 모델의 규모와 효율성 이야기로 돌아가 보겠습니다. ‘스위치 트랜스포머’ 논문은 ‘전문가 혼합(Mixture-of-Experts, MoE)’이라는 개념을 사용해 모델을 ‘희소(sparse)’하게 만들었습니다.

핵심: 모델은 여전히 수조 개의 파라미터를 ‘저장’하고 있지만, 매번 계산할 때는 그중 극히 ‘일부’만 사용합니다. 이는 모든 토큰에 모든 파라미터를 사용하는 ‘밀집(dense)’ 모델보다 훨씬 빠르고 저렴하게 모델의 용량을 키울 수 있게 해줍니다. (단, MoE 모델을 서빙하는 것은 트래픽 분산, 병목 현상 방지 등 고도의 엔지니어링이 필요합니다.)

논문의 아이디어: 수많은 ‘전문가(작은 미니 네트워크)’를 두고, 각 토큰이 입력될 때마다 작은 ‘라우터’가 이 토큰을 처리하기에 가장 적합한 전문가를 단 한 명(혹은 몇 명) 골라냅니다. 그리고 오직 그 전문가만 실행합니다.

8. DistilBERT: a distilled version of BERT (smaller, faster, cheaper and lighter)

“모델 압축의 미학: ‘지식 증류'”

모델을 아주 작게 만드는 또 다른 방법은 ‘지식 증류(Knowledge Distillation)‘입니다. 2019년의 DistilBERT 논문이 이 분야를 대중화했습니다.

중요성: 이는 스마트폰 같은 ‘엣지 디바이스‘에 AI를 배포할 때 매우 중요합니다. 지연 시간이 짧아야 하거나, 메모리가 제한되거나, 인터넷 연결이 없는 환경에서 AI를 구동할 수 있게 해줍니다.

논문의 아이디어: 더 작은 ‘학생 모델’이 더 큰 ‘교사 모델’의 행동을 모방하도록 가르칩니다. 학생 모델은 교사 모델의 최종 출력(정답)뿐만 아니라, 정답을 도출하는 ‘과정'(내부 로직)까지 학습합니다.

핵심: 이 기법을 통해 DistilBERT는 원본 BERT보다 파라미터가 40% 더 적고, 약 60% 더 빠르면서도, 언어 이해 능력의 97%를 유지했습니다.

9. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

“정확도 손실 없는 압축: 혁신적인 ‘양자화'”

모델을 더 작게 만드는 또 다른 기술은 ‘양자화(Quantization)’입니다. 숫자를 16비트나 32비트(float)가 아닌, 8비트(int)처럼 더 적은 비트로 저장하여 메모리를 아끼고 계산 속도를 높이는 기술입니다. 문제는 이 과정에서 정확도 손실이 발생한다는 것이었습니다.

핵심: 이 기법은 모델의 메모리 사용량을 거의 절반으로 줄여, 이전에는 여러 대의 GPU가 필요했던 거대 모델을 단일 GPU에서 추론할 수 있게 만들었습니다.

논문의 해결책: 2022년 LLM.int8() 논문은 수십억 개 파라미터 스케일에서 성능 저하 없이 8비트 양자화를 수행하는 방법을 최초로 보여주었습니다.

핵심 발견: 이들은 순진하게 8비트 양자화를 시도할 때, 극소수의 ‘이상치(outlier features)‘가 전체 성능을 망가뜨린다는 것을 발견했습니다.

해결책: ‘혼합 정밀도(Mixed-Precision)’ 트릭을 사용했습니다. 대부분의 가중치는 int8로 양자화하되, 문제가 되는 그 ‘이상치’들만 fp16/bf16으로 처리한 것입니다.

10. The MCP Announcement and Docs

“모델과 세상의 표준 연결고리: MCP”

마지막 10번째는 논문이 아닌, 2024년 Anthropic이 발표한 오픈 스탠더드(개방형 표준)인 MCP (모델 컨텍스트 프로토콜)입니다.

핵심: MCP를 지원하는 클라이언트(IDE, 에이전트 런타임 등)는 어떤 도구든 즉시 발견하고, 호출하고, 결과를 스트리밍할 수 있습니다. 이는 AI 에이전트 생태계의 상호운용성을 위한 중요한 첫걸음이며, AI가 더 넓은 세상과 소통하는 방식을 표준화하려는 시도입니다.

기존의 문제: AI 모델을 데이터베이스, API, 개발자 도구 등과 연결하려면, 개발자가 모든 도구에 맞춰 일일이 ‘수작업’으로 연동 코드를 작성해야 했습니다.

MCP의 비전: MCP는 모델과 도구가 서로 표준화된 스키마로 대화할 수 있게 하는 ‘규약’입니다. MCP 서버는 도구와 리소스를 표준화된 방식으로 노출합니다.

지금까지 AI 엔지니어링 분야를 정의한 10가지 핵심 문서를 살펴보았습니다.

‘트랜스포머’의 탄생부터, ‘규모’와 ‘프롬프트’의 힘을 발견하고, ‘RLHF’로 모델을 길들이고, ‘LoRA’와 ‘양자화’로 누구나 모델을 튜닝할 수 있게 되었으며, ‘RAG’로 외부 지식을 연결하고, ‘에이전트’로 행동을 부여하기까지. 그리고 ‘MCP’를 통해 이 모든 것을 표준화하려는 시도까지.

이 10가지 논문은 단순히 과거의 연구 성과가 아닙니다. 이것들은 오늘날 우리가 AI 시스템을 구축하고 배포하는 방식의 ‘설명서’이자, 미래의 AI 엔지니어링이 나아갈 방향을 보여주는 ‘지도’입니다. 이 흐름을 이해하는 것이 여러분을 더 유능한 AI 엔지니어로 이끌어 줄 것입니다.