인공지능의 미래를 엿볼 수 있는 23편의 2025년 주목할 만한 연구 논문

AI 발전 속도는 너무나 빠르게 진행되고 있습니다. 2025년이 지나가면서 올해 발표된 논문 중에 주목할 반한 연구 논문을 정리해 봅니다. (각종 뉴스레터 및 유튜브 참조) 2025년의 AI 연구는 “더 크게(Bigger)”에서 “더 똑똑하고, 효율적이며, 신뢰할 수 있게(Smarter, Efficient, Reliable)” 로 전환되고 있습니다. 연구 커뮤니티들이 주목하고 있는 6가지 핵심 트렌드와 관련 논문 23편의 링크를 정리해 봅니다.

1. 자율 과학자 (Autonomous Agents)의 등장

핵심 변화: AI가 단순히 도구를 사용하는 단계를 넘어, 스스로 가설을 세우고 검증하는 ‘연구자’로 진화합니다.

Cosmos (코스모스): 문헌 검색부터 가설 생성까지 수행하는 ‘AI 과학자’입니다. 벤치마크 정확도 79.4%를 기록하며 7건의 새로운 과학적 발견을 해냈습니다. 🔗 논문 보기
Paper2Agent (스탠포드): 정적인 연구 논문을 코드를 실행하고 결과를 재현하는 ‘살아있는 에이전트’로 변환합니다. (재현율 85%) 🔗 논문 보기
Toward a Science of Scalable Agent Systems (구글, MIT): 다중 에이전트 시스템이 언제 효과적인지, 언제 단순히 노이즈만 만드는지를 정량적으로 분석합니다. 🔗 논문 보기
SSRL (칭화대): 거대언어모델(LLM)이 외부 도움 없이 내부 지식을 정제하여 스스로 학습(Self-Exploratory)하는 강화 학습법입니다. 🔗 논문 보기
Agent Lightning (MS): 복잡한 에이전트 로직을 엔지니어들이 쉽게 강화 학습(RL)으로 최적화할 수 있게 돕는 프레임워크입니다. 🔗 논문 보기

Insight: “도구”에서 “주체”로

So What (결과): “이 데이터 분석해줘”가 아니라 “이 현상의 원인을 밝힐 가설을 세우고 검증해줘“라는 고차원적인 위임이 가능해집니다. 인간 과학자는 단순 반복 실험에서 벗어나 창의적 설계에만 집중하게 될 것입니다.

Why (원인): 기존 에이전트는 중간에 오류가 나면 멈췄지만, 최신 연구들은 에이전트 내부에 ‘피드백 루프‘를 심었습니다. 이제 AI는 코드를 실행해보고 에러가 나면 스스로 디버깅하고, 가설이 틀리면 수정합니다.

2. 트랜스포머 그 이후: 무한한 메모리 (Architecture)

핵심 변화: 기존 트랜스포머의 메모리 한계를 극복하고, 테스트 시점에 학습하는 새로운 구조들이 등장합니다.

Titans (구글): 추론 중에 실시간으로 업데이트되는 ‘신경 메모리’를 도입하여 수백만 토큰을 효율적으로 처리합니다. 🔗 논문 보기
Baby Dragon Hatchling (Pathway): 뇌의 학습 원리(Hebbian learning)를 모방한 그래프 기반 접근으로, 평생 학습 에이전트 작업에서 뛰어난 성능을 보입니다. 🔗 논문 보기
Markovian Thinker (Mila/MS): ‘생각의 길이’와 ‘문맥 길이’를 분리하여, 작은 모델도 고정된 메모리로 무한히 긴 추론을 가능게 합니다. 🔗 논문 보기
Gated Attention (Qwen): 트랜스포머에 ‘게이트’를 추가하여 긴 문맥 처리 시 발생하는 성능 저하(Attention Sink) 문제를 해결했습니다. 🔗 논문 보기
It’s All Connected (구글): 다양한 기억 구조를 하나의 이론으로 통합하여 ‘범용 기억’ 모듈의 가능성을 제시합니다. 🔗 논문 보기

Insight: “시험 치기”에서 “평생 학습”으로

So What (결과): 개인화의 끝판왕이 등장합니다. 내가 1년 전에 했던 사소한 이야기나 업무 스타일을 AI가 영구적으로 기억합니다. 또한, 문서를 매번 다시 읽을 필요가 없어 처리 비용이 획기적으로 낮아집니다.

Why (원인): 대화창이 닫히면 기억을 잃는 기존 방식(Context Window)을 넘어, 테스트 타임 학습(Test-time training)을 통해 추론 중에도 신경망을 실시간 업데이트하여 기억을 형성합니다.

3. 텍스트를 넘어: 세상을 이해하는 눈 (World Models)

핵심 변화: 텍스트 학습을 넘어, 이미지와 비디오를 통해 물리적 세계의 법칙(공간, 시간)을 이해합니다.

LeJEPA (메타): 얀 르쿤의 비전. 이미지, 텍스트 등 모든 데이터를 정답(라벨) 없이 스스로 학습하며 수학적으로 증명된 아키텍처입니다. 🔗 논문 보기
Cambrian-S (NYU/스탠포드): 비디오를 3차원 공간과 시간의 흐름으로 인식하도록 하는 ‘예측 코딩’을 도입했습니다. 🔗 논문 보기

Insight: “텍스트 확률”에서 “물리 법칙”으로

So What (결과): AI가 인간의 언어(Text)라는 좁은 세상에서 벗어나 물리적 현실(Real World)을 이해하게 됩니다. 이는 자율주행, 로보틱스, 물리 시뮬레이션의 비약적 발전을 의미합니다.

Why (원인): LLM은 “사과가 떨어진다”는 문장은 알지만 중력은 몰랐습니다. 최신 모델들은 비디오를 보며 픽셀이 아닌 ‘상태 변화와 인과관계’를 예측(Predictive Coding)하도록 훈련받습니다.

4. 스케일링과 학습의 새로운 과학 (Scaling & RL)

핵심 변화: 데이터 양보다 ‘데이터의 질’과 ‘스스로 만드는 데이터(Self-play)’가 중요해집니다.

The Art of Scaling RL Compute for LLMs (Meta): 강화 학습(RL)을 ‘마법’에서 ‘공학’으로 전환하며, 목표 성능 달성에 필요한 컴퓨팅 양을 예측합니다. 🔗 논문 보기
Absolute Zero (칭화대): 인간 데이터 없이 AI가 스스로 문제를 내고 풀며 성장하는, LLM을 위한 ‘알파제로’ 모멘트입니다. 🔗 논문 보기
It Takes Two: GRPO is effectively DPO: 복잡한 강화 학습을 단순화하여 학습 시간을 70% 절약하면서도 동일한 효과를 내는 방법론입니다. 🔗 논문 보기
Is In-Context Learning True Learning? (MS/요크대): 프롬프트 학습(ICL)이 진정한 학습이라기보다 예시 분포에 민감한 일시적 적응임을 밝힙니다. 🔗 논문 보기

Insight: “직관(System 1)”에서 “숙고(System 2)”로

So What (결과): 데이터 고갈론의 종식입니다. 또한, AI 성능은 모델 크기(파라미터)보다 “추론 시 얼마나 깊게 생각할 시간을 주느냐”에 따라 결정되는 시대로 진입했습니다.

Why (원인): 인터넷 데이터는 바닥났고, 즉답형 AI는 복잡한 문제에 약했습니다. 이제 AI는 스스로 문제를 만들어 학습(Self-play)하고, 답변 전 “생각하는 시간”을 늘려 여러 경로를 검토합니다.

5. 신뢰성: 환각과 집단지성의 함정 (Reliability)

핵심 변화: AI의 거짓말(환각) 원인을 규명하고, 모델 간 획일화(Groupthink) 문제를 경계합니다.

Why Language Models Hallucinate (OpenAI): 평가 방식이 모델에게 “모른다” 대신 거짓말을 하도록 강요하고 있음을 지적합니다. 🔗 논문 보기
Artificial Hivemind (워싱턴대): 모델들이 서로 비슷해지면서 인간 사고의 ‘평균’으로 수렴, 오히려 창의성을 잃는 현상을 경고합니다. 🔗 논문 보기
Reverse Scaling in Test-Time Compute (Anthropic): 모델이 너무 오래 생각하면 오히려 간단한 작업을 과대 해석하여 성능이 떨어질 수 있음을 발견했습니다. 🔗 논문 보기
The Illusion of Diminishing Returns: 장기 작업 실패의 주원인은 추론 능력이 아닌, 사소한 실행 오류의 누적임을 밝힙니다. 🔗 논문 보기

Insight: “능력(Capability)”보다 “정렬(Alignment)”

So What (결과): 비즈니스 현장에서는 “틀릴 수도 있는 천재”보다 “모르면 모른다고 하는 성실한 직원” 같은 AI가 필요합니다. 기업들은 단일 모델보다, 서로 다른 관점을 가진 여러 모델의 합의(Ensemble) 시스템을 선호하게 될 것입니다.

Why (원인): 모든 모델이 비슷한 데이터로 학습되어 사고방식이 획일화(Groupthink)되고, 모르는 것도 아는 척해야 점수를 잘 받는 구조였습니다.

6. 효율성: 더 작고 더 빠르게 (Efficiency)

핵심 변화: “얼마나 똑똑한가”보다 “전력을 덜 쓰면서 똑똑한가”가 실질적인 기준이 됩니다.

Intelligence Per Watt (스탠포드/Together AI): ‘와트당 지능’ 지표를 제시하며, 로컬 모델이 클라우드보다 5.3배 효율적임을 입증했습니다. 🔗 논문 보기
Less is More (삼성 SAIL): 700만 파라미터의 초소형 모델이 ‘재귀적 사고’를 통해 거대 모델을 능가하는 퍼즐 해결 능력을 보여줍니다. 🔗 논문 보기
Overcoming Nondeterminism (Thinking Machines): 산업 현장에서 필수적인 ‘항상 같은 답을 주는(결정론적)’ LLM 시스템 구축법을 제안합니다. 🔗 논문 보기

Insight: “과시용 스펙”에서 “실질적 생산성”으로

So What (결과): On-Device AI의 개화입니다. 인터넷 연결 없이 내 노트북에서 돌아가는 고성능 AI가 보편화되며, 기업들은 보안과 속도를 위해 작지만 강한 모델을 도입하게 될 것입니다.

Why (원인): 거대 모델은 운영 비용과 전력 소모가 너무 큽니다. 연구 결과, 작은 모델이라도 문제를 잘게 쪼개서 푸는 ‘재귀적 사고’를 적용하면 거대 모델보다 나은 성능을 보였습니다.