인공지능의 미래를 엿볼 수 있는 23편의 2025년 주목할 만한 연구 논문

AI 발전 속도는 너무나 빠르게 진행되고 있습니다. 2025년이 지나가면서 올해 발표된 논문 중에 주목할 반한 연구 논문을 정리해 봅니다. (각종 뉴스레터 및 유튜브 참조) 2025년의 AI 연구는 “더 크게(Bigger)”에서 “더 똑똑하고, 효율적이며, 신뢰할 수 있게(Smarter, Efficient, Reliable)” 로 전환되고 있습니다. 연구 커뮤니티들이 주목하고 있는 6가지 핵심 트렌드와 관련 논문 23편의 링크를 정리해 봅니다.

1. 자율 과학자 (Autonomous Agents)의 등장

핵심 변화: AI가 단순히 도구를 사용하는 단계를 넘어, 스스로 가설을 세우고 검증하는 ‘연구자’로 진화합니다.

  • Cosmos (코스모스): 문헌 검색부터 가설 생성까지 수행하는 ‘AI 과학자’입니다. 벤치마크 정확도 79.4%를 기록하며 7건의 새로운 과학적 발견을 해냈습니다. 🔗 논문 보기
  • Paper2Agent (스탠포드): 정적인 연구 논문을 코드를 실행하고 결과를 재현하는 ‘살아있는 에이전트’로 변환합니다. (재현율 85%) 🔗 논문 보기
  • Toward a Science of Scalable Agent Systems (구글, MIT): 다중 에이전트 시스템이 언제 효과적인지, 언제 단순히 노이즈만 만드는지를 정량적으로 분석합니다. 🔗 논문 보기
  • SSRL (칭화대): 거대언어모델(LLM)이 외부 도움 없이 내부 지식을 정제하여 스스로 학습(Self-Exploratory)하는 강화 학습법입니다. 🔗 논문 보기
  • Agent Lightning (MS): 복잡한 에이전트 로직을 엔지니어들이 쉽게 강화 학습(RL)으로 최적화할 수 있게 돕는 프레임워크입니다. 🔗 논문 보기

Insight: “도구”에서 “주체”로

So What (결과): “이 데이터 분석해줘”가 아니라 “이 현상의 원인을 밝힐 가설을 세우고 검증해줘“라는 고차원적인 위임이 가능해집니다. 인간 과학자는 단순 반복 실험에서 벗어나 창의적 설계에만 집중하게 될 것입니다.

Why (원인): 기존 에이전트는 중간에 오류가 나면 멈췄지만, 최신 연구들은 에이전트 내부에 ‘피드백 루프‘를 심었습니다. 이제 AI는 코드를 실행해보고 에러가 나면 스스로 디버깅하고, 가설이 틀리면 수정합니다.

2. 트랜스포머 그 이후: 무한한 메모리 (Architecture)

핵심 변화: 기존 트랜스포머의 메모리 한계를 극복하고, 테스트 시점에 학습하는 새로운 구조들이 등장합니다.

  • Titans (구글): 추론 중에 실시간으로 업데이트되는 ‘신경 메모리’를 도입하여 수백만 토큰을 효율적으로 처리합니다. 🔗 논문 보기
  • Baby Dragon Hatchling (Pathway): 뇌의 학습 원리(Hebbian learning)를 모방한 그래프 기반 접근으로, 평생 학습 에이전트 작업에서 뛰어난 성능을 보입니다. 🔗 논문 보기
  • Markovian Thinker (Mila/MS): ‘생각의 길이’와 ‘문맥 길이’를 분리하여, 작은 모델도 고정된 메모리로 무한히 긴 추론을 가능게 합니다. 🔗 논문 보기
  • Gated Attention (Qwen): 트랜스포머에 ‘게이트’를 추가하여 긴 문맥 처리 시 발생하는 성능 저하(Attention Sink) 문제를 해결했습니다. 🔗 논문 보기
  • It’s All Connected (구글): 다양한 기억 구조를 하나의 이론으로 통합하여 ‘범용 기억’ 모듈의 가능성을 제시합니다. 🔗 논문 보기

Insight: “시험 치기”에서 “평생 학습”으로

So What (결과): 개인화의 끝판왕이 등장합니다. 내가 1년 전에 했던 사소한 이야기나 업무 스타일을 AI가 영구적으로 기억합니다. 또한, 문서를 매번 다시 읽을 필요가 없어 처리 비용이 획기적으로 낮아집니다.

Why (원인): 대화창이 닫히면 기억을 잃는 기존 방식(Context Window)을 넘어, 테스트 타임 학습(Test-time training)을 통해 추론 중에도 신경망을 실시간 업데이트하여 기억을 형성합니다.

3. 텍스트를 넘어: 세상을 이해하는 눈 (World Models)

핵심 변화: 텍스트 학습을 넘어, 이미지와 비디오를 통해 물리적 세계의 법칙(공간, 시간)을 이해합니다.

  • LeJEPA (메타): 얀 르쿤의 비전. 이미지, 텍스트 등 모든 데이터를 정답(라벨) 없이 스스로 학습하며 수학적으로 증명된 아키텍처입니다. 🔗 논문 보기
  • Cambrian-S (NYU/스탠포드): 비디오를 3차원 공간과 시간의 흐름으로 인식하도록 하는 ‘예측 코딩’을 도입했습니다. 🔗 논문 보기

Insight: “텍스트 확률”에서 “물리 법칙”으로

So What (결과): AI가 인간의 언어(Text)라는 좁은 세상에서 벗어나 물리적 현실(Real World)을 이해하게 됩니다. 이는 자율주행, 로보틱스, 물리 시뮬레이션의 비약적 발전을 의미합니다.

Why (원인): LLM은 “사과가 떨어진다”는 문장은 알지만 중력은 몰랐습니다. 최신 모델들은 비디오를 보며 픽셀이 아닌 ‘상태 변화와 인과관계’를 예측(Predictive Coding)하도록 훈련받습니다.

4. 스케일링과 학습의 새로운 과학 (Scaling & RL)

핵심 변화: 데이터 양보다 ‘데이터의 질’과 ‘스스로 만드는 데이터(Self-play)’가 중요해집니다.

  • The Art of Scaling RL Compute for LLMs (Meta): 강화 학습(RL)을 ‘마법’에서 ‘공학’으로 전환하며, 목표 성능 달성에 필요한 컴퓨팅 양을 예측합니다. 🔗 논문 보기
  • Absolute Zero (칭화대): 인간 데이터 없이 AI가 스스로 문제를 내고 풀며 성장하는, LLM을 위한 ‘알파제로’ 모멘트입니다. 🔗 논문 보기
  • It Takes Two: GRPO is effectively DPO: 복잡한 강화 학습을 단순화하여 학습 시간을 70% 절약하면서도 동일한 효과를 내는 방법론입니다. 🔗 논문 보기
  • Is In-Context Learning True Learning? (MS/요크대): 프롬프트 학습(ICL)이 진정한 학습이라기보다 예시 분포에 민감한 일시적 적응임을 밝힙니다. 🔗 논문 보기

Insight: “직관(System 1)”에서 “숙고(System 2)”로

So What (결과): 데이터 고갈론의 종식입니다. 또한, AI 성능은 모델 크기(파라미터)보다 “추론 시 얼마나 깊게 생각할 시간을 주느냐”에 따라 결정되는 시대로 진입했습니다.

Why (원인): 인터넷 데이터는 바닥났고, 즉답형 AI는 복잡한 문제에 약했습니다. 이제 AI는 스스로 문제를 만들어 학습(Self-play)하고, 답변 전 “생각하는 시간”을 늘려 여러 경로를 검토합니다.

5. 신뢰성: 환각과 집단지성의 함정 (Reliability)

핵심 변화: AI의 거짓말(환각) 원인을 규명하고, 모델 간 획일화(Groupthink) 문제를 경계합니다.

  • Why Language Models Hallucinate (OpenAI): 평가 방식이 모델에게 “모른다” 대신 거짓말을 하도록 강요하고 있음을 지적합니다. 🔗 논문 보기
  • Artificial Hivemind (워싱턴대): 모델들이 서로 비슷해지면서 인간 사고의 ‘평균’으로 수렴, 오히려 창의성을 잃는 현상을 경고합니다. 🔗 논문 보기
  • Reverse Scaling in Test-Time Compute (Anthropic): 모델이 너무 오래 생각하면 오히려 간단한 작업을 과대 해석하여 성능이 떨어질 수 있음을 발견했습니다. 🔗 논문 보기
  • The Illusion of Diminishing Returns: 장기 작업 실패의 주원인은 추론 능력이 아닌, 사소한 실행 오류의 누적임을 밝힙니다. 🔗 논문 보기

Insight: “능력(Capability)”보다 “정렬(Alignment)”

So What (결과): 비즈니스 현장에서는 “틀릴 수도 있는 천재”보다 “모르면 모른다고 하는 성실한 직원” 같은 AI가 필요합니다. 기업들은 단일 모델보다, 서로 다른 관점을 가진 여러 모델의 합의(Ensemble) 시스템을 선호하게 될 것입니다.

Why (원인): 모든 모델이 비슷한 데이터로 학습되어 사고방식이 획일화(Groupthink)되고, 모르는 것도 아는 척해야 점수를 잘 받는 구조였습니다.

6. 효율성: 더 작고 더 빠르게 (Efficiency)

핵심 변화: “얼마나 똑똑한가”보다 “전력을 덜 쓰면서 똑똑한가”가 실질적인 기준이 됩니다.

  • Intelligence Per Watt (스탠포드/Together AI): ‘와트당 지능’ 지표를 제시하며, 로컬 모델이 클라우드보다 5.3배 효율적임을 입증했습니다. 🔗 논문 보기
  • Less is More (삼성 SAIL): 700만 파라미터의 초소형 모델이 ‘재귀적 사고’를 통해 거대 모델을 능가하는 퍼즐 해결 능력을 보여줍니다. 🔗 논문 보기
  • Overcoming Nondeterminism (Thinking Machines): 산업 현장에서 필수적인 ‘항상 같은 답을 주는(결정론적)’ LLM 시스템 구축법을 제안합니다. 🔗 논문 보기

Insight: “과시용 스펙”에서 “실질적 생산성”으로

So What (결과): On-Device AI의 개화입니다. 인터넷 연결 없이 내 노트북에서 돌아가는 고성능 AI가 보편화되며, 기업들은 보안과 속도를 위해 작지만 강한 모델을 도입하게 될 것입니다.

Why (원인): 거대 모델은 운영 비용과 전력 소모가 너무 큽니다. 연구 결과, 작은 모델이라도 문제를 잘게 쪼개서 푸는 ‘재귀적 사고’를 적용하면 거대 모델보다 나은 성능을 보였습니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다