설명가능한 AI : XAI

설명 가능한 인공지능(XAI)에 대해 다룹니다. XAI는 AI의 결정 과정과 결과를 인간이 이해할 수 있는 형태로 설명하는 기술을 말합니다. 이 기술은 사용자나 개발자가 AI의 판단 근거를 이해하고 신뢰할 수 있도록 돕습니다. XAI의 필요성, 작동 방식, 주요 기술 과제, 사용되는 기술들, 중요한 적용 분야, 그리고 사회적 영향 등에 대해 설명합니다.

업데이트 2025-04

읽는 시간 8분

AI·신뢰성

4가지

XAI 접근법

SHAP/LIME

표준 사후 도구

EU AI Act

2024-08 발효

Mechanistic

Anthropic 신연구

한눈에 보기 (TL;DR)

  1. XAI는 AI 결정 과정을 인간 이해 가능한 형태로 드러내는 기술 집합.
  2. 내재·사후·어텐션·반사실 — 4가지 주요 접근법.
  3. 의료(SHAP 시각화), 금융(CFPB 거부 사유 의무화) 등 실용 도입 진행 중.
  4. EU AI Act(2024-08 발효)로 고위험 AI는 사후 설명 법적 의무.
  5. Anthropic mechanistic interpretability — LLM 내부 회로 수준 분석으로 진화.

Key Facts — Explainable AI

접근법도구
내재 해석의사결정 트리, 선형회귀
사후 설명SHAP, LIME
어텐션 시각화BERTViz, AttentionViz
반사실DiCE, Counterfactual Explanations
EU AI Act고위험 AI 사후 설명 의무
Mechanistic InterpAnthropic 2024-2025 연구

출처: Molnar, Interpretable Machine Learning (2024 ed.), EU AI Act 2024, Anthropic Research

핵심 인사이트

AI의 정확성보다 “신뢰”가 다음 10년의 핵심 — 설명 없는 정확성은 임계 영역에서 무력하다.

설명가능한 AI(Explainable AI, XAI)는 AI 모델의 결정 과정을 인간이 이해할 수 있는 형태로 드러내는 기술 집합이다. 대형 언어모델과 의료·금융 AI가 임계 영역에 도입되며, “왜 그렇게 답했는가”에 답할 수 없는 블랙박스 모델은 더 이상 사회적 신뢰를 얻기 어렵다. 2024년 EU AI Act가 발효되며 XAI는 선택이 아닌 법적 의무가 되었다.

XAI의 4가지 접근법

  • 모델 내재(intrinsic): 의사결정 트리·선형 모델처럼 본질적으로 해석 가능
  • 사후 설명(post-hoc): LIME, SHAP — 블랙박스 모델의 결정을 사후 분석
  • 주의 메커니즘 시각화: 트랜스포머의 어텐션 가중치 분석
  • 반사실 설명(counterfactual): “X가 달랐다면 결과가 어떻게 바뀌었을까”

실용 사례

의료에서는 IBM Watson·구글 DeepMind의 폐결절 진단 AI가 SHAP 기반으로 “이 영역이 결정에 X% 기여”를 시각화한다. 금융에서는 미국 CFPB가 신용평가 모델의 거부 사유를 반드시 사후 설명하도록 요구하며, ZestFinance·UpStart 등이 SHAP·LIME을 표준 도구로 채택했다.

XAI의 한계

사후 설명은 모델의 “진짜 이유”를 정확히 반영하지 않을 수 있다(설명의 충실성, faithfulness 문제). 또한 LLM처럼 수십억 파라미터 모델의 어텐션은 인간이 직관적으로 해석하기 매우 어렵다. “설명 가능성”과 “정확한 설명” 사이의 트레이드오프가 핵심 연구 과제.

최신 동향 (2024-2025)

2024년 8월 EU AI Act 발효 — 고위험 AI 시스템은 의사결정의 사후 설명 제공이 의무화됐다. Anthropic은 2024-2025년 “mechanistic interpretability”(메커니즘 수준 해석) 분야에서 LLM 내부 회로를 발견하는 연구를 다수 발표했고, OpenAI도 GPT-4o의 의사결정 추적을 위한 도구를 공개했다.

주요 타임라인

  • 2016LIME 첫 발표
  • 2017SHAP — Lundberg & Lee
  • 2022Anthropic mechanistic interp 시작
  • 2024-08EU AI Act 발효
  • 2024-2025Anthropic Circuits 회로 발견

마무리 — 핵심 정리

  • SHAP·LIME은 표준 도구지만 충실성 한계를 인식하고 사용해야 한다.
  • LLM 해석은 mechanistic interpretability라는 새 패러다임으로 진화 중.
  • 설명은 컴플라이언스가 아니라 신뢰의 인프라 — 제품 단계부터 설계 필요.

자주 묻는 질문

추천 알고리즘처럼 결정의 위험이 낮은 경우는 필수는 아닙니다. 그러나 의료 진단, 신용 평가, 형사 사법, 채용처럼 결정이 개인에 큰 영향을 주는 “고위험 AI”는 EU AI Act에 따라 설명 의무가 부과됩니다.

SHAP는 Shapley 값에 기반해 이론적 일관성이 높지만 계산 비용이 큽니다. LIME은 빠르지만 결과가 샘플링에 따라 변동합니다. 의료·금융 정밀 영역은 SHAP, 빠른 디버깅은 LIME이 적합합니다.

전통적 XAI 도구는 LLM에 한계가 큽니다. 최근의 mechanistic interpretability 연구(Anthropic의 “Circuits”)는 LLM 내부에서 특정 기능을 담당하는 신경 회로를 식별하는 새 접근으로, 2024-2025년 빠르게 발전하고 있습니다.

EU 시장에서 AI 서비스를 제공하는 모든 기업에 역외 적용됩니다. 고위험 카테고리(채용, 신용평가, 의료 등) AI를 EU에 배포할 경우 사후 설명 의무·위험관리·인간 감독 체계를 갖춰야 합니다.

최종 업데이트: 2025-04 · EU AI Act 2024-08, Anthropic mechanistic interp 반영