4가지
XAI 접근법
SHAP/LIME
표준 사후 도구
EU AI Act
2024-08 발효
Mechanistic
Anthropic 신연구
한눈에 보기 (TL;DR)
- XAI는 AI 결정 과정을 인간 이해 가능한 형태로 드러내는 기술 집합.
- 내재·사후·어텐션·반사실 — 4가지 주요 접근법.
- 의료(SHAP 시각화), 금융(CFPB 거부 사유 의무화) 등 실용 도입 진행 중.
- EU AI Act(2024-08 발효)로 고위험 AI는 사후 설명 법적 의무.
- Anthropic mechanistic interpretability — LLM 내부 회로 수준 분석으로 진화.
Key Facts — Explainable AI
| 접근법 | 도구 |
|---|---|
| 내재 해석 | 의사결정 트리, 선형회귀 |
| 사후 설명 | SHAP, LIME |
| 어텐션 시각화 | BERTViz, AttentionViz |
| 반사실 | DiCE, Counterfactual Explanations |
| EU AI Act | 고위험 AI 사후 설명 의무 |
| Mechanistic Interp | Anthropic 2024-2025 연구 |
출처: Molnar, Interpretable Machine Learning (2024 ed.), EU AI Act 2024, Anthropic Research
핵심 인사이트
AI의 정확성보다 “신뢰”가 다음 10년의 핵심 — 설명 없는 정확성은 임계 영역에서 무력하다.
설명가능한 AI(Explainable AI, XAI)는 AI 모델의 결정 과정을 인간이 이해할 수 있는 형태로 드러내는 기술 집합이다. 대형 언어모델과 의료·금융 AI가 임계 영역에 도입되며, “왜 그렇게 답했는가”에 답할 수 없는 블랙박스 모델은 더 이상 사회적 신뢰를 얻기 어렵다. 2024년 EU AI Act가 발효되며 XAI는 선택이 아닌 법적 의무가 되었다.
XAI의 4가지 접근법
- 모델 내재(intrinsic): 의사결정 트리·선형 모델처럼 본질적으로 해석 가능
- 사후 설명(post-hoc): LIME, SHAP — 블랙박스 모델의 결정을 사후 분석
- 주의 메커니즘 시각화: 트랜스포머의 어텐션 가중치 분석
- 반사실 설명(counterfactual): “X가 달랐다면 결과가 어떻게 바뀌었을까”
실용 사례
의료에서는 IBM Watson·구글 DeepMind의 폐결절 진단 AI가 SHAP 기반으로 “이 영역이 결정에 X% 기여”를 시각화한다. 금융에서는 미국 CFPB가 신용평가 모델의 거부 사유를 반드시 사후 설명하도록 요구하며, ZestFinance·UpStart 등이 SHAP·LIME을 표준 도구로 채택했다.
XAI의 한계
사후 설명은 모델의 “진짜 이유”를 정확히 반영하지 않을 수 있다(설명의 충실성, faithfulness 문제). 또한 LLM처럼 수십억 파라미터 모델의 어텐션은 인간이 직관적으로 해석하기 매우 어렵다. “설명 가능성”과 “정확한 설명” 사이의 트레이드오프가 핵심 연구 과제.
최신 동향 (2024-2025)
2024년 8월 EU AI Act 발효 — 고위험 AI 시스템은 의사결정의 사후 설명 제공이 의무화됐다. Anthropic은 2024-2025년 “mechanistic interpretability”(메커니즘 수준 해석) 분야에서 LLM 내부 회로를 발견하는 연구를 다수 발표했고, OpenAI도 GPT-4o의 의사결정 추적을 위한 도구를 공개했다.
주요 타임라인
- 2016LIME 첫 발표
- 2017SHAP — Lundberg & Lee
- 2022Anthropic mechanistic interp 시작
- 2024-08EU AI Act 발효
- 2024-2025Anthropic Circuits 회로 발견
마무리 — 핵심 정리
- SHAP·LIME은 표준 도구지만 충실성 한계를 인식하고 사용해야 한다.
- LLM 해석은 mechanistic interpretability라는 새 패러다임으로 진화 중.
- 설명은 컴플라이언스가 아니라 신뢰의 인프라 — 제품 단계부터 설계 필요.
자주 묻는 질문
최종 업데이트: 2025-04 · EU AI Act 2024-08, Anthropic mechanistic interp 반영