설명가능한 AI : XAI

업데이트 2025-04

읽는 시간 8분

AI·신뢰성

4가지

XAI 접근법

SHAP/LIME

표준 사후 도구

EU AI Act

2024-08 발효

Mechanistic

Anthropic 신연구

한눈에 보기 (TL;DR)

XAI는 AI 결정 과정을 인간 이해 가능한 형태로 드러내는 기술 집합.
내재·사후·어텐션·반사실 — 4가지 주요 접근법.
의료(SHAP 시각화), 금융(CFPB 거부 사유 의무화) 등 실용 도입 진행 중.
EU AI Act(2024-08 발효)로 고위험 AI는 사후 설명 법적 의무.
Anthropic mechanistic interpretability — LLM 내부 회로 수준 분석으로 진화.

Key Facts — Explainable AI

접근법	도구
내재 해석	의사결정 트리, 선형회귀
사후 설명	SHAP, LIME
어텐션 시각화	BERTViz, AttentionViz
반사실	DiCE, Counterfactual Explanations
EU AI Act	고위험 AI 사후 설명 의무
Mechanistic Interp	Anthropic 2024-2025 연구

출처: Molnar, Interpretable Machine Learning (2024 ed.), EU AI Act 2024, Anthropic Research

핵심 인사이트

AI의 정확성보다 “신뢰”가 다음 10년의 핵심 — 설명 없는 정확성은 임계 영역에서 무력하다.

설명가능한 AI(Explainable AI, XAI)는 AI 모델의 결정 과정을 인간이 이해할 수 있는 형태로 드러내는 기술 집합이다. 대형 언어모델과 의료·금융 AI가 임계 영역에 도입되며, “왜 그렇게 답했는가”에 답할 수 없는 블랙박스 모델은 더 이상 사회적 신뢰를 얻기 어렵다. 2024년 EU AI Act가 발효되며 XAI는 선택이 아닌 법적 의무가 되었다.

XAI의 4가지 접근법

모델 내재(intrinsic): 의사결정 트리·선형 모델처럼 본질적으로 해석 가능
사후 설명(post-hoc): LIME, SHAP — 블랙박스 모델의 결정을 사후 분석
주의 메커니즘 시각화: 트랜스포머의 어텐션 가중치 분석
반사실 설명(counterfactual): “X가 달랐다면 결과가 어떻게 바뀌었을까”

실용 사례

의료에서는 IBM Watson·구글 DeepMind의 폐결절 진단 AI가 SHAP 기반으로 “이 영역이 결정에 X% 기여”를 시각화한다. 금융에서는 미국 CFPB가 신용평가 모델의 거부 사유를 반드시 사후 설명하도록 요구하며, ZestFinance·UpStart 등이 SHAP·LIME을 표준 도구로 채택했다.

XAI의 한계

사후 설명은 모델의 “진짜 이유”를 정확히 반영하지 않을 수 있다(설명의 충실성, faithfulness 문제). 또한 LLM처럼 수십억 파라미터 모델의 어텐션은 인간이 직관적으로 해석하기 매우 어렵다. “설명 가능성”과 “정확한 설명” 사이의 트레이드오프가 핵심 연구 과제.

자주 묻는 질문

추천 알고리즘처럼 결정의 위험이 낮은 경우는 필수는 아닙니다. 그러나 의료 진단, 신용 평가, 형사 사법, 채용처럼 결정이 개인에 큰 영향을 주는 “고위험 AI”는 EU AI Act에 따라 설명 의무가 부과됩니다.

SHAP는 Shapley 값에 기반해 이론적 일관성이 높지만 계산 비용이 큽니다. LIME은 빠르지만 결과가 샘플링에 따라 변동합니다. 의료·금융 정밀 영역은 SHAP, 빠른 디버깅은 LIME이 적합합니다.

전통적 XAI 도구는 LLM에 한계가 큽니다. 최근의 mechanistic interpretability 연구(Anthropic의 “Circuits”)는 LLM 내부에서 특정 기능을 담당하는 신경 회로를 식별하는 새 접근으로, 2024-2025년 빠르게 발전하고 있습니다.

EU 시장에서 AI 서비스를 제공하는 모든 기업에 역외 적용됩니다. 고위험 카테고리(채용, 신용평가, 의료 등) AI를 EU에 배포할 경우 사후 설명 의무·위험관리·인간 감독 체계를 갖춰야 합니다.

최종 업데이트: 2025-04 · EU AI Act 2024-08, Anthropic mechanistic interp 반영