3B~7B
모바일 LLM 크기
INT4·FP8
양자화 표준
Apple Intelligence
2024-10 출시
Gemini Nano
픽셀·안드로이드 탑재
한눈에 보기 (TL;DR)
- 온디바이스 AI는 클라우드를 거치지 않고 스마트폰·노트북에서 직접 추론을 실행하는 방식이다.
- NPU 발전·양자화·지식증류 기술 결합으로 7B급 LLM이 모바일에서 구동 가능해졌다.
- Apple Intelligence(2024-10), 갤럭시 AI, Copilot+ PC, Gemini Nano가 2024년 대표 사례.
- 프라이버시·지연·통신비용을 동시에 해결하지만, 대형 모델은 클라우드 하이브리드 구조가 표준이 될 전망.
Key Facts — 온디바이스 AI (2024)
| 항목 | 내용 |
|---|---|
| 정의 | 사용자 기기 내에서 직접 AI 추론 실행 |
| 핵심 강점 | 프라이버시, 저지연, 오프라인, 한계비용 0 |
| 표준 기술 | 양자화(INT4/FP8), 지식증류, NPU, 통합 메모리 |
| 주요 제품 | Apple Intelligence, 갤럭시 AI, Copilot+ PC, Gemini Nano |
| 필요 NPU | Copilot+ PC: 40 TOPS+, 모바일: 30 TOPS급 |
| 주요 한계 | 대형 모델 불가, 업데이트 주기, 전력·발열 |
출처: Apple Intelligence 발표 자료, Google AICore 문서, MS Copilot+ PC
핵심 인사이트
온디바이스 AI의 진짜 의미는 ‘클라우드 비용 절감’이 아니라 ‘개인 데이터가 기기 밖으로 나가지 않는 AI’다. Apple이 이를 ‘Private Cloud Compute + 기기 내 LLM’ 구조로 정착시키면서 프라이버시가 AI 서비스의 결정적 차별점으로 자리잡기 시작했다.
온디바이스 AI란?
온디바이스 AI(on-device AI)는 클라우드 서버 대신 사용자의 스마트폰·노트북·자동차·가전 같은 기기 안에서 직접 AI 추론(inference)을 실행하는 방식입니다. 데이터가 기기 밖으로 나가지 않으므로 ①프라이버시 보호 ②네트워크 지연 제거 ③오프라인 동작 ④통신 비용 감소를 동시에 달성할 수 있습니다.
왜 갑자기 폭발했나
- NPU의 발전: 모바일 NPU가 수 TOPS → 35 TOPS+(애플 A18 Pro), PC NPU는 40 TOPS+ (Copilot+ PC)로 확장.
- 양자화·소형 모델: 70억(7B) 파라미터급 LLM도 INT4·FP8 양자화로 4~6GB에 압축돼 모바일 메모리에 들어감.
- 프라이버시 규제 강화: EU AI Act·국내 개인정보보호법으로 클라우드 전송이 부담.
- 비용 압박: 클라우드 LLM 추론 비용이 누적되면 기업·소비자 모두 부담 — 온디바이스가 한계비용 0에 가까움.
대표 사례 (2024)
- Apple Intelligence: iOS 18·iPadOS 18·macOS Sequoia에 탑재(2024-10). 기기 내 LLM(약 3B)이 기본 처리, 복잡 작업은 ‘Private Cloud Compute’로 전송. 일부 작업은 ChatGPT 연동.
- 갤럭시 AI: 삼성 S24·Z6 시리즈, 가우스(Gauss) 기반 일부 기능 온디바이스, 일부는 구글 Gemini Nano 활용.
- Windows Copilot+ PC: Recall·Cocreator·라이브 캡션 등이 NPU에서 직접 구동.
- Gemini Nano: 구글이 픽셀 8 Pro·9에 탑재한 온디바이스 LLM. 안드로이드 AICore SDK로 앱이 호출 가능.
- 차량 인포테인먼트: 메르세데스·BMW·현대차가 차내 음성 AI를 점차 온디바이스 처리로 전환.
기술 — 어떻게 작은 기기에서 큰 모델을 돌리나
- 양자화(Quantization): FP16 → INT8/INT4로 정밀도를 낮춰 메모리·연산 비용 1/4~1/8.
- 지식 증류(Distillation): 큰 모델(70B)이 가르치는 작은 모델(7B·3B)이 비슷한 품질을 내도록 학습.
- 희소화(Pruning)·MoE: 사용하지 않는 뉴런·전문가만 골라 활성화.
- NPU·SoC 최적화: 행렬 곱·메모리 대역폭에 최적화된 전용 가속기 + 통합 메모리.
한계와 미래
- 대형 모델은 여전히 클라우드: GPT-4·Claude 4 Opus급은 100B+ 파라미터로 온디바이스 불가능. 하이브리드(작업 분리)가 표준이 될 전망.
- 모델 업데이트: 기기에 모델이 박혀 있어 업데이트가 빈번한 클라우드보다 갱신 주기가 길다는 단점.
- 전력·발열: 장시간 추론은 배터리 소모·발열 이슈 — NPU의 W당 성능 개선이 핵심 과제.
- RAG·에이전트와 결합: 온디바이스 LLM이 로컬 데이터(사진·메일·문서)에 직접 접근해 진짜 ‘개인 비서’로 발전할 가능성.
자주 묻는 질문
최종 업데이트: 2024-12 — Apple Intelligence 출시, Gemini Nano, Copilot+ PC 동향 반영.