온디바이스 AI - TradingClue

3B~7B

모바일 LLM 크기

INT4·FP8

양자화 표준

Apple Intelligence

2024-10 출시

Gemini Nano

픽셀·안드로이드 탑재

한눈에 보기 (TL;DR)

온디바이스 AI는 클라우드를 거치지 않고 스마트폰·노트북에서 직접 추론을 실행하는 방식이다.
NPU 발전·양자화·지식증류 기술 결합으로 7B급 LLM이 모바일에서 구동 가능해졌다.
Apple Intelligence(2024-10), 갤럭시 AI, Copilot+ PC, Gemini Nano가 2024년 대표 사례.
프라이버시·지연·통신비용을 동시에 해결하지만, 대형 모델은 클라우드 하이브리드 구조가 표준이 될 전망.

Key Facts — 온디바이스 AI (2024)

항목	내용
정의	사용자 기기 내에서 직접 AI 추론 실행
핵심 강점	프라이버시, 저지연, 오프라인, 한계비용 0
표준 기술	양자화(INT4/FP8), 지식증류, NPU, 통합 메모리
주요 제품	Apple Intelligence, 갤럭시 AI, Copilot+ PC, Gemini Nano
필요 NPU	Copilot+ PC: 40 TOPS+, 모바일: 30 TOPS급
주요 한계	대형 모델 불가, 업데이트 주기, 전력·발열

출처: Apple Intelligence 발표 자료, Google AICore 문서, MS Copilot+ PC

핵심 인사이트

온디바이스 AI의 진짜 의미는 ‘클라우드 비용 절감’이 아니라 ‘개인 데이터가 기기 밖으로 나가지 않는 AI’다. Apple이 이를 ‘Private Cloud Compute + 기기 내 LLM’ 구조로 정착시키면서 프라이버시가 AI 서비스의 결정적 차별점으로 자리잡기 시작했다.

온디바이스 AI란?

온디바이스 AI(on-device AI)는 클라우드 서버 대신 사용자의 스마트폰·노트북·자동차·가전 같은 기기 안에서 직접 AI 추론(inference)을 실행하는 방식입니다. 데이터가 기기 밖으로 나가지 않으므로 ①프라이버시 보호 ②네트워크 지연 제거 ③오프라인 동작 ④통신 비용 감소를 동시에 달성할 수 있습니다.

왜 갑자기 폭발했나

NPU의 발전: 모바일 NPU가 수 TOPS → 35 TOPS+(애플 A18 Pro), PC NPU는 40 TOPS+ (Copilot+ PC)로 확장.
양자화·소형 모델: 70억(7B) 파라미터급 LLM도 INT4·FP8 양자화로 4~6GB에 압축돼 모바일 메모리에 들어감.
프라이버시 규제 강화: EU AI Act·국내 개인정보보호법으로 클라우드 전송이 부담.
비용 압박: 클라우드 LLM 추론 비용이 누적되면 기업·소비자 모두 부담 — 온디바이스가 한계비용 0에 가까움.

대표 사례 (2024)

Apple Intelligence: iOS 18·iPadOS 18·macOS Sequoia에 탑재(2024-10). 기기 내 LLM(약 3B)이 기본 처리, 복잡 작업은 ‘Private Cloud Compute’로 전송. 일부 작업은 ChatGPT 연동.
갤럭시 AI: 삼성 S24·Z6 시리즈, 가우스(Gauss) 기반 일부 기능 온디바이스, 일부는 구글 Gemini Nano 활용.
Windows Copilot+ PC: Recall·Cocreator·라이브 캡션 등이 NPU에서 직접 구동.
Gemini Nano: 구글이 픽셀 8 Pro·9에 탑재한 온디바이스 LLM. 안드로이드 AICore SDK로 앱이 호출 가능.
차량 인포테인먼트: 메르세데스·BMW·현대차가 차내 음성 AI를 점차 온디바이스 처리로 전환.

기술 — 어떻게 작은 기기에서 큰 모델을 돌리나

양자화(Quantization): FP16 → INT8/INT4로 정밀도를 낮춰 메모리·연산 비용 1/4~1/8.
지식 증류(Distillation): 큰 모델(70B)이 가르치는 작은 모델(7B·3B)이 비슷한 품질을 내도록 학습.
희소화(Pruning)·MoE: 사용하지 않는 뉴런·전문가만 골라 활성화.
NPU·SoC 최적화: 행렬 곱·메모리 대역폭에 최적화된 전용 가속기 + 통합 메모리.

한계와 미래

대형 모델은 여전히 클라우드: GPT-4·Claude 4 Opus급은 100B+ 파라미터로 온디바이스 불가능. 하이브리드(작업 분리)가 표준이 될 전망.
모델 업데이트: 기기에 모델이 박혀 있어 업데이트가 빈번한 클라우드보다 갱신 주기가 길다는 단점.
전력·발열: 장시간 추론은 배터리 소모·발열 이슈 — NPU의 W당 성능 개선이 핵심 과제.
RAG·에이전트와 결합: 온디바이스 LLM이 로컬 데이터(사진·메일·문서)에 직접 접근해 진짜 ‘개인 비서’로 발전할 가능성.

자주 묻는 질문

용도에 따라 다릅니다. 일상 작업(요약·번역·이메일 작성·사진 편집)은 온디바이스가 충분하지만, 복잡한 추론·코딩·연구는 GPT-4·Claude 4 같은 대형 모델이 필요합니다. 그래서 Apple Intelligence가 ‘Private Cloud Compute’ 하이브리드를 채택한 것입니다.

Apple Intelligence·Gemini Nano 등은 기본 기능을 기기 내에서 처리합니다. 다만 사용자가 ChatGPT 연동 등을 활성화하면 그 시점에 외부 전송이 일어납니다. 어떤 작업이 어디서 처리되는지를 설정에서 확인할 수 있어야 진정한 프라이버시입니다.

아직 아닙니다. 7B·3B 모델은 GPT-4(약 1T급)에 비해 추론 능력이 제한적입니다. 다만 요약·번역·이메일·간단한 코드 보조 등 일상 작업의 80%는 충분히 잘 처리합니다. 대형 모델은 클라우드, 일상은 온디바이스 — 하이브리드가 표준입니다.

iPhone: 15 Pro 이상 + iOS 18.1+에서 Apple Intelligence 사용 가능. 갤럭시 S24·Z6 시리즈에서 갤럭시 AI 기본 탑재. 픽셀 8 Pro·9 시리즈에 Gemini Nano. PC는 Snapdragon X Elite / Core Ultra 200V / Ryzen AI 300 등 ‘Copilot+ PC’ 라벨을 확인하면 됩니다.

예. iOS는 Core ML과 Apple Foundation Models API(2024-09 발표), 안드로이드는 AICore SDK + Gemini Nano, Windows는 DirectML·ONNX Runtime을 통해 NPU 가속을 활용할 수 있습니다. 별도 LLM은 llama.cpp·MLX·MediaPipe로 자체 모델 탑재도 가능합니다.

최종 업데이트: 2024-12 — Apple Intelligence 출시, Gemini Nano, Copilot+ PC 동향 반영.