NPU 기초

NPU, 즉 신경망 처리 장치는 인공 지능(AI) 알고리즘, 특히 딥러닝 모델을 실행하기 위해 특별히 설계된 마이크로프로세서입니다. NPU는 데이터의 병렬 처리에 최적화되어 있으며, AI 작업의 효율성과 속도를 대폭 향상시킬 수 있습니다. 이는 스마트폰, 자율 주행 차량, 스마트 홈 기기 등 다양한 분야에서 AI 기능의 구현을 가능하게 합니다.

40 TOPS+

Copilot+ PC 기준

35 TOPS

애플 A18 Pro

리벨리온·사피온

국내 양산사

저전력

GPU 대비 W당 우위

한눈에 보기 (TL;DR)

  1. NPU(Neural Processing Unit)는 딥러닝의 행렬·MAC 연산에 특화된 전용 반도체로, 같은 연산을 GPU보다 훨씬 적은 전력으로 처리한다.
  2. 스마트폰·노트북·자율주행·IoT 등 ‘온디바이스 AI’의 핵심 가속기로 자리잡았다.
  3. Microsoft가 2024년 NPU 40 TOPS 이상의 ‘Copilot+ PC’ 카테고리를 공식화하면서 PC NPU가 주류로 진입.
  4. 국내 리벨리온·사피온·퓨리오사AI가 데이터센터·엣지 NPU 양산을 본격화하며 K-AI 반도체 생태계가 형성 중.

Key Facts — NPU (2024)

항목내용
정식 명칭Neural Processing Unit
핵심 연산행렬곱(MatMul), 컨볼루션, MAC(Multiply-Accumulate)
주요 모바일 NPUApple Neural Engine, 엑시노스 NPU, Hexagon, Tensor
주요 PC NPUIntel Core Ultra, AMD Ryzen AI, Snapdragon X Elite
Copilot+ PC 기준40 TOPS 이상 (MS 2024-05)
국내 NPU 기업리벨리온, 사피온, 퓨리오사AI, 텔레칩스
데이터센터구글 TPU, AWS Trainium/Inferentia, 화웨이 Ascend

출처: Microsoft Copilot+ PC 공식 기준, 각사 공식 사양

핵심 인사이트

NPU의 진짜 의미는 ‘AI 가속기’ 자체가 아니라 ‘클라우드를 거치지 않는 온디바이스 AI’의 인프라라는 점이다. 데이터가 기기 밖으로 나가지 않으면 프라이버시·지연·통신비용이 한꺼번에 해결되며, 이것이 Copilot+ PC·갤럭시 AI·애플 Intelligence가 모두 동시에 뛰어든 이유다.

NPU란?

NPU(Neural Processing Unit, 신경망처리장치)는 딥러닝의 핵심 연산인 행렬곱·컨볼루션·활성함수를 빠르고 전력 효율적으로 수행하도록 만들어진 전용 반도체입니다. 일반 CPU는 순차 처리, GPU는 대량 병렬 그래픽 연산을 위해 설계됐지만, NPU는 ‘곱하고 더하기(MAC)’를 한 사이클에 수천~수만 번 수행하도록 설계된 점이 다릅니다.

CPU·GPU·NPU 비교

  • CPU: 범용·복잡한 분기 처리에 강함. 코어 수 적고 클럭 높음. AI에는 비효율.
  • GPU: 수천 개 작은 코어로 병렬 연산. 학습·대형 추론에 강함. 전력 소모 큼.
  • NPU: 행렬·MAC 연산에 특화된 전용 가속기. 모바일·온디바이스 AI에 강함. 전력당 성능(W당 TOPS)이 GPU보다 훨씬 우수.

어디에 쓰이나

  • 스마트폰: 사진 후처리, 음성 인식, 실시간 번역, 온디바이스 LLM. 애플 Neural Engine, 갤럭시 엑시노스 NPU, 퀄컴 Hexagon, 구글 Tensor TPU/NPU 등.
  • PC·노트북: 마이크로소프트의 ‘Copilot+ PC’ 기준은 40 TOPS 이상의 NPU를 요구. 인텔 Core Ultra(Meteor Lake), AMD Ryzen AI, 퀄컴 Snapdragon X Elite 모두 NPU 내장.
  • 자율주행·로봇: 테슬라 HW4, 모빌아이 EyeQ, 엔비디아 Drive Thor — 차량용 NPU/SoC가 주행 인지·계획을 담당.
  • IoT·CCTV: 저전력 엣지 AI 카메라, 음성 비서, 산업 검사 — 저전력·온디바이스 추론 수요 증가.

최신 동향 (2024-2025)

  • Copilot+ PC 시대: MS가 2024년 5월 NPU 40 TOPS 이상을 요구하는 ‘Copilot+ PC’ 카테고리를 공식화하면서 PC NPU가 사양 경쟁의 중심으로 부상.
  • 모바일 NPU: 애플 A18 Pro Neural Engine 35 TOPS, 갤럭시 S24 엑시노스 2400 NPU/스냅드래곤 8 Gen 3 Hexagon 등 모두 온디바이스 LLM(2~7B) 추론을 목표.
  • 국내 AI 반도체: 리벨리온(ATOM·REBEL), 사피온, 퓨리오사AI(RNGD), 텔레칩스 등이 데이터센터·엣지 NPU 양산. 네이버·삼성과 공동 개발 가속.
  • 저정밀 추론(FP8·INT4): 양자화 기법 발전으로 NPU의 전력당 성능이 빠르게 향상되며 온디바이스 LLM이 현실화.

자주 묻는 질문

용도가 다릅니다. 대규모 학습은 GPU(엔비디아 H100·B200)가 우위, 모바일·노트북에서 실시간 추론·온디바이스 AI는 NPU가 우위입니다. 데이터센터 추론도 점차 NPU 계열(Inferentia·TPU·국내 ATOM)로 옮겨가는 추세입니다.

TOPS(Tera Operations Per Second)는 초당 1조 회 연산을 의미합니다. 단, INT8·INT4 등 정밀도에 따라 같은 TOPS도 의미가 달라 비교 시 동일 정밀도 기준으로 봐야 합니다. Copilot+ PC 기준 ’40 TOPS’는 INT8 기준입니다.

Microsoft가 2024년 5월 발표한 NPU 40 TOPS 이상 PC 카테고리입니다. Recall·Cocreator·라이브 캡션 같은 온디바이스 AI 기능이 NPU에서 구동됩니다. 첫 라인업은 Snapdragon X Elite 기반이었고, 이후 인텔·AMD가 합류했습니다.

리벨리온이 2024년 데이터센터용 ‘REBEL’ 칩 공개·삼성 파운드리 4nm 양산을 발표했고, 사피온은 SKT 자회사로 클라우드 추론 가속에 집중합니다. 퓨리오사AI는 RNGD 칩으로 LLM 추론을 타깃하고, 텔레칩스는 차량용 NPU를 양산 중입니다.

예. 애플 Apple Intelligence, 갤럭시 AI, Copilot+ PC가 그것이며 별도 설치 없이 OS 기능으로 사용됩니다. 개발자는 Core ML, DirectML, ONNX Runtime, QNN(Qualcomm), Intel OpenVINO 등으로 NPU에 접근해 자체 모델을 돌릴 수 있습니다.

최종 업데이트: 2024-12 — Copilot+ PC, A18 Pro Neural Engine, 리벨리온 REBEL 등 반영.