750 토큰/초
Groq LPU 최대 속도
5~10배
H100 대비 추론 속도
230MB
온칩 SRAM
$28억
Groq 기업가치 (2024)
한눈에 보기 (TL;DR)
- LPU(Language Processing Unit)는 Groq이 만든 추론 전용 AI 칩으로, NVIDIA H100보다 5~10배 빠른 LLM 추론을 제공한다.
- 비결은 온칩 SRAM 230MB와 결정적(deterministic) 연산 스케줄링 — 메모리 병목을 제거해 Llama 3-70B에서 초당 300~750 토큰을 낸다.
- 창업자 조나단 로스는 구글 TPU 첫 버전을 만든 엔지니어로, 2024년 사우디 PIF 6.4억 달러 투자로 기업가치 28억 달러에 도달했다.
- AI 비용 구조가 학습에서 추론으로 이동하며 OpenAI·AWS·MS도 자체 추론 칩 개발 중 — LPU는 이 흐름의 첫 신호탄이다.
Key Facts — LPU(Groq)
| 항목 | 내용 |
|---|---|
| 개발사 | Groq (2016 설립, 美 캘리포니아) |
| 창업자 | Jonathan Ross (전 구글 TPU 핵심) |
| 핵심 기술 | 온칩 SRAM 230MB, 결정적 연산 |
| Llama 3-70B 속도 | 초당 300~750 토큰 |
| H100 대비 | 추론 5~10배 빠름 |
| 기업가치(2024) | 약 28억 달러 |
| 주요 투자자 | 사우디 PIF, BlackRock |
출처: Groq 공식 백서, 사우디 PIF 발표(2024-08), MLPerf Inference 벤치마크
핵심 인사이트
GPU가 학습을 풀었다면 LPU는 추론을 푼다. 같은 모델을 10배 빠르게 응답시키는 칩의 가치는 단순한 속도가 아니라 ‘실시간 음성 비서·AI 에이전트’라는 새 응용을 가능하게 만드는 데 있다. AI 인프라의 다음 격전지는 추론이며, 2025년 LPU·Inferentia·Maia 경쟁이 시장 구조를 바꿀 것이다.
LPU(Language Processing Unit) — 추론 속도로 GPU를 깬 칩
2024년 2월 미국 스타트업 Groq이 공개한 LPU(Language Processing Unit)는 — 같은 LLM(예: Llama 70B)을 NVIDIA H100보다 5~10배 빠르게 추론한다고 발표하며 AI 칩 시장에 충격을 줬습니다. ChatGPT가 글자를 한 자씩 토해내는 것을 보고 있을 때 Groq에서는 한 줄이 순식간에 떠오르는 차이가 납니다. Llama 3-70B 기준 초당 300~750 토큰으로, GPT-4 평균(약 40 토큰/초)의 10~20배입니다.
왜 그렇게 빠른가
일반 GPU는 메모리(HBM)와 연산부가 분리돼 매번 데이터 운반 비용이 듭니다. LPU는 온칩 SRAM 230MB를 칩 안에 통합하고, 모든 연산 순서를 컴파일 단계에서 결정적(deterministic)으로 미리 정합니다. 결과적으로 메모리 병목과 대기 시간이 거의 사라져 추론에서 압도적 속도가 나옵니다.
Groq의 역사 — 구글 TPU 출신이 만든 스타트업
Groq은 2016년 조나단 로스(Jonathan Ross)가 창업했습니다. 그는 구글에서 TPU(Tensor Processing Unit)의 첫 버전을 만든 핵심 엔지니어로, TPU에서 배운 통찰을 LPU에 적용했습니다. 2024년 기준 누적 투자 6억 4천만 달러, 기업가치 약 28억 달러로 평가됩니다.
GPU vs LPU 비교
- NVIDIA H100 (GPU): 학습 강점, 범용성 높음, HBM3 메모리, 약 40~50 토큰/초 추론.
- Groq LPU: 추론 전용, 온칩 SRAM 230MB, 300~750 토큰/초 추론. 학습은 GPU 위주, 추론은 LPU로 분담하는 구조 가능.
- 전력 효율: 추론 W당 토큰 처리량에서 LPU가 GPU 대비 약 10배 우위.
왜 중요한가
AI 시대의 비용 구조가 학습보다 추론으로 이동하고 있습니다. ChatGPT가 매일 수억 건의 응답을 만들 때 추론 비용이 학습 비용을 압도합니다. LPU 같은 추론 전용 칩은 — ① 응답 속도 향상으로 사용자 경험 개선, ② 클라우드 비용 절감, ③ 음성·실시간 에이전트 같은 새 응용 가능성을 엽니다. 2024년 OpenAI도 자체 추론 칩 개발에 착수했고, AWS Inferentia·Microsoft Maia 등 빅테크 자체 추론 칩이 줄지어 등장 중입니다.
한계
- 모델 크기 제한: 온칩 SRAM이 작아 70B 이상 모델은 여러 칩을 묶어 처리. 칩당 비용 부담.
- 학습 부적합: 추론 전용, 새 모델 학습은 여전히 GPU.
- 소프트웨어 생태계: NVIDIA CUDA 같은 풍부한 생태계가 아직 없음.
최신 동향 (2024-2025)
- Groq Cloud (2024-02 출시): 누구나 API로 LPU 추론 사용 가능. 2024년 1년 만에 사용자 60만 명 돌파.
- 사우디 자본 투자 (2024-08): 사우디 국부펀드(PIF) 6억 4천만 달러 투자, 사우디에 LPU 데이터센터 건설 계획.
- Llama 3.1 405B 추론 지원(2024-07): 가장 큰 오픈소스 모델 추론 가능 입증.
- 경쟁 칩: SambaNova RDU, Cerebras WSE, Tenstorrent — 추론 전용 칩 시장 본격 형성.
자주 묻는 질문
최종 업데이트: 2024-12 — Groq Cloud 사용자 60만 명+, 사우디 PIF 6.4억 달러, Llama 3.1 405B 지원 반영.