LPU에 대하여 : Groq

750 토큰/초

Groq LPU 최대 속도

5~10배

H100 대비 추론 속도

230MB

온칩 SRAM

$28억

Groq 기업가치 (2024)

한눈에 보기 (TL;DR)

LPU(Language Processing Unit)는 Groq이 만든 추론 전용 AI 칩으로, NVIDIA H100보다 5~10배 빠른 LLM 추론을 제공한다.
비결은 온칩 SRAM 230MB와 결정적(deterministic) 연산 스케줄링 — 메모리 병목을 제거해 Llama 3-70B에서 초당 300~750 토큰을 낸다.
창업자 조나단 로스는 구글 TPU 첫 버전을 만든 엔지니어로, 2024년 사우디 PIF 6.4억 달러 투자로 기업가치 28억 달러에 도달했다.
AI 비용 구조가 학습에서 추론으로 이동하며 OpenAI·AWS·MS도 자체 추론 칩 개발 중 — LPU는 이 흐름의 첫 신호탄이다.

Key Facts — LPU(Groq)

항목	내용
개발사	Groq (2016 설립, 美 캘리포니아)
창업자	Jonathan Ross (전 구글 TPU 핵심)
핵심 기술	온칩 SRAM 230MB, 결정적 연산
Llama 3-70B 속도	초당 300~750 토큰
H100 대비	추론 5~10배 빠름
기업가치(2024)	약 28억 달러
주요 투자자	사우디 PIF, BlackRock

출처: Groq 공식 백서, 사우디 PIF 발표(2024-08), MLPerf Inference 벤치마크

핵심 인사이트

GPU가 학습을 풀었다면 LPU는 추론을 푼다. 같은 모델을 10배 빠르게 응답시키는 칩의 가치는 단순한 속도가 아니라 ‘실시간 음성 비서·AI 에이전트’라는 새 응용을 가능하게 만드는 데 있다. AI 인프라의 다음 격전지는 추론이며, 2025년 LPU·Inferentia·Maia 경쟁이 시장 구조를 바꿀 것이다.

LPU(Language Processing Unit) — 추론 속도로 GPU를 깬 칩

2024년 2월 미국 스타트업 Groq이 공개한 LPU(Language Processing Unit)는 — 같은 LLM(예: Llama 70B)을 NVIDIA H100보다 5~10배 빠르게 추론한다고 발표하며 AI 칩 시장에 충격을 줬습니다. ChatGPT가 글자를 한 자씩 토해내는 것을 보고 있을 때 Groq에서는 한 줄이 순식간에 떠오르는 차이가 납니다. Llama 3-70B 기준 초당 300~750 토큰으로, GPT-4 평균(약 40 토큰/초)의 10~20배입니다.

왜 그렇게 빠른가

일반 GPU는 메모리(HBM)와 연산부가 분리돼 매번 데이터 운반 비용이 듭니다. LPU는 온칩 SRAM 230MB를 칩 안에 통합하고, 모든 연산 순서를 컴파일 단계에서 결정적(deterministic)으로 미리 정합니다. 결과적으로 메모리 병목과 대기 시간이 거의 사라져 추론에서 압도적 속도가 나옵니다.

Groq의 역사 — 구글 TPU 출신이 만든 스타트업

Groq은 2016년 조나단 로스(Jonathan Ross)가 창업했습니다. 그는 구글에서 TPU(Tensor Processing Unit)의 첫 버전을 만든 핵심 엔지니어로, TPU에서 배운 통찰을 LPU에 적용했습니다. 2024년 기준 누적 투자 6억 4천만 달러, 기업가치 약 28억 달러로 평가됩니다.

GPU vs LPU 비교

NVIDIA H100 (GPU): 학습 강점, 범용성 높음, HBM3 메모리, 약 40~50 토큰/초 추론.
Groq LPU: 추론 전용, 온칩 SRAM 230MB, 300~750 토큰/초 추론. 학습은 GPU 위주, 추론은 LPU로 분담하는 구조 가능.
전력 효율: 추론 W당 토큰 처리량에서 LPU가 GPU 대비 약 10배 우위.

왜 중요한가

AI 시대의 비용 구조가 학습보다 추론으로 이동하고 있습니다. ChatGPT가 매일 수억 건의 응답을 만들 때 추론 비용이 학습 비용을 압도합니다. LPU 같은 추론 전용 칩은 — ① 응답 속도 향상으로 사용자 경험 개선, ② 클라우드 비용 절감, ③ 음성·실시간 에이전트 같은 새 응용 가능성을 엽니다. 2024년 OpenAI도 자체 추론 칩 개발에 착수했고, AWS Inferentia·Microsoft Maia 등 빅테크 자체 추론 칩이 줄지어 등장 중입니다.

한계

모델 크기 제한: 온칩 SRAM이 작아 70B 이상 모델은 여러 칩을 묶어 처리. 칩당 비용 부담.
학습 부적합: 추론 전용, 새 모델 학습은 여전히 GPU.
소프트웨어 생태계: NVIDIA CUDA 같은 풍부한 생태계가 아직 없음.

자주 묻는 질문

당장은 아닙니다. 학습은 GPU의 병렬 행렬곱이 더 적합하고, 추론은 LPU가 우위입니다. 미래의 AI 인프라는 ‘학습은 GPU, 추론은 LPU·Inferentia·Maia 같은 전용 칩’ 식의 분업 구조가 될 가능성이 큽니다.

Groq Cloud(groq.com)에서 무료 API를 제공해 Llama 3·Mixtral·Gemma 등 오픈소스 LLM의 빠른 추론을 직접 체감할 수 있습니다. ChatGPT와 비교해 명백히 빠른 응답을 확인할 수 있습니다.

AI 비용 구조가 학습에서 추론으로 이동하기 때문입니다. ChatGPT가 매일 수억 건의 응답을 만들면 누적 추론 비용이 학습 비용을 압도합니다. 같은 모델을 5배 빠르고 5배 저렴하게 추론할 수 있다면 — 그 자체로 매출과 사용성에 직결됩니다.

네. 리벨리온(ATOM·REBEL)·퓨리오사AI(WARBOY·RNGD·2025년 출시 예정)·사피온(X330) 등이 한국의 AI 추론 칩 기업이며, 2024년 일부 글로벌 데이터센터 채택 사례가 등장했습니다.

전혀 다릅니다. Groq(g-r-o-q)은 2016년 조나단 로스가 창업한 추론 칩 회사이고, Grok은 일론 머스크의 X.AI가 만든 LLM입니다. 이름이 비슷해 자주 혼동되며 Groq이 먼저 상표권을 가져 X.AI에 항의한 적이 있습니다.

최종 업데이트: 2024-12 — Groq Cloud 사용자 60만 명+, 사우디 PIF 6.4억 달러, Llama 3.1 405B 지원 반영.