LPU에 대하여 : Groq

LPU(Language Processing Unit)의 개발과 기능, 그리고 이와 관련된 기술적 발전에 초점을 맞춥니다. LPU는 자연어 처리에 특화된 하드웨어 또는 소프트웨어 모듈을 의미하며, 복잡한 언어 모델을 효율적으로 처리하는 데 사용됩니다. Nvidia와 Groq 같은 회사들은 이 분야에서 중요한 역할을 하고 있으며, 특히 Groq의 최신 LPU 개발은 엄청난 처리 속도와 효율성을 자랑합니다. 이러한 기술적 진보는 자연어 이해 및 생성, 음성 인식, 챗봇 등 다양한 응용 프로그램에서 컴퓨터의 성능을 혁신적으로 향상시킬 수 있습니다.

750 토큰/초

Groq LPU 최대 속도

5~10배

H100 대비 추론 속도

230MB

온칩 SRAM

$28억

Groq 기업가치 (2024)

한눈에 보기 (TL;DR)

  1. LPU(Language Processing Unit)는 Groq이 만든 추론 전용 AI 칩으로, NVIDIA H100보다 5~10배 빠른 LLM 추론을 제공한다.
  2. 비결은 온칩 SRAM 230MB와 결정적(deterministic) 연산 스케줄링 — 메모리 병목을 제거해 Llama 3-70B에서 초당 300~750 토큰을 낸다.
  3. 창업자 조나단 로스는 구글 TPU 첫 버전을 만든 엔지니어로, 2024년 사우디 PIF 6.4억 달러 투자로 기업가치 28억 달러에 도달했다.
  4. AI 비용 구조가 학습에서 추론으로 이동하며 OpenAI·AWS·MS도 자체 추론 칩 개발 중 — LPU는 이 흐름의 첫 신호탄이다.

Key Facts — LPU(Groq)

항목내용
개발사Groq (2016 설립, 美 캘리포니아)
창업자Jonathan Ross (전 구글 TPU 핵심)
핵심 기술온칩 SRAM 230MB, 결정적 연산
Llama 3-70B 속도초당 300~750 토큰
H100 대비추론 5~10배 빠름
기업가치(2024)약 28억 달러
주요 투자자사우디 PIF, BlackRock

출처: Groq 공식 백서, 사우디 PIF 발표(2024-08), MLPerf Inference 벤치마크

핵심 인사이트

GPU가 학습을 풀었다면 LPU는 추론을 푼다. 같은 모델을 10배 빠르게 응답시키는 칩의 가치는 단순한 속도가 아니라 ‘실시간 음성 비서·AI 에이전트’라는 새 응용을 가능하게 만드는 데 있다. AI 인프라의 다음 격전지는 추론이며, 2025년 LPU·Inferentia·Maia 경쟁이 시장 구조를 바꿀 것이다.

LPU(Language Processing Unit) — 추론 속도로 GPU를 깬 칩

2024년 2월 미국 스타트업 Groq이 공개한 LPU(Language Processing Unit)는 — 같은 LLM(예: Llama 70B)을 NVIDIA H100보다 5~10배 빠르게 추론한다고 발표하며 AI 칩 시장에 충격을 줬습니다. ChatGPT가 글자를 한 자씩 토해내는 것을 보고 있을 때 Groq에서는 한 줄이 순식간에 떠오르는 차이가 납니다. Llama 3-70B 기준 초당 300~750 토큰으로, GPT-4 평균(약 40 토큰/초)의 10~20배입니다.

왜 그렇게 빠른가

일반 GPU는 메모리(HBM)와 연산부가 분리돼 매번 데이터 운반 비용이 듭니다. LPU는 온칩 SRAM 230MB를 칩 안에 통합하고, 모든 연산 순서를 컴파일 단계에서 결정적(deterministic)으로 미리 정합니다. 결과적으로 메모리 병목과 대기 시간이 거의 사라져 추론에서 압도적 속도가 나옵니다.

Groq의 역사 — 구글 TPU 출신이 만든 스타트업

Groq은 2016년 조나단 로스(Jonathan Ross)가 창업했습니다. 그는 구글에서 TPU(Tensor Processing Unit)의 첫 버전을 만든 핵심 엔지니어로, TPU에서 배운 통찰을 LPU에 적용했습니다. 2024년 기준 누적 투자 6억 4천만 달러, 기업가치 약 28억 달러로 평가됩니다.

GPU vs LPU 비교

  • NVIDIA H100 (GPU): 학습 강점, 범용성 높음, HBM3 메모리, 약 40~50 토큰/초 추론.
  • Groq LPU: 추론 전용, 온칩 SRAM 230MB, 300~750 토큰/초 추론. 학습은 GPU 위주, 추론은 LPU로 분담하는 구조 가능.
  • 전력 효율: 추론 W당 토큰 처리량에서 LPU가 GPU 대비 약 10배 우위.

왜 중요한가

AI 시대의 비용 구조가 학습보다 추론으로 이동하고 있습니다. ChatGPT가 매일 수억 건의 응답을 만들 때 추론 비용이 학습 비용을 압도합니다. LPU 같은 추론 전용 칩은 — ① 응답 속도 향상으로 사용자 경험 개선, ② 클라우드 비용 절감, ③ 음성·실시간 에이전트 같은 새 응용 가능성을 엽니다. 2024년 OpenAI도 자체 추론 칩 개발에 착수했고, AWS Inferentia·Microsoft Maia 등 빅테크 자체 추론 칩이 줄지어 등장 중입니다.

한계

  • 모델 크기 제한: 온칩 SRAM이 작아 70B 이상 모델은 여러 칩을 묶어 처리. 칩당 비용 부담.
  • 학습 부적합: 추론 전용, 새 모델 학습은 여전히 GPU.
  • 소프트웨어 생태계: NVIDIA CUDA 같은 풍부한 생태계가 아직 없음.

최신 동향 (2024-2025)

  • Groq Cloud (2024-02 출시): 누구나 API로 LPU 추론 사용 가능. 2024년 1년 만에 사용자 60만 명 돌파.
  • 사우디 자본 투자 (2024-08): 사우디 국부펀드(PIF) 6억 4천만 달러 투자, 사우디에 LPU 데이터센터 건설 계획.
  • Llama 3.1 405B 추론 지원(2024-07): 가장 큰 오픈소스 모델 추론 가능 입증.
  • 경쟁 칩: SambaNova RDU, Cerebras WSE, Tenstorrent — 추론 전용 칩 시장 본격 형성.

자주 묻는 질문

당장은 아닙니다. 학습은 GPU의 병렬 행렬곱이 더 적합하고, 추론은 LPU가 우위입니다. 미래의 AI 인프라는 ‘학습은 GPU, 추론은 LPU·Inferentia·Maia 같은 전용 칩’ 식의 분업 구조가 될 가능성이 큽니다.

Groq Cloud(groq.com)에서 무료 API를 제공해 Llama 3·Mixtral·Gemma 등 오픈소스 LLM의 빠른 추론을 직접 체감할 수 있습니다. ChatGPT와 비교해 명백히 빠른 응답을 확인할 수 있습니다.

AI 비용 구조가 학습에서 추론으로 이동하기 때문입니다. ChatGPT가 매일 수억 건의 응답을 만들면 누적 추론 비용이 학습 비용을 압도합니다. 같은 모델을 5배 빠르고 5배 저렴하게 추론할 수 있다면 — 그 자체로 매출과 사용성에 직결됩니다.

네. 리벨리온(ATOM·REBEL)·퓨리오사AI(WARBOY·RNGD·2025년 출시 예정)·사피온(X330) 등이 한국의 AI 추론 칩 기업이며, 2024년 일부 글로벌 데이터센터 채택 사례가 등장했습니다.

전혀 다릅니다. Groq(g-r-o-q)은 2016년 조나단 로스가 창업한 추론 칩 회사이고, Grok은 일론 머스크의 X.AI가 만든 LLM입니다. 이름이 비슷해 자주 혼동되며 Groq이 먼저 상표권을 가져 X.AI에 항의한 적이 있습니다.

최종 업데이트: 2024-12 — Groq Cloud 사용자 60만 명+, 사우디 PIF 6.4억 달러, Llama 3.1 405B 지원 반영.