LPU에 대하여 : Groq

LPU(Language Processing Unit)의 개발과 기능, 그리고 이와 관련된 기술적 발전에 초점을 맞춥니다. LPU는 자연어 처리에 특화된 하드웨어 또는 소프트웨어 모듈을 의미하며, 복잡한 언어 모델을 효율적으로 처리하는 데 사용됩니다. Nvidia와 Groq 같은 회사들은 이 분야에서 중요한 역할을 하고 있으며, 특히 Groq의 최신 LPU 개발은 엄청난 처리 속도와 효율성을 자랑합니다. 이러한 기술적 진보는 자연어 이해 및 생성, 음성 인식, 챗봇 등 다양한 응용 프로그램에서 컴퓨터의 성능을 혁신적으로 향상시킬 수 있습니다.

LPU : 경이로운 처리 속도의 Groq

최근 모두가 Nvidia의 엄청난 주식 상승에 놀라고 있습니다. 현재 진행중이기도 한 Nvidia의 주가는 1년 전 대비 265% 이상 상승했습니다(아직도 진행중입니다.). 또한 Nvidia는 4분기에 220억 달러의 수익을 보고했습니다. 이것은 전적으로 AI 용 GPU 칩의 독점과 엄청난 수익성에 기인한 결과입니다. 하지만 대규모 언어 모델(LLM)을 위한 다양한 업체의 도전도 간과할수 없습니다. 특히 지난주에 소설 미디어에서 이슈간 된 스타트업 LPU 업체 Groq이 있습니다. 여기서 LPU에 대해 알아보는 시간을 가져보겠습니다.

LPU(Language Processing Unit)란 언어 처리 유닛을 의미하며, 자연어 처리(Natural Language Processing, NLP)에 특화된 하드웨어 또는 소프트웨어 모듈을 말합니다. 이 기술은 인간의 언어를 컴퓨터가 이해하고 해석할 수 있게 하여, 텍스트 번역, 음성 인식, 감성 분석, 챗봇과 같은 응용 프로그램에서 사용됩니다. LPU는 복잡한 언어 모델을 빠르고 효율적으로 처리할 수 있도록 설계되었습니다.

AI 칩 경쟁: Groq CEO, Nvidia와 대결, 대부분의 스타트업이 2024년 말까지 빠른 LPU를 사용할 것이라고 주장합니다.

이번 주 Grok 회사의 제품 공개는 놀라웠습니다. HyperWrite의 CEO인 Matt Shumer가 X에 Groq에 대하여 “경이로운 기술”이라며 놀라워했고, “거의 500 tok/s로 (보통 LLM이 초당 제공하는 결과 단어의 속도:ChatGPT가 초당 10-20tok/s) Mixtral(오픈소스 sLLM 중의 하나) 결과물을 제공한다”고 X에 포스팅 했습니다.

Shumer는 X에서 “번개처럼 빠른 답변 엔진”에 대한 실제 데모를 이어가며 “1초도 안 되는 시간에 수백 단어로 된 사실적이고 출처가 명시된 답변을 보여준다”고 포스팅했고, 갑자기 모든 AI 관련자들이 Groq의 채팅 앱에 대해 이야기하고 이를 시도해보기 시작했습니다. 이 앱은 사용자가 Llama와 Mistral의 오픈소스 LLMs로부터 제공되는 출력을 사용자가 선택할 수 있게 합니다.

이 모든 것은 Groq의 CEO이자 창립자인 Jonathan Ross가 한 주 전 CNN 인터뷰에서 “속도 기록을 깨는” Groq의 채팅 인터페이스 구동을 기반으로 합니다.

아직은 어떠한 회사도 Nvidia의 지배적 위치에 도전할 수는 없습니다 — Nvidia는 고급 칩 시장의 80% 이상을 차지하며, SambaNova와 Cerebras와 같은 다른 AI 칩 스타트업들은 LLMs 추론분야에서 큰 진전을 이루지 못했습니다. 그러나 Groq의 CEO이자 창립자인 Jonathan Ross는 인터뷰에서 LLM 사용을 위한 “초고속”, 비용 효율적인 대안으로서 그의 스타트업의 제안이 기존의 고 비용 시장에서 매력적일 수 있다고 말했습니다.

Ross는 대담하게 “우리가 아마도 올해 말까지 대부분의 스타트업이 사용하는 인프라가 될 것”이라고 말하며 “우리는 스타트업에 매우 우호적이니 연락주시면 다른 곳에서 보다 적은 비용을 지불하도록 하겠습니다”라고 덧붙였습니다.

Groq LPUs 대 Nvidia GPUs

Groq의 웹사이트는 LPUs, 즉 ‘언어 처리 유닛’을 “AI 언어 애플리케이션(예: LLMs) 같은 순차적 구성 요소가 있는 계산 집약적 애플리케이션을 위한 가장 빠른 추론을 제공하는 새로운 종류의 엔드투엔드 처리 유닛 시스템”으로 설명합니다.

반면, Nvidia GPU는 LLM만을 목적으로 하는 것이 아닌 병렬 그래픽 처리에 최적화되어 있습니다. Groq의 LPUs는 코드와 자연어 같은 데이터의 순차적 처리 목적으로 특별히 설계되었기 때문에, GPU나 CPU가 어려움을 겪는 두 영역, 즉 계산 밀도와 메모리 대역폭을 우회하여 LLM 출력을 더 빠르게 제공할 수 있습니다.

또한, 채팅 인터페이스 측면에서 Ross는 Groq이 모델을 훈련하지 않으며, 따라서 데이터를 로깅할 필요가 없어 채팅 쿼리를 비공개로 유지할 수 있다고 주장함으로써 OpenAI와 같은 회사와 차별화된다고 주장합니다.

Groq 칩을 사용한다면 ChatGPT가 13배 이상 빨라질 것으로 추정되는데, OpenAI이 Groq과 파트너가 될 수 있을까요? Ross는 구체적으로 언급하지 않았지만, Groq 오디오 채팅 인터페이스의 데모 버전은 “양측에 상호 이익이 있다면 협력이 가능하다. OpenAI는 언어 처리 프로젝트를 위해 LPU의 독특한 기능을 활용하는 데 관심이 있을 수 있으며, 유사한 목표를 공유한다면 흥미로운 파트너십이 될 것”이라고 말했습니다.

Groq의 LPUs는 정말 AI 추론 분야의 게임 체인저인가?

Ross와의 인터뷰는 몇 달 전부터 계획되어 있었습니다. 회사의 PR 대표가 저에게 지난 12월 중순에 Groq을 “AI 경쟁에서 승리할 준비가 된 미국 칩 메이커”라고 소개하며 연락했을 때부터 관심이 있었습니다. 저는 궁금했지만, 통화할 시간이 없었습니다.

하지만 이제는 시간을 내서 알아보았습니다: Groq이 단지 “PR 주목만 필요한” 빠르게 변화하는 AI 홍보 사이클의 최신 참가자인지, Groq의 LPUs가 정말로 AI 추론 분야의 게임 체인저인지, 그리고 특정 기술 하드웨어에 대한 갑작스로운 시장의 주목 이후 Ross와 그의 작은 200인 팀(그들은 자신들을 ‘Groqsters’라고 부릅니다)에게 어떤 일이 있었는지 알고 싶었습니다.

Shumer의 게시물은 “도화선에 불을 붙인 성냥”이었다고 Ross는 파리 호텔에서의 화상 통화에서 저에게 말했습니다. 그는 몇 달 전부터 여러 번 “시장에서 이슈가 된적이 있는” 프랑스 오픈 소스 LLM 스타트업 Mistral 팀과 점심을 막 먹고 나왔습니다.

그는 Shumer의 게시물 24시간 내에 3000명 이상의 사람들이 Groq에 API 접근을 요청했다고 추정했지만, 웃으며 “우리는 그들에게 비용을 청구하지 않고 있습니다. 왜냐하면 우리는 비용 시스템을 설정하지 않았기 때문에, 우리는 그냥 사람들이 현재 무료로 사용하도록 하고 있습니다”라고 덧붙였습니다.

하지만 Ross는 실리콘밸리에서 스타트업을 운영하는 일에서는 초보자가 아닙니다 — 그는 2016년에 Groq을 창립한 이후로 Groq의 기술 잠재력에 대해 계속해서 알려왔습니다. 구글 검색은 2021년의 Forbes 기사를 발굴해냈는데, 이 기사는 Groq의 3억 달러 규모의 펀드 모금 라운드와 Ross가 구글의 텐서 처리 유닛, 또는 TPU를 공동 발명한 후 구글을 떠나 2016년에 Groq을 창립한 배경에 대해 자세히 설명했습니다.

Groq에서 Ross와 그의 팀은 그가 “매우 이례적인 칩”이라고 부르는 것을 만들었습니다. 왜냐하면 “당신이 차를 만들 때, 엔진으로 시작할 수도 있고 운전 경험으로 시작할 수도 있습니다. 그리고 우리는 운전 경험으로 시작했습니다 — 우리는 칩을 설계하기 전에 처음 6개월 동안 컴파일러 작업에 집중했습니다.”

현재 Nvidia GPU 확보에 대한 시장 갈망을 충족시키는 것은 큰 사업이며, 그 자체가 바로 AI 산업 전반에 걸쳐 중요한 사업이 되고 있습니다.

이는 새로운 GPU 클라우드 유니콘 회사들을 강력하게 필요로 하는 시장이 형성되고 있습니다. 이런 상황속에서 OpenAI CEO 샘 알트먼이 AI 칩 세계를 재편하기 위해 7조 달러에 달하는 프로젝트를 추진하고 있다는 Wall Street Journal 보도가 시장에서 충격을 주고 있는 상황입니다. — 반도체 패권을 위한 복잡한 지정학적 배경이 있는 프로젝트이기도 합니다.

Ross는 현재 GPU 공간에서 일어나고 있는 일부가 실제로 Groq이 하고 있는 일에 대한 반응이라고 주장합니다. 그는 또한 알트먼이 거대한 AI 칩 프로젝트를 위해 최대 7조 달러를 모으려는 노력에 대해 대담하게 반박했습니다. “우리는 그것을 7000억 달러로 할 수 있다는 것입니다,” 그는 말했습니다. “우리는 헐값입니다.”

그는 또한 Groq이 AI 칩 공급에 기여할 것이며, 충분한 용량을 확보할수 있다고 덧붙였습니다.

“올해 말까지 우리는 확실히 초당 2500만 토큰 처리 용량을 확보 할 것입니다. 이는 우리가 2023년 말에 OpenAI가 처리하는 양과 같은 것입니다.” 그는 말했습니다. 그리고 “우리의 기술은 인공지능 기술에 관심있는 모든국가에 도움이 될 것입니다.” 라고 주장합니다.

하지만 한편으로, Groq은 지난주 “갑자기 주목받은” 순간 이후에 API에 대한 비용 모델 과 같은 일상적인 문제를 해결해야 합니다. Ross가 Groq의 API 유료 모델에 대해 계획이 있는지 물었을 때, Ross는 “우리는 그것을 살펴볼 것입니다”라고 말했습니다.

VentureBeat 기사 참고
LPU

그리고 LPU가 가장 필요로 하는 NLP(자연어처리 프로세싱) 기술의 역사는 1950년대로 거슬러 올라가며, 초기에는 간단한 규칙 기반 시스템에서 시작되어 점차 기계 학습 방법론으로 발전했습니다. 2010년대에 들어서면서 딥러닝 기술의 발전과 함께 NLP 분야는 급속도로 발전하였고, 특히 NLP를 바탕으로 LLMs에서의 추론은 기술적으로 중요한 분야입니다. 이에 따라 언어 처리를 위한 전용 하드웨어의 필요성이 대두되기 시작합니다.

LLMs에서의 추론은?

인공지능(AI)에서, 특히 GPT(Generative Pre-trained Transformer)와 같은 대형 언어 모델(LLMs)에서의 추론은 입력 데이터를 이해하고 추론하는 과정을 바탕으로 응답을 생성하는 과정을 말합니다. 이는 공제(deduction), 귀납(induction), 연역(abduction) 등 다양한 인지 과정을 포함하여 정보를 이해하고 해석하며 예측하는 것을 포함합니다. 여기서 LLMs에서의 추론이 어떻게 나타나는지 설명하겠습니다:

  1. 공제적 추론(Deductive Reasoning): 이는 일반적인 규칙을 특정 사례에 적용하여 결론을 도출하는 과정입니다. LLMs는 훈련 데이터에서 학습한 패턴과 규칙을 새로운 질의에 적용함으로써 공제적 추론을 사용합니다. 예를 들어, LLM이 “모든 새는 날 수 있다”(일반 규칙)라는 것을 알고 있고, “참새는 새이다”(특정 사례)라는 정보를 주어졌을 때, “참새는 날 수 있다”라고 결론지을 수 있습니다.
  2. 귀납적 추론(Inductive Reasoning): 이는 특정 예시나 데이터로부터 일반적인 결론을 도출하는 과정입니다. LLMs는 훈련 데이터에서 본 패턴을 일반화하여 새롭고 보지 못한 사례에 적용함으로써 귀납적 추론을 수행합니다. 예를 들어, LLM이 많은 새와 그들이 날 수 있는 능력에 대한 예시를 보았다면, 명시적으로 가르치지 않았더라도 새로 소개된 새 종이 날 수 있다고 추론할 수 있습니다.
  3. 연역적 추론(Abductive Reasoning): 이는 관찰에서 시작하여 가장 간단하고 가장 가능성 높은 설명을 찾는 과정입니다. AI에서 연역적 추론은 LLMs가 직접 훈련되지 않은 특정 시나리오에 대한 가설이나 설명을 생성하는 데 도움을 줍니다. 이는 창의적 문제 해결과 가설 생성의 형태입니다.
  4. 유추적 추론(Analogical Reasoning): 이 유형의 추론은 다른 도메인에 대한 유사성을 바탕으로 문제를 해결하거나 개념을 이해하는 과정입니다. LLMs는 알려진 관계를 하나의 맥락에서 새롭고 유사한 맥락으로 매핑하여 유추를 도출하고 예측을 만듭니다.
  5. 상식적 추론(Commonsense Reasoning): 이는 일반적인 상황에 대한 일반 지식을 바탕으로 인간이 하는 것처럼 세계에 대해 가정하는 능력입니다. LLMs는 훈련된 방대한 양의 일반 지식을 활용하여 새로운 또는 불완전한 정보에 대해 타당한 가정을 할 수 있도록 시도합니다.

LLMs는 인터넷, 책, 기사 등에서 얻은 다양하고 방대한 데이터셋에 대한 훈련을 통해 이러한 추론 능력을 달성합니다. 훈련 과정은 신경망의 가중치를 예측 오류를 바탕으로 조정하는 것을 포함하며, 시간이 지남에 따라 새로운 입력에 대한 추론 능력을 향상시킵니다. 그러나 LLMs가 추론 과정을 모방할 수는 있지만, 그들의 “이해”는 의식적인 사고나 인식이 아니라 데이터의 통계적 패턴에 기반한다는 점을 유념하는 것이 중요합니다.

최근 기술 및 선두 업체

최근 NLP 분야는 트랜스포머(Transformer) 모델과 같은 딥러닝 아키텍처의 발전에 힘입어 큰 진보를 이루었습니다. 이러한 복잡한 모델들은 많은 양의 데이터를 처리해야 하며, 이를 위해서는 고성능의 컴퓨팅 자원이 필요합니다. LPU와 같은 전용 하드웨어는 이러한 요구를 충족시키기 위해 등장했습니다.

  • 구글(Google): 구글은 자체 개발한 TPU(Tensor Processing Unit)를 사용하여 NLP를 포함한 다양한 딥러닝 작업을 가속화합니다. TPU는 대규모 딥러닝 모델의 학습과 추론을 빠르고 효율적으로 처리할 수 있도록 설계되었습니다.
  • 엔비디아(NVIDIA): 엔비디아는 GPU를 활용하여 딥러닝 및 NLP 작업을 가속화합니다. 특히, 그들의 CUDA 플랫폼은 병렬 처리를 통해 대규모 언어 모델의 학습과 추론을 가속화할 수 있게 합니다.
  • 인텔(Intel): 인텔은 Nervana NNP(Neural Network Processor)와 같은 전용 AI 하드웨어를 통해 NLP 작업을 지원합니다. 이들은 고성능 컴퓨팅과 인공 지능 작업을 위해 최적화된 프로세서를 제공합니다.

Groq

Groq은 인공 지능(AI) 및 머신 러닝(ML) 알고리즘을 실행하기 위한 고성능 컴퓨팅 솔루션을 개발하는 기술 회사입니다. 이 회사는 특히 자체 개발한 특수 목적의 하드웨어 및 소프트웨어를 통해 AI 연산의 속도와 효율성을 혁신적으로 개선하는 것을 목표로 하고 있습니다. 또한 최근 엄청난 연산속도를 자랑하는 서비스를 오픈하였습니다.

창립 배경과 역사

Groq은 구글의 TPU(Tensor Processing Unit)를 공동 개발한 엔지니어들에 의해 2016년경에 창립되었습니다. 이들은 TPU 개발 과정에서 얻은 경험과 지식을 바탕으로 더욱 발전된 AI 하드웨어를 만들기 위해 Groq을 설립했습니다.

주요 제품과 기술

Groq의 핵심 제품은 AI 및 ML 작업을 위해 최적화된 프로세서입니다. 이 프로세서는 병렬 처리 및 고속 데이터 전송에 특화되어 있으며, 대규모 데이터 세트를 사용하는 딥러닝 모델의 학습과 추론을 가속화합니다. Groq의 기술은 자율주행차, 데이터 센터, 클라우드 컴퓨팅 등 다양한 분야에서 응용될 수 있습니다.

차별화된 접근 방식

Groq은 기존의 GPU나 다른 AI 전용 하드웨어와 다르게, 단순화된 아키텍처와 소프트웨어를 중심으로 설계되었습니다. 이를 통해 개발자들은 더 적은 코드로 AI 모델을 효율적으로 실행할 수 있으며, 이는 개발 시간 단축과 성능 향상에 기여합니다.

시장에서의 위치와 전망

AI 하드웨어 시장은 NVIDIA, Intel, Google 등 대형 기술 회사들이 경쟁하고 있는 공간입니다. Groq은 이러한 경쟁 속에서도 독특한 아키텍처와 성능으로 주목받으며, 특히 AI 추론 작업의 속도와 효율성을 높이는 분야에서 강점을 보이고 있습니다. 또한, AI 기술의 발전과 함께 다양한 산업 분야로의 확장 가능성이 기대되며, 지속적인 기술 혁신을 통해 시장에서 중요한 위치를 차지할 것으로 예상됩니다.

Groq은 AI 기술의 미래를 형성하는 데 중요한 역할을 할 기술력과 혁신적인 접근 방식을 갖춘 회사로 평가받고 있습니다.

결론

LPU와 같은 언어 처리 유닛은 NLP의 복잡성과 처리량을 감당하기 위한 좋은 선택지 일수 있습니다. 최근의 엔비디아 GPU 품귀 현상이 이러한 LPU에 대한 관심도 증가시키고 있습니다. 또한 이러한 기술의 발전은 자연어 이해와 생성을 포함한 다양한 분야에서 컴퓨터의 성능을 혁신적으로 향상시킬수 있으며, 앞으로 NLP 기술의 발전과 함께 지속적으로 진화할 것으로 예상되는 분야입니다.