LLM(AI 관련) 질문 50가지 : 면접 활용

LLM(대규모 언어 모델) 관련 직무 면접을 준비하는 과정에서 어텐션 메커니즘, LoRA, 토큰화 등 방대한 기술 개념에 대한 정보 탐색으로 어려움을 겪을때가 있습니다.

초기에는 기본적인 정보 탐색으로 시작했으나, 곧 블로그 게시물, 심층 연구 논문, 그리고 정작 필요한 정보는 부족하고 방대한 내용으로 이루어진 온라인 포럼 게시물 등 복잡한 정보의 미로에 직면하게 됩니다. 정보의 부재가 문제가 아니라, 오히려 정보가 과도하게 산재되어 있고, 지나치게 학술적이거나 전문 용어로 편향되어 있어 면접 준비 및 실제 업무 이해에 오히려 방해가 되는 상황이 발생합니다. 이는 정보 탐색의 효율성을 저해하는 주된 요인이 됩니다.

이러한 문제점을 해결하고자 글을 정리합니다. (이 자료는 https://medium.com/data-science-collective/top-ultimate-list-of-50-interview-question-master-llms-crack-your-next-interview-2227b77756ee를 참고했습니다.) 이 LLM 관련 질문들은 면접 및 실제 업무 환경에서 빈번하게 등장하는 핵심 50가지를 엄선하여 정리한 목록입니다. 각 질문에 대한 답변은 불필요한 설명을 배제하고, 핵심 내용을 명확하고 실용적인 관점에서 제시함으로써 학습자의 이해를 돕도록 구성되었습니다.

본 가이드는 LLM 관련 직무 면접을 준비하시거나, 관련 분야의 인재를 평가하는 면접관이시거나, 혹은 LLM의 실제 작동 방식에 대한 깊이 있는 이해를 추구하시는 모든 분들께 불필요한 정보 탐색 시간을 절약하고 가장 중요한 학습 목표에 집중할 수 있도록 지원할 것입니다. 복잡하고 파편화된 정보 속에서 벗어나, 본 가이드와 함께 LLM의 핵심 원리를 효율적으로 습득하기를 기원합니다.

질문 1: 토큰화란 무엇이며, LLM에게 왜 중요한가요?

토큰화는 텍스트를 단어, 하위 단어, 문자와 같은 더 작은 단위, 즉 토큰으로 분해하는 것을 포함합니다. 예를 들어, “artificial”은 “art”, “ific”, “ial”로 나눌 수 있습니다. LLM은 원시 텍스트가 아닌 토큰의 수치적 표현을 처리하기 때문에 이 과정은 매우 중요합니다. 토큰화를 통해 모델은 다양한 언어를 처리하고, 희귀하거나 알려지지 않은 단어를 관리하며, 어휘 크기를 최적화하여 계산 효율성과 모델 성능을 향상시킬 수 있습니다.

질문 2: 변압기 모델에서 주의 메커니즘은 어떻게 기능합니까?

어텐션 메커니즘은 LLM이 텍스트를 생성하거나 해석할 때 시퀀스 내 여러 토큰의 중요성을 평가할 수 있도록 합니다. 점곱과 같은 연산을 사용하여 쿼리, 키, 값 벡터 간의 유사도 점수를 계산하여 관련 토큰에 집중합니다. 예를 들어, “고양이가 쥐를 쫓았다”에서 어텐션은 모델이 “쥐”를
“쫓았다”와 연결하도록 돕습니다. 이 메커니즘은 맥락 이해를 향상시켜 변환기를 NLP 작업에 매우 효과적으로 만듭니다.

질문 3: LLM의 컨텍스트 창은 무엇이고, 왜 중요한가요?

컨텍스트 윈도우는 LLM이 한 번에 처리할 수 있는 토큰 수를 나타내며, 텍스트를 이해하거나 생성하는 데 필요한 “메모리”를 정의합니다. 32,000개 토큰과 같이 더 큰 윈도우를 사용하면 모델이 더 많은 컨텍스트를 고려할 수 있어 요약과 같은 작업의 일관성이 향상됩니다. 하지만 계산 비용이 증가합니다. 실질적인 LLM 배포를 위해서는 윈도우 크기와 효율성의 균형을 맞추는 것이 중요합니다.

질문 4: LLM을 미세 조정할 때 LoRA와 QLoRA의 차이점은 무엇입니까?

LoRA(Low-Rank Adaptation)는 모델 계층에 저랭크 행렬을 추가하여 최소한의 메모리 오버헤드로 효율적인 적응을 가능하게 하는 미세 조정 방법입니다. QLoRA는 양자화(예: 4비트 정밀도)를 적용하여 정확도를 유지하면서 메모리 사용량을 더욱 줄임으로써 이를 확장합니다. 예를 들어, QLoRA는 단일 GPU에서 70B 매개변수 모델을 미세 조정할 수 있으므로 리소스가 제한된 환경에 이상적입니다.

질문 5: 빔 검색은 탐욕적 디코딩에 비해 어떻게 텍스트 생성을 개선합니까?

빔 탐색은 텍스트 생성 과정에서 여러 단어 시퀀스를 탐색하여 각 단계에서 상위 k개의 후보(빔)를 유지하는 반면, 탐욕적 디코딩은 가장 가능성이 높은 단어만 선택합니다. 예를 들어 k = 5인 이 방식은 확률과 다양성의 균형을 맞춰 더욱 일관된 결과를 보장하며, 특히 기계 번역이나
대화 생성과 같은 작업에서 유용합니다.

질문 6: LLM 출력을 제어하는 데 온도는 어떤 역할을 합니까?

온도는 텍스트 생성 시 토큰 선택의 무작위성을 조정하는 하이퍼파라미터입니다. 낮은 온도(예: 0.3)는 높은 확률의 토큰을 선호하여 예측 가능한 출력을 생성합니다. 높은 온도(예: 1.5)는 확률 분포를 평탄화하여 다양성을 높입니다. 온도를 0.8로 설정하면 스토리텔링과 같은 작업에서 창의성과 일관성의 균형을 맞추는 데 도움이 됩니다.

질문 7: 마스크드 언어 모델링이란 무엇이고, 사전 학습에 어떻게 도움이 되나요?

마스크드 언어 모델링(MLM)은 시퀀스에서 임의의 토큰을 숨기고 문맥을 기반으로 예측하도록 모델을 학습시키는 과정입니다. BERT와 같은 모델에서 사용되는 MLM은 언어에 대한 양방향 이해를 촉진하여 모델이 의미 관계를 파악할 수 있도록 합니다. 이러한 사전 학습 방식은 LLM이 감정 분석
이나 질의응답과 같은 작업을 수행할 수 있도록 지원합니다.

질문 8: 시퀀스-투-시퀀스 모델이란 무엇이고, 어디에 적용됩니까?

시퀀스-투-시퀀스(Seq2Seq) 모델은 입력 시퀀스를 종종 길이가 다른 출력 시퀀스로 변환합니다. 이 모델은 입력을 처리하는 인코더와 출력을 생성하는 디코더로 구성됩니다. 기계 번역(예: 영어-스페인어), 텍스트 요약, 그리고 가변 길이의 입력과 출력이 일반적인 챗봇 등에 활용됩니다.

질문 9: LLM 학습에서 자기회귀 모델과 마스크 모델은 어떻게 다릅니까?

GPT와 같은 자기회귀 모델은 이전 토큰을 기반으로 순차적으로 토큰을 예측하므로 텍스트 완성과 같은 생성 작업에 탁월합니다. BERT와 같은 마스크 모델은 양방향 맥락을 사용하여 마스크된 토큰을 예측하므로 분류와 같은 이해 작업에 이상적입니다. 각 모델의 학습 목표는 생성과
이해에서 각 모델의 강점을 결정합니다.

질문 10: 임베딩이란 무엇이고, LLM에서 어떻게 초기화되나요?

임베딩은 연속 공간에서 토큰을 나타내는 밀집 벡터로, 의미적 및 구문적 속성을 포착합니다. 임베딩은 종종 무작위로 또는 GloVe와 같은 사전 학습된 모델을 사용하여 초기화된 후 학습 과정에서 미세 조정됩니다. 예를 들어, “개”에 대한 임베딩은 반려동물 관련 작업에서 해당 맥락을 반영하도록 진화하여 모델 정확도를 높일 수 있습니다.

질문 11: 다음 문장 예측이란 무엇이고, LLM을 어떻게 향상시키는가?

다음 문장 예측(NSP)은 두 문장이 연속적인지 또는 관련이 없는지 판단하는 모델을 학습시킵니다. 사전 학습 과정에서 BERT와 같은 모델은 50%의 긍정(순차적) 문장 쌍과 50%의 부정(무작위) 문장 쌍을 분류하는 방법을 학습합니다. NSP는 문장의 관계를 이해함으로써 대화 시스템이나 문서 요약과 같은 작업의 일관성을 향상시킵니다.

질문 12: 텍스트 생성에서 top-k 샘플링과 top-p 샘플링은 어떻게 다릅니까?

Top-k 샘플링은 무작위 샘플링을 위해 가장 가능성이 높은 k개의 토큰(예: k=20)을 선택하여 통제된 다양성을 보장합니다. Top-p(핵) 샘플링은 누적 확률이 임계값 p(예: 0.95)를 초과하는 토큰을 선택하여 맥락에 적응합니다. Top-p 샘플링은 창작 과정에서 더욱 유연하게 적용되어 다양하면서도 일관된 결과물을 생성합니다.

질문 13: LLM 성적을 올리는 데 신속한 엔지니어링이 왜 중요한가요?

프롬프트 엔지니어링은 원하는 LLM 반응을 이끌어내는 입력을 설계하는 것을 포함합니다. “이 글을 100단어로 요약해 주세요”와 같은 명확한 프롬프트는 모호한 지시에 비해 출력의 관련성을 향상시킵니다. 특히 제로샷(zero-shot) 또는 퓨샷(fue-shot) 환경에서 효과적이며, LLM이 광범위한 미세 조정 없이 번역이나 분류와 같은 작업을 처리할 수 있도록 합니다.

질문 14: LLM은 미세 조정 중에 치명적인 망각을 어떻게 피할 수 있습니까?

파국적 망각은 미세 조정으로 인해 기존 지식이 삭제될 때 발생합니다. 완화 전략은 다음과 같습니다.

리허설: 훈련 중에 오래된 데이터와 새로운 데이터를 혼합합니다.
탄력적 가중치 통합: 지식을 보존하기 위해 중요한 가중치를 우선시합니다.
모듈형 아키텍처: 덮어쓰기를 방지하기 위해 작업별 모듈을 추가합니다.

이러한 방법을 통해 LLM은 다양한 업무에 걸쳐 다양성을 유지할 수 있습니다.

질문 15: 모델 증류란 무엇이고, LLM에 어떤 이점이 있나요?

모델 증류는 더 작은 “학생” 모델이 더 큰 “교사” 모델 출력을 모방하도록 학습시키는데, 이때 하드 레이블 대신 소프트 확률을 사용합니다. 이를 통해 메모리 및 연산 요구 사항이 줄어들어 스마트폰과 같은 기기에 배포하는 동시에 교사 수준의 성능을 유지할 수 있어 실시간 애플리케이션에 이상적입니다.

질문 16: LLM은 어휘에 없는(OOV) 단어를 어떻게 관리합니까?

LLM은 바이트 쌍 인코딩(BPE)과 같은 하위 단어 토큰화를 사용하여 OOV 단어를 알려진 하위 단어 단위로 나눕니다. 예를 들어, “암호화폐”는 “암호화폐”와 “통화”로 나뉠 수 있습니다. 이러한 접근 방식을 통해 LLM은 희귀하거나 새로운 단어를 처리하여 강력한 언어 이해 및 생성을 보장합니다.

질문 17: 변환기는 기존 Seq2Seq 모델을 어떻게 개선합니까?

변환기는 다음을 통해 Seq2Seq 제한을 극복합니다.

병렬 처리: 셀프 어텐션은
순차적 RNN과 달리 동시적인 토큰 처리를 가능하게 합니다.
장거리 의존성: 주의는 멀리 떨어진 토큰 관계를 포착합니다.
위치 인코딩: 이는 순서 순서를 보존합니다.

이러한 기능은 번역과 같은 작업의 확장성과 성능을 향상시킵니다.

질문 18: 과잉적합이란 무엇이고, LLM에서 어떻게 완화할 수 있나요?

과적합은 모델이 훈련 데이터를 기억하여 일반화에 실패할 때 발생합니다. 과적합을 완화하는 방법은
다음과 같습니다.

정규화: L1/L2 페널티는 모델을 단순화합니다.
드롭아웃: 훈련 중에 무작위로 뉴런을 비활성화합니다.
조기 중단: 검증 성능이 정점에 도달하면 훈련을 중단합니다.

이러한 기술은 보이지 않는 데이터에 대한 강력한 일반화를 보장합니다.

질문 19: NLP에서 생성 모델과 판별 모델은 무엇입니까?

GPT와 같은 생성 모델은 텍스트나 이미지와 같은 새로운 데이터를 생성하기 위한 공동 확률을 모델링합니다. BERT와 같은 판별 모델은 분류를 위한 조건부 확률을 모델링합니다(예: 감정 분석). 생성 모델은 데이터 생성에 탁월한 반면, 판별 모델은 정확한 분류에 중점을 둡니다.

질문 20: GPT-4는 기능과 적용 면에서 GPT-3와 어떻게 다릅니까?

GPT-4는 다음과 같은 측면에서 GPT-3를 능가합니다.

다중 모드 입력: 텍스트와 이미지를 처리합니다.
더 큰 맥락: GPT-3의 4,096개에 비해 최대 25,000개의 토큰을 처리합니다.
향상된 정확성: 더 나은 미세 조정을 통해 사실적 오류를 줄입니다.

이러한 개선을 통해 시각적인 질의응답과 복잡한 대화에서의 활용이 확대되었습니다.

질문 21: 위치 인코딩은 무엇이고, 왜 사용됩니까?

위치 인코딩은 자기 주의가 고유한 순서 인식을 제공하지 않기 때문에 변환기 입력에 시퀀스 순서 정보를 추가합니다. 사인 함수나 학습된 벡터를 사용하여 “킹”과 “크라운”과 같은 토큰이 위치를 기반으로 정확하게 해석되도록 보장하며, 이는 번역과 같은 작업에 필수적입니다.

질문 22: 멀티헤드 어텐션이란 무엇이고, LLM을 어떻게 향상시키나요?

멀티 헤드 어텐션은 쿼리, 키, 값을 여러 개의 하위 공간으로 분할하여 모델이 입력의 여러 측면에 동시에 집중할 수 있도록 합니다. 예를 들어, 문장에서 한 헤드는 구문에, 다른 헤드는 의미에 집중할 수 있습니다. 이를 통해 모델의 복잡한 패턴 포착 능력이 향상됩니다.

질문 23: 소프트맥스 함수는 주의 메커니즘에 어떻게 적용됩니까?

소프트맥스 함수는 주의 점수를 확률 분포로 정규화합니다.

주의(attention) 단계에서는 쿼리 키 내적(query-key dot product)으로부터 얻은 원시 유사도 점수를 가중치로 변환하여 관련 토큰을 강조합니다. 이를 통해 모델이 입력의 맥락적으로 중요한 부분에 집중할 수 있습니다.

질문 24: 점곱은 자기 주의에 어떻게 기여합니까?

자기 주의에서 쿼리(Q)와 키(K) 벡터 간의 내적은 유사도 점수를 계산합니다.

높은 점수는 관련 토큰을 나타냅니다. 효율적이기는 하지만, 긴 시퀀스에 대한 이차 복잡도(O(n²))는 희소 어텐션 대안에 대한 연구를 촉진했습니다.

질문 25: 언어 모델링에서 교차 엔트로피 손실을 사용하는 이유는 무엇입니까?

교차 엔트로피 손실은 예측된 토큰 확률과 실제 토큰 확률 간의 차이를 측정합니다.

잘못된 예측에 페널티를 부여하여 정확한 토큰 선택을 촉진합니다. 언어 모델링에서는 모델이 다음 토큰을 수정할 확률을 높게 할당하여 성능을 최적화합니다.

질문 26: LLM의 임베딩에 대한 그래디언트는 어떻게 계산됩니까?

임베딩에 대한 그래디언트는 역전파 동안 체인 규칙을 사용하여 계산됩니다.

이러한 그래디언트는 손실을 최소화하기 위해 임베딩 벡터를 조정하고, 더 나은 작업 성능을 위해 의미적 표현을 개선합니다.

질문 27: 변압기 역전파에서 야코비안 행렬의 역할은 무엇입니까?

야코비안 행렬은 입력에 대한 출력의 편미분을 포착합니다. 변환기에서 다차원 출력에 대한 그래디언트를 계산하여 역전파 과정에서 가중치와 임베딩의 정확한 업데이트를 보장하는 데 도움이 되며, 이는
복잡한 모델을 최적화하는 데 필수적입니다.

질문 28: 고유값과 고유벡터는 차원 축소와 어떤 관련이 있나요?

고유벡터는 데이터의 주요 방향을 정의하고, 고유값은 데이터의 분산을 나타냅니다. PCA와 같은 기법에서 고유값이 큰 고유벡터를 선택하면 분산은 대부분 유지하면서 차원은 줄어들어 LLM 입력 처리에서 효율적인 데이터 표현이 가능해집니다.

질문 29: KL 다이버전스란 무엇이고, LLM에서 어떻게 사용됩니까?

KL 발산은 두 확률 분포 간의 차이를 정량화합니다.

LLM에서는 모델 예측이 실제 분포와 얼마나 일치하는지 평가하여 미세 조정을 통해 출력 품질을 개선하고 대상 데이터와 일치하도록 안내합니다.

질문 30: ReLU 함수의 미분은 무엇이고, 왜 중요한가요?

ReLU 함수 f(x) =max(0,x)에는 다음과 같은 미분이 있습니다.

ReLU는 희소성과 비선형성 덕분에 기울기 소멸이 방지되어 계산 효율성이 뛰어나고 LLM에서 견고한 학습을 위해 널리 사용됩니다.

질문 31: LLM의 경사 하강에 체인 규칙이 어떻게 적용됩니까?

체인 법칙은 합성 함수의 미분을 계산합니다.

경사 하강법에서는 역전파 기법을 사용하여 경사를 계층별로 계산하고, 심층 LLM 아키텍처 전반에서 손실을 효율적으로 최소화하도록 매개변수를 업데이트합니다.

질문 32: 변압기에서 주의 점수는 어떻게 계산됩니까?

주의 점수는 다음과 같이 계산됩니다.

확장된 점곱은 토큰 관련성을 측정하고, 소프트맥스는 주요 토큰에 초점을 맞춰 점수를 정규화하여 요약과 같은 작업에서 맥락 인식 생성을 향상시킵니다.

질문 33: Gemini는 다중 모드 LLM 교육을 어떻게 최적화합니까?

쌍둥이자리는 다음을 통해 효율성을 향상시킵니다.

통합 아키텍처: 매개변수 효율성을 위해 텍스트와 이미지 처리를 결합합니다.
고급 주의: 여러 모달 학습의 안정성을 향상시킵니다.
데이터 효율성: 자체 감독 기술을 사용하여 레이블이 지정된 데이터 요구 사항을 줄입니다.

이러한 기능 덕분에 Gemini는 GPT-4와 같은 모델보다 더 안정적이고 확장성이 뛰어납니다.

질문 34: 어떤 유형의 기초 모델이 존재합니까?

기초 모델은 다음과 같습니다.

언어 모델: 텍스트 작업을 위한 BERT, GPT-4.
비전 모델: 이미지 분류를 위한 ResNet.
생성 모델: 콘텐츠 제작을 위한 DALL-E.
다중 모달 모델: 텍스트-이미지 작업을 위한 CLIP.

이러한 모델은 다양한 응용 프로그램을 위한 광범위한 사전 학습을 활용합니다.

질문 35: PEFT는 어떻게 망각을 완화합니까?

매개변수 효율적 미세 조정(PEFT)은 매개변수의 일부만 업데이트하고 나머지는 고정하여 사전 훈련된 지식을 보존합니다. LoRA와 같은 기술은 LLM이 핵심 기능을 잃지 않고 새로운 작업에 적응하여 여러 도메인에서 성능을 유지하도록 보장합니다.

질문 36: 검색 증강 생성(RAG)의 단계는 무엇입니까?

RAG에는 다음이 포함됩니다.

검색: 쿼리 임베딩을 사용하여 관련 문서를 가져옵니다.
순위: 관련성에 따라 문서를 정렬합니다.
생성: 검색된 맥락을 사용하여 정확한 응답을 생성합니다.

RAG는 질문에 대답하는 등의 작업에서 사실적 정확성을 향상시킵니다.

질문 37: 전문가 혼합(MoE)은 LLM 확장성을 어떻게 향상시키나요?

MoE는 게이팅 함수를 사용하여 입력당 특정 전문가 하위 네트워크를 활성화하여 연산 부하를 줄입니다. 예를 들어, 쿼리당 모델 매개변수의 10%만 사용되므로 수십억 개의 매개변수를 가진 모델이 고성능을 유지하면서 효율적으로 작동할 수 있습니다.

질문 38: 사고의 사슬(CoT) 프롬핑이란 무엇이며, 추론에 어떻게 도움이 됩니까?

CoT 프롬프팅은 LLM이 인간의 추론 과정을 모방하여 문제를 단계별로 해결하도록 안내합니다. 예를 들어, 수학 문제에서 CoT 프롬프팅은 계산을 논리적 단계로 나누어 논리적 추론이나 다단계 질의와 같은 복잡한 과제의 정확성과 해석 가능성을 향상시킵니다.

질문 39: 차별적 AI와 생성적 AI의 차이점은 무엇입니까?

감정 분류기와 같은 판별형 AI는 입력 피처를 기반으로 레이블을 예측하고 조건부 확률을 모델링합니다. GPT와 같은 생성형 AI는 결합 확률을 모델링하여 텍스트나 이미지 생성과 같은 작업에 적합한 새로운 데이터를 생성하고, 창의적인 유연성을 제공합니다.

질문 40: 지식 그래프 통합은 LLM을 어떻게 개선합니까?

지식 그래프는 다음과 같은 방법으로 LLM을 강화하는 체계적이고 사실적인 데이터를 제공합니다.

환각 감소: 그래프를 통해 사실 확인.
추론 개선: 엔터티 관계 활용.
맥락 강화: 더 나은 응답을 위해 체계적인 맥락을 제공합니다.

이는 질문에 대한 답변과 엔터티 인식에 유용합니다.

질문 41: 제로샷 러닝이란 무엇이고, LLM에서는 어떻게 구현합니까?

제로샷 학습을 통해 LLM은 사전 학습에서 얻은 일반 지식을 활용하여 훈련되지 않은 작업을 수행할 수 있습니다. 예를 들어, “이 리뷰를 긍정적 또는 부정적으로 분류하세요”라는 프롬프트에서 LLM은 작업별 데이터 없이도 감정을 추론할 수 있으며, 이는 LLM의 다재다능함을 보여줍니다.

질문 42: Adaptive Softmax는 LLM을 어떻게 최적화합니까?

적응형 소프트맥스는 단어를 빈도별로 그룹화하여 희귀 단어에 대한 계산을 줄입니다. 이를 통해 대용량 어휘 처리 비용을 절감하고, 특히 리소스가 제한된 환경에서 정확도를 유지하면서 학습 및 추론 속도를 높입니다.

질문 43: 변압기는 사라지는 기울기 문제를 어떻게 해결합니까?

변압기는 다음을 통해 사라지는 기울기를 완화합니다.

셀프 어텐션: 순차적 종속성 피하기.
잔여 연결: 직접적인 경사 흐름 허용.
레이어 정규화: 업데이트 안정화.

이러한 방식은 RNN과 달리 딥러닝 모델의 효과적인 학습을 보장합니다.

질문 44: 퓨샷 러닝이란 무엇이고, 어떤 이점이 있나요?

퓨샷 러닝(Fu-shot learning)은 LLM이 사전 훈련된 지식을 활용하여 최소한의 예제만으로 작업을 수행할 수 있도록 합니다. 데이터 요구량 감소, 빠른 적응, 비용 효율성 등의 이점을 제공하여 특수 텍스트 분류와 같은 특정 분야에 적합합니다.

질문 45: LLM이 편향되거나 잘못된 출력을 생성하는 것을 어떻게 수정하겠습니까?

편향되거나 잘못된 출력을 해결하려면 다음을 수행합니다.

패턴 분석: 데이터나 프롬프트에서 편향 소스를 식별합니다.
데이터 강화: 균형 잡힌 데이터 세트와 편향 제거 기술을 사용합니다.
미세 조정: 큐레이팅된 데이터나 적대적 방법을 사용하여 다시 학습합니다.

이러한 단계를 거치면 공정성과 정확성이 향상됩니다.

질문 46: 변압기에서 인코더와 디코더는 어떻게 다릅니까?

인코더는 입력 시퀀스를 추상적인 표현으로 처리하여 맥락을 포착합니다. 디코더는 인코더 출력과 이전 토큰을 사용하여 출력을 생성합니다. 번역 과정에서 인코더는 소스 언어를 이해하고 디코더는 대상 언어를 생성하여 효과적인 Seq2Seq 작업을 가능하게 합니다.

질문 47: LLM은 전통적인 통계적 언어 모델과 어떻게 다릅니까?

LLM은 더 단순한 지도 학습 방법에 의존하는 통계 모델(예: N-그램)과 달리, 변환기 아키텍처, 방대한 데이터셋, 그리고 비지도 학습을 사용합니다. LLM은 장거리 종속성, 문맥 임베딩, 그리고 다양한 작업을 처리하지만 상당한 연산 리소스를 필요로 합니다.

질문 48: 하이퍼파라미터란 무엇이고, 왜 중요한가요?

하이퍼파라미터는 학습률이나 배치 크기와 같이 모델 학습을 제어하는 미리 설정된 값입니다. 하이퍼파라미터는 수렴과 성능에 영향을 미칩니다. 예를 들어, 높은 학습률은 불안정성을 유발할 수 있습니다. 하이퍼파라미터를 조정하면 LLM 효율성과 정확도가 최적화됩니다.

질문 49: 대규모 언어 모델(LLM)은 어떻게 정의됩니까?

LLM은 방대한 텍스트 코퍼스를 학습하여 인간과 유사한 언어를 이해하고 생성하는 AI 시스템입니다. 수십억 개의 매개변수를 통해 번역, 요약, 질의응답 등의 작업에 탁월한 성능을 보이며, 맥락 학습을 활용하여 폭넓은 적용 가능성을 제공합니다.

질문 50: LLM은 배치 과정에서 어떤 어려움에 직면합니까?

LLM 과제에는 다음이 포함됩니다.

리소스 집약도: 높은 컴퓨팅 요구 사항.
편향: 훈련 데이터 편향이 영구화될 위험.
해석 가능성: 복잡한 모델은 설명하기 어렵습니다.
개인정보 보호: 잠재적인 데이터 보안 문제.

이러한 문제를 해결하면 윤리적이고 효과적인 LLM 사용이 보장됩니다.