0x04. GPT - 텍스트를 생성하는 AI

"다음에 올 단어를 맞혀보세요." 이 단순한 게임이 현재 가장 강력한 AI 모델의 핵심 원리다. ChatGPT, 코드 자동 완성, AI 번역 등 우리가 매일 접하는 생성형 AI의 기반에는 GPT(Generative Pre-trained Transformer)가 있다. 이 글에서는 GPT가 어떤 구조를 갖고 있는지, 왜 텍스트 생성에 특화되어 있는지, 그리고 버전별로 어떻게 발전해 왔는지를 정리한다.

GPT란?

GPT는 Generative Pre-trained Transformer의 약자다. 이름에 핵심이 모두 담겨 있다.

Generative: 텍스트를 생성한다
Pre-trained: 대규모 텍스트 데이터로 사전 학습되어 있다
Transformer: Transformer 아키텍처를 기반으로 한다

한 줄로 요약하면, Transformer의 Decoder 부분만 활용하여 텍스트 생성에 특화된 대규모 언어 모델(LLM, Large Language Model)이다.

BERT가 "문장을 이해하는 AI"라면, GPT는 "문장을 만들어내는 AI"다.

GPT의 핵심 특징

1. Decoder Only 구조

Transformer는 원래 Encoder와 Decoder 두 부분으로 구성된다. 번역 같은 작업에서는 Encoder가 입력을 이해하고, Decoder가 출력을 생성하는 역할을 맡는다.

GPT는 이 중 Decoder 스택만 사용한다. 입력을 별도로 인코딩하는 과정 없이, 주어진 텍스트의 흐름을 이어가며 다음 토큰을 생성하는 데 집중한다. 이런 설계 덕분에 텍스트 생성 작업에 매우 효율적이다.

2. Autoregressive 방식

GPT의 텍스트 생성 방식은 자기회귀적(Autoregressive)이다. 이전에 생성한 토큰들을 기반으로 다음 토큰을 순차적으로 예측한다.

예를 들어 "오늘 날씨가"라는 입력이 주어지면 다음과 같은 과정을 거친다.

"오늘 날씨가" -> "좋다" 예측
"오늘 날씨가 좋다" -> "." 예측
"오늘 날씨가 좋다." -> 종료

마치 소설가가 한 단어씩 써 내려가는 것과 비슷하다. 이전까지 쓴 내용을 보고, 자연스럽게 이어질 다음 단어를 고르는 방식이다.

3. 단방향 문맥 이해 (Unidirectional)

GPT는 텍스트를 왼쪽에서 오른쪽으로만 처리한다. 즉, 현재 위치에서 이전 토큰들만 참조할 수 있고, 뒤에 올 토큰은 볼 수 없다.

이는 BERT와 가장 큰 차이점이다. BERT는 양방향(Bidirectional)으로 앞뒤 문맥을 모두 보는 반면, GPT는 오직 앞쪽 문맥만 활용한다.

	GPT	BERT
방향	단방향 (왼쪽 -> 오른쪽)	양방향 (앞뒤 모두)
구조	Decoder Only	Encoder Only
강점	텍스트 생성	텍스트 이해/분류

왜 단방향일까? 텍스트를 생성하려면 아직 쓰지 않은 미래의 단어를 미리 볼 수 없는 것이 자연스럽기 때문이다. 시험 답안을 작성할 때 아직 쓰지 않은 뒷부분을 참고할 수 없는 것과 같다.

4. 사전 학습과 미세 조정

GPT의 학습은 두 단계로 나뉜다.

사전 학습(Pre-training): 인터넷에서 수집한 방대한 텍스트 데이터를 사용하여 "다음 단어 예측" 과제를 학습한다. 이 과정에서 문법, 의미, 사실 지식, 추론 패턴 등 복잡한 언어 패턴을 스스로 습득한다. 별도의 레이블링 없이 텍스트 자체만으로 학습하므로 비지도 학습(Unsupervised Learning)에 가깝다.

미세 조정(Fine-tuning): 사전 학습된 모델을 특정 작업(대화, 요약, 번역 등)에 맞게 추가로 학습시키는 단계다. 소량의 레이블된 데이터만으로도 높은 성능을 달성할 수 있다는 것이 큰 장점이다.

이 "사전 학습 + 미세 조정" 패러다임은 GPT뿐 아니라 현대 LLM의 표준적인 학습 방식이 되었다.

GPT의 내부 구조

GPT의 아키텍처는 여러 개의 Transformer Decoder 블록을 쌓은 형태다. 각 블록은 다음 요소로 구성된다.

Masked Self-Attention: 현재 위치 이전의 토큰들에만 주의(Attention)를 기울인다. "Masked"라는 이름은 미래 토큰을 마스킹하여 참조를 차단한다는 의미다.
Feed-Forward Network: Attention의 출력을 비선형 변환하여 더 풍부한 표현을 만든다.
Layer Normalization과 Residual Connection: 학습 안정성과 깊은 네트워크 학습을 돕는다.

이 블록들이 수십~수백 개 쌓이면서 점점 더 복잡한 언어 패턴을 포착한다. 초기 레이어는 단어 수준의 패턴을, 깊은 레이어는 문장이나 문단 수준의 의미를 다루게 된다.

핵심은 Self-Attention이 이전 토큰들만 참조한다는 점이다. 이것이 GPT를 "생성 모델"로 만드는 구조적 핵심이다. 모든 위치에서 미래 정보가 차단되어 있으므로, 모델은 오직 과거 문맥만으로 다음 단어를 예측하는 법을 학습한다.

GPT의 활용 분야

GPT는 텍스트 생성이 필요한 거의 모든 분야에 적용 가능하다.

텍스트 생성(Text Generation): 글쓰기, 스토리 작성, 보고서 초안 등
대화형 AI(Conversational AI): 챗봇, 고객 상담, 질의응답
코드 생성(Code Generation): 자연어 설명을 기반으로 코드 작성
번역(Translation): 다국어 간 텍스트 변환
요약(Summarization): 긴 문서를 핵심만 추려서 정리

BERT 같은 Encoder 기반 모델이 분류, 개체명 인식 등 "이해" 중심 작업에 강한 반면, GPT는 생성이 필요한 작업에서 압도적인 강점을 보인다. 특히 모델 크기가 커질수록 BERT보다 더 넓은 범위의 문제를 해결할 수 있다는 점이 GPT 계열의 큰 장점이다.

GPT 버전별 발전 과정

GPT-2 (2019)

GPT-2는 대규모 텍스트 생성의 가능성을 세상에 보여준 모델이다. OpenAI는 당시 "너무 위험하다"는 이유로 전체 모델 공개를 미뤘을 정도로 생성 품질이 높았다. 파라미터 수는 약 15억 개로, 지금 기준에서는 작지만 당시에는 획기적인 규모였다.

GPT-3 (2020)

파라미터 수가 1,750억 개로 급증했다. GPT-3의 가장 큰 발견은 Few-shot Learning이다. 미세 조정 없이도 프롬프트에 몇 가지 예시만 제공하면 새로운 작업을 수행할 수 있었다. 모델 크기의 스케일링이 곧 성능 향상으로 이어진다는 "Scaling Law"가 주목받기 시작한 시점이기도 하다.

GPT-3.5 / ChatGPT (2022)

GPT-3를 기반으로 RLHF(Reinforcement Learning from Human Feedback)를 적용하여 대화에 특화시킨 모델이다. 사용자의 질문에 자연스럽고 유용하게 답변하도록 최적화되었다. ChatGPT의 등장은 생성형 AI를 일반 대중에게 알린 결정적 계기가 되었다.

GPT-4 (2023)

멀티모달(Multimodal) 입력을 지원하는 것이 가장 큰 변화다. 텍스트뿐 아니라 이미지도 입력으로 받을 수 있어, 그래프 해석, 사진 설명, 문서 이미지 분석 등이 가능해졌다. 추론 능력과 정확성도 크게 향상되어, 전문 시험에서 사람 수준의 성적을 기록하기도 했다.

버전	연도	핵심 특징	파라미터 규모
GPT-2	2019	대규모 텍스트 생성	~15억
GPT-3	2020	Few-shot Learning	1,750억
GPT-3.5	2022	대화 특화 (RLHF)	-
GPT-4	2023	멀티모달 입력	-

정리

GPT는 Transformer의 Decoder 구조를 활용하여 텍스트를 자기회귀적으로 생성하는 모델이다. 핵심을 다시 짚어보면 다음과 같다.

Decoder Only 구조로 텍스트 생성에 특화
Autoregressive 방식으로 이전 토큰 기반의 순차적 예측
단방향 문맥 이해로, 미래 토큰은 참조하지 않음
사전 학습 + 미세 조정 패러다임으로 범용성 확보
버전이 올라갈수록 파라미터 규모, 학습 기법, 입력 모달리티가 확장

"다음 단어를 예측한다"는 단순한 원리가 어떻게 이토록 강력한 AI로 이어졌는지, GPT의 발전 과정이 잘 보여준다. 모델이 충분히 크고, 충분히 많은 데이터를 학습하면, 단순한 과제에서 출발한 모델이 놀라운 수준의 언어 능력을 창발(Emergent)할 수 있다는 사실이 GPT가 남긴 가장 중요한 교훈이다.