0x05. BART와 T5 - Encoder-Decoder의 힘

BERT는 양방향으로 문맥을 읽고, GPT는 왼쪽에서 오른쪽으로 텍스트를 생성한다. 그런데 만약 둘의 장점을 동시에 가져갈 수 있다면 어떨까? 문맥을 깊이 이해하면서도 자연스러운 텍스트를 생성하는 모델 말이다.

이것이 바로 Encoder-Decoder 구조가 해결하는 문제이며, BART와 T5는 이 아이디어를 각각 다른 방식으로 구현한 대표적인 모델이다. 이 글에서는 두 모델의 구조, 사전 학습 방식, 그리고 적합한 사용처를 비교한다.

Encoder-Decoder, 왜 필요한가?

Transformer 기반 모델은 크게 세 가지 구조로 나뉜다.

구조	대표 모델	특징
Encoder-only	BERT	입력을 양방향으로 이해. 분류, NER 등에 강함
Decoder-only	GPT	왼쪽에서 오른쪽으로 생성. 텍스트 생성에 강함
Encoder-Decoder	BART, T5	이해 + 생성을 동시에 수행

Encoder-only 모델은 텍스트를 잘 "읽지만" 생성에는 약하다. Decoder-only 모델은 텍스트를 잘 "쓰지만" 입력 전체를 양방향으로 파악하지 못한다.

Encoder-Decoder 구조는 이 한계를 극복한다. Encoder가 입력을 양방향으로 깊이 이해하고, Decoder가 그 이해를 바탕으로 텍스트를 자동 회귀(Autoregressive) 방식으로 생성한다. 번역, 요약, 질의응답처럼 입력을 이해한 뒤 새로운 텍스트를 출력해야 하는 과제에서 자연스럽게 강점을 발휘한다.

BART: 망가뜨리고 복원하기

개요

BART(Bidirectional and Auto-Regressive Transformer) 는 Facebook AI(현 Meta)에서 2019년에 발표한 모델이다. 이름에서 알 수 있듯이, 양방향(Bidirectional) Encoder와 자동 회귀(Auto-Regressive) Decoder를 결합한 구조이다.

핵심 아이디어를 한 문장으로 요약하면 이렇다.

텍스트를 다양한 방식으로 망가뜨린 뒤(corrupt), 원래 텍스트를 복원하도록(reconstruct) 학습한다.

이것을 Denoising Autoencoder 방식이라 부른다. 시끄러운 환경에서 녹음된 음성을 깨끗하게 복원하는 것과 비슷한 원리다.

구조

BART의 구조는 원래 Transformer 아키텍처와 거의 동일하다.

Encoder: BERT처럼 양방향으로 입력을 처리한다. 손상된 텍스트 전체를 한 번에 읽고 문맥을 파악한다.
Decoder: GPT처럼 자동 회귀 방식으로 토큰을 하나씩 생성한다. Encoder의 출력을 Cross-Attention으로 참조하면서 원래 텍스트를 복원한다.

사전 학습: 다섯 가지 노이즈 전략

BART가 독특한 점은 텍스트를 손상시키는 방법이 하나가 아니라 다섯 가지나 된다는 것이다.

1. Token Masking(토큰 마스킹)

BERT의 [MASK]와 동일한 방식이다. 임의의 토큰을 [MASK] 토큰으로 대체한다.

원본: "오늘 날씨가 정말 좋다"
손상: "오늘 [MASK] 정말 좋다"

2. Token Deletion(토큰 삭제)

토큰을 마스킹하는 대신 아예 삭제한다. 모델은 어떤 위치에서 토큰이 빠졌는지까지 스스로 파악해야 하므로, 마스킹보다 더 어려운 과제이다.

원본: "오늘 날씨가 정말 좋다"
손상: "오늘 정말 좋다"

3. Text Infilling(텍스트 채우기)

연속된 여러 토큰을 하나의 [MASK] 로 대체한다. 모델은 마스크 하나 뒤에 몇 개의 토큰이 숨어 있는지 알 수 없기 때문에 더 깊은 이해가 필요하다. 이 방식이 BART 논문에서 가장 효과적이라고 보고되었다.

원본: "오늘 날씨가 정말 좋다"
손상: "오늘 [MASK] 좋다"  (2개 토큰이 1개의 마스크로)

4. Sentence Permutation(문장 순서 섞기)

문서 내 문장들의 순서를 무작위로 뒤섞는다. 모델은 문장 간 논리적 흐름과 순서를 파악하는 능력을 학습한다.

5. Document Rotation(문서 회전)

문서에서 임의의 토큰을 하나 골라, 해당 토큰이 문서의 시작이 되도록 회전시킨다. 모델은 문서의 실제 시작점을 찾아내야 한다.

원본: "A B C D E"
손상: "C D E A B"  (C부터 시작하도록 회전)

이렇게 다양한 노이즈를 사용하는 이유는, 모델이 특정 패턴에만 의존하지 않고 텍스트의 구조와 의미를 종합적으로 학습하도록 유도하기 위해서이다.

BART의 강점

BART는 특히 텍스트 요약(Summarization) 에서 뛰어난 성능을 보인다. 긴 문서를 읽고 핵심을 추출해 새로운 문장으로 재구성하는 과제는, 입력을 깊이 이해하고 자연스러운 출력을 생성하는 Encoder-Decoder 구조와 완벽하게 맞아떨어진다.

그 외에도 다음과 같은 과제에 활용된다.

기계 번역(Machine Translation)
텍스트 생성(Text Generation)
질의응답(Question Answering)

T5: 모든 것을 텍스트로

개요

T5(Text-To-Text Transfer Transformer) 는 Google에서 2019년에 발표한 모델이다. T5의 핵심 철학은 매우 간결하다.

모든 NLP 과제를 "텍스트 입력 → 텍스트 출력" 이라는 하나의 형식으로 통일한다.

분류, 번역, 요약, 질의응답 등 과제의 종류에 상관없이, 입력과 출력 모두 텍스트 문자열로 표현한다. 이것이 "Text-to-Text"라는 이름의 의미이다.

통합 인터페이스의 힘

기존 모델들은 과제에 따라 출력 형태가 달랐다. 분류 문제에는 클래스 레이블을, 번역에는 시퀀스를, 유사도 측정에는 점수를 출력하는 식이다. T5는 이 모든 것을 텍스트로 통일한다.

번역:     "translate English to German: That is good" → "Das ist gut"
요약:     "summarize: [긴 기사 텍스트]" → "핵심 요약 문장"
분류:     "sst2 sentence: This movie is great" → "positive"
질의응답: "question: What is AI? context: ..." → "Artificial Intelligence"

입력 앞에 과제를 지정하는 접두사(prefix) 를 붙이는 것만으로 모델이 어떤 작업을 수행해야 하는지 구분한다. 이 접근 방식의 장점은 명확하다.

단일 모델, 단일 학습 파이프라인으로 다양한 과제를 처리할 수 있다
새로운 과제를 추가할 때 모델 구조를 변경할 필요가 없다
과제 간 전이 학습(Transfer Learning) 이 자연스럽게 이루어진다

구조

T5 역시 표준 Encoder-Decoder 구조를 사용한다. BART와 마찬가지로 Encoder가 입력을 이해하고, Decoder가 출력 텍스트를 생성한다.

사전 학습: C4와 Denoising

T5의 사전 학습에는 두 가지 핵심 요소가 있다.

1. C4(Colossal Clean Crawled Corpus)

Google이 직접 구축한 대규모 정제 데이터셋이다. Common Crawl 데이터를 정제하여 약 750GB 분량의 깨끗한 영어 텍스트를 확보했다. "쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)"는 원칙에 따라, 고품질 데이터로 학습하는 것이 T5 설계의 핵심 전략 중 하나이다.

2. Denoising (잡음 제거) 방식의 사전 학습

T5의 사전 학습은 BART와 유사하게 Denoising 방식을 따른다. 구체적으로는 입력 텍스트에서 연속된 토큰 구간(span)을 하나의 특수 토큰으로 대체하고, 모델이 빠진 텍스트를 예측하도록 학습한다.

원본:     "Thank you for inviting me to your party last week"
입력:     "Thank you <X> me to your party <Y> week"
목표출력: "<X> for inviting <Y> last"

BART가 원문 전체를 복원하는 것과 달리, T5는 빠진 부분만 출력한다. 이 방식이 더 효율적이다. 출력 시퀀스가 짧아지므로 학습 속도가 빨라진다.

T5의 강점

T5는 범용성이 가장 큰 장점이다. 하나의 모델로 번역, 요약, 분류, 질의응답, 텍스트 생성 등 거의 모든 NLP 과제를 처리할 수 있다.

또한 T5는 1B(10억) 파라미터 이하 규모에서 특히 효율적인 선택으로 알려져 있다. 비교적 작은 모델로도 다양한 과제에서 안정적인 성능을 낸다는 점에서, 리소스가 제한된 환경에서 실용적이다.

BART vs T5: 핵심 비교

두 모델은 Encoder-Decoder라는 동일한 뼈대를 공유하지만, 철학과 세부 설계에서 차이가 있다.

항목	BART	T5
개발	Facebook AI (Meta)	Google
핵심 아이디어	Denoising Autoencoder	Text-to-Text 통합
사전 학습 데이터	다양한 코퍼스	C4 (750GB 정제 데이터)
노이즈 전략	5가지 (마스킹, 삭제, 채우기, 셔플, 회전)	Span Corruption (구간 마스킹)
복원 방식	원문 전체 복원	빠진 부분만 출력
최대 강점	텍스트 요약	범용 NLP (Text-to-Text)
인터페이스	과제별 Fine-tuning	접두사(prefix)로 과제 지정

어떤 모델을 선택해야 할까?

텍스트 요약이 주된 과제라면 BART가 더 적합하다. 요약 벤치마크에서 꾸준히 높은 성능을 보인다.
다양한 NLP 과제를 하나의 모델로 처리하고 싶다면 T5가 유리하다. Text-to-Text 프레임워크 덕분에 과제 전환이 자유롭다.
모델 크기에 제약이 있다면 T5를 먼저 고려하는 것이 좋다. 1B 이하 규모에서 효율적이라는 평가가 있다.

정리

BART와 T5는 Encoder-Decoder 구조가 NLP에서 얼마나 강력한지를 보여주는 대표 사례이다.

BART는 다양한 노이즈 전략으로 텍스트를 손상시키고 복원하는 Denoising Autoencoder 접근법을 통해, 특히 요약 과제에서 강점을 가진다.
T5는 "모든 것은 텍스트"라는 철학 아래 통합 인터페이스를 제공하며, 하나의 모델로 거의 모든 NLP 과제를 처리할 수 있는 범용성을 갖추었다.

두 모델 모두 이후 등장하는 다양한 변형 모델들(mBART, mT5, Flan-T5 등)의 기반이 되었다. Encoder-Decoder 구조의 이해는 이러한 후속 모델을 파악하는 데 필수적인 토대가 된다.