Transformer 저자의 설계

← 2026-04-02 목록으로

핵심 요약

트랜스포머는 어텐션 연산 시 단어의 순서와 관계없이 동일한 결과를 도출하는 ‘순열 불변성(Permutation-invariant)’을 가지기에, 문맥 파악을 위한 위치 정보(PE) 삽입이 필수적이다.
학습 데이터 범위를 벗어난 긴 문장에 대응하기 위해 ‘학습 가능한 위치 벡터’ 대신 주기가 서로 다른 사인/코사인 함수를 활용한 ‘Sinusoidal Positional Encoding’을 사용하여 위치를 규칙으로 정의한다.
이 방식은 삼각함수의 덧셈 정리를 활용해 위치 간 ‘상대적 거리’가 동일하면 내적 값도 동일하게 유지되도록 설계함으로써 모델이 단어 간의 상대적 위치 관계를 효율적으로 학습하게 한다.

주요 내용

1. Positional Encoding(PE)의 필요성

트랜스포머의 어텐션 메커니즘은 단어의 순서가 바뀌어도(Permutation) 결과값이 동일하다.
문장은 단어의 배치 순서에 따라 의미가 완전히 달라지므로(예: “나를 버려” vs “어떻게 버려”), 모델이 단어의 위치를 인식할 수 있도록 별도의 위치 정보를 벡터 형태로 더해줘야 한다.

2. Learnable Positional Encoding의 한계

각 위치마다 고유한 벡터를 할당하여 학습시키는 방식이다.
학습 데이터의 최대 문장 길이를 벗어나는 입력(예: 학습은 512까지, 입력은 513 이상)이 들어올 경우, 모델이 해당 위치 정보를 전혀 알 수 없는 ‘Extrapolation(범위 밖 확장)’의 문제가 발생한다.

3. Sinusoidal Positional Encoding의 메커니즘

위치를 학습하는 대신 사인과 코사인을 이용한 함수 규칙으로 벡터를 생성한다.
시계의 원리: 초침, 분침, 시침이 각기 다른 주기로 회전하며 현재 시각을 유일하게 특정하듯, 차원별로 다른 진동 주기를 가진 사인/코사인 함수를 배치하여 모든 위치를 고유하게 구별한다.

4. 상대적 거리 정보와 수학적 설계

모델은 단어 간의 ‘상대적 거리’가 동일할 때 같은 연산 결과를 내야 한다.
삼각함수의 덧셈 정리를 활용하여 PE 벡터의 내적이 단어의 절대적 위치가 아닌 ‘상대적 차이(거리)’에만 의존하도록 설계되었다. 이는 모델 학습 과정에서 단어 간의 상대적 관계를 효과적으로 반영하는 기반이 된다.

핵심 데이터 / 비교표

방식	위치 정의 방법	Extrapolation(범위 확장)	특징
Learnable PE	위치별 고유 벡터 학습	불가	학습 범위를 벗어나면 정보 소실
Sinusoidal PE	함수 기반 규칙 적용	이론적 가능	시계처럼 주기적 패턴으로 위치 구별

타임스탬프별 핵심 포인트

| 시간 | 핵심 내용 | |—|—| | 00:30 | 어텐션의 순열 불변성(Permutation-invariant) 문제 제기 | | 01:50 | Learnable Positional Encoding의 정의와 한계점 | | 02:40 | Sinusoidal Positional Encoding의 도입 배경 | | 03:30 | 시계의 원리로 비유한 차원별 주기 활용법 | | 04:30 | 덧셈 정리를 통한 상대적 거리 정보 보존의 이점 |

결론 및 시사점

Sinusoidal PE는 절대적인 위치 값을 외우는 것이 아니라, 삼각함수의 규칙을 통해 모델이 위치 관계를 스스로 파악할 수 있도록 수학적으로 설계된 체계이다.
학습 시 보지 못한 긴 문장 처리에 대응할 수 있다는 확장성과, 단어 간 상대적 위치 관계를 내적 연산에 자연스럽게 녹여내는 이론적 견고함이 이 방식의 핵심이다.
다만, 최신 모델들에서는 이러한 방식보다 발전된 형태인 ‘RoPE(Rotary Positional Embedding)’ 방식이 주로 사용되고 있다.

추가 학습 키워드

Permutation Invariance (순열 불변성)
Extrapolation (외삽)
Attention Mechanism
Trigonometric Identities (삼각함수의 덧셈 정리)
Rotary Positional Embedding (RoPE)

기본 정보

| 항목 | 내용 | |—|—| | 채널 | 임커밋 | | 카테고리 | 기타 | | 게시일 | 2026-04-02 | | 영상 길이 | 16:39 | | 처리 엔진 | gemini-3.1-flash-lite-preview+transcript | | 원본 영상 | YouTube에서 보기 |