핵심 요약
- 트랜스포머는 어텐션 연산 시 단어의 순서와 관계없이 동일한 결과를 도출하는 ‘순열 불변성(Permutation-invariant)’을 가지기에, 문맥 파악을 위한 위치 정보(PE) 삽입이 필수적이다.
- 학습 데이터 범위를 벗어난 긴 문장에 대응하기 위해 ‘학습 가능한 위치 벡터’ 대신 주기가 서로 다른 사인/코사인 함수를 활용한 ‘Sinusoidal Positional Encoding’을 사용하여 위치를 규칙으로 정의한다.
- 이 방식은 삼각함수의 덧셈 정리를 활용해 위치 간 ‘상대적 거리’가 동일하면 내적 값도 동일하게 유지되도록 설계함으로써 모델이 단어 간의 상대적 위치 관계를 효율적으로 학습하게 한다.
주요 내용
1. Positional Encoding(PE)의 필요성
- 트랜스포머의 어텐션 메커니즘은 단어의 순서가 바뀌어도(Permutation) 결과값이 동일하다.
- 문장은 단어의 배치 순서에 따라 의미가 완전히 달라지므로(예: “나를 버려” vs “어떻게 버려”), 모델이 단어의 위치를 인식할 수 있도록 별도의 위치 정보를 벡터 형태로 더해줘야 한다.
2. Learnable Positional Encoding의 한계
- 각 위치마다 고유한 벡터를 할당하여 학습시키는 방식이다.
- 학습 데이터의 최대 문장 길이를 벗어나는 입력(예: 학습은 512까지, 입력은 513 이상)이 들어올 경우, 모델이 해당 위치 정보를 전혀 알 수 없는 ‘Extrapolation(범위 밖 확장)’의 문제가 발생한다.
3. Sinusoidal Positional Encoding의 메커니즘
- 위치를 학습하는 대신 사인과 코사인을 이용한 함수 규칙으로 벡터를 생성한다.
- 시계의 원리: 초침, 분침, 시침이 각기 다른 주기로 회전하며 현재 시각을 유일하게 특정하듯, 차원별로 다른 진동 주기를 가진 사인/코사인 함수를 배치하여 모든 위치를 고유하게 구별한다.
4. 상대적 거리 정보와 수학적 설계
- 모델은 단어 간의 ‘상대적 거리’가 동일할 때 같은 연산 결과를 내야 한다.
- 삼각함수의 덧셈 정리를 활용하여 PE 벡터의 내적이 단어의 절대적 위치가 아닌 ‘상대적 차이(거리)’에만 의존하도록 설계되었다. 이는 모델 학습 과정에서 단어 간의 상대적 관계를 효과적으로 반영하는 기반이 된다.
핵심 데이터 / 비교표
| 방식 | 위치 정의 방법 | Extrapolation(범위 확장) | 특징 |
|---|---|---|---|
| Learnable PE | 위치별 고유 벡터 학습 | 불가 | 학습 범위를 벗어나면 정보 소실 |
| Sinusoidal PE | 함수 기반 규칙 적용 | 이론적 가능 | 시계처럼 주기적 패턴으로 위치 구별 |
타임스탬프별 핵심 포인트
| 시간 | 핵심 내용 | |—|—| | 00:30 | 어텐션의 순열 불변성(Permutation-invariant) 문제 제기 | | 01:50 | Learnable Positional Encoding의 정의와 한계점 | | 02:40 | Sinusoidal Positional Encoding의 도입 배경 | | 03:30 | 시계의 원리로 비유한 차원별 주기 활용법 | | 04:30 | 덧셈 정리를 통한 상대적 거리 정보 보존의 이점 |
결론 및 시사점
- Sinusoidal PE는 절대적인 위치 값을 외우는 것이 아니라, 삼각함수의 규칙을 통해 모델이 위치 관계를 스스로 파악할 수 있도록 수학적으로 설계된 체계이다.
- 학습 시 보지 못한 긴 문장 처리에 대응할 수 있다는 확장성과, 단어 간 상대적 위치 관계를 내적 연산에 자연스럽게 녹여내는 이론적 견고함이 이 방식의 핵심이다.
- 다만, 최신 모델들에서는 이러한 방식보다 발전된 형태인 ‘RoPE(Rotary Positional Embedding)’ 방식이 주로 사용되고 있다.
추가 학습 키워드
- Permutation Invariance (순열 불변성)
- Extrapolation (외삽)
- Attention Mechanism
- Trigonometric Identities (삼각함수의 덧셈 정리)
- Rotary Positional Embedding (RoPE)
기본 정보
| 항목 | 내용 | |—|—| | 채널 | 임커밋 | | 카테고리 | 기타 | | 게시일 | 2026-04-02 | | 영상 길이 | 16:39 | | 처리 엔진 | gemini-3.1-flash-lite-preview+transcript | | 원본 영상 | YouTube에서 보기 |