HBM 다음은 HBF? AI 연산의 판도를 바꾸는 메모리 반도체 경쟁
핵심 요약
AI 컴퓨팅 시장의 경쟁 구도가 연산 능력 중심에서 메모리 중심으로 변화하고 있습니다. 이는 대규모 언어 모델(LLM)의 등장으로 인한 방대한 데이터 처리와 AI 추론 과정에서의 빠른 기억력 요구에 기인합니다. 기존 연산 장치(GPU)와 메모리 대역폭 간의 발전 속도 불균형 및 물리적 한계로 인해, 고대역폭 메모리(HBM)를 넘어 계층화된 메모리 구조와 새로운 고대역폭 플래시(HBF) 메모리가 핵심 경쟁력으로 부상하고 있습니다.
주요 내용
AI 컴퓨팅 시장의 변화: 메모리 반도체의 부상
과거 값싼 부품 취급을 받던 메모리 반도체가 이제 AI 컴퓨팅 시장의 경쟁 구도를 뒤흔들고 있습니다. ‘메모리 센트릭(Memory Centric)’ 시대에서는 지능이 기억에 의해 결정되는 것으로 재편되고 있습니다.
1. 연산 능력에서 기억력으로의 전환
- 기존 AI: AI는 흔히 엄청난 계산 능력을 떠올리게 하며, GPU와 같은 연산 장치가 각광을 받았습니다.
- 최신 AI: 최신 AI에 중요한 것은 계산이 아니라 ‘기억력’입니다. 과거에는 얼마나 많이 연산할 수 있는지가 AI 성능 경쟁의 핵심이었다면, 이제는 얼마나 많이 기억하고 있는가로 승부처가 이동하고 있습니다.
2. LLM 시대, 메모리의 중요성
- 생성형 AI 모델: 챗GPT와 같은 생성형 AI는 트랜스포머(Transformer) 모델을 기반으로 작동하며, 어텐션 메커니즘(Attention Mechanism)이 핵심입니다.
- 어텐션 메커니즘: 입력된 데이터의 각 요소가 서로 얼마나 중요한지를 계산하여 의미 있는 정보에 더 큰 가중치를 두어 집중하는 기술입니다. 이를 통해 AI 모델은 단어 간 관계와 문맥을 정교하게 파악하여 자연스럽고 정밀한 답변을 만들어낼 수 있습니다.
- 메모리 요구량 급증: 트랜스포머 모델 등장 이후 AI는 엄청난 성능 향상을 이뤘지만, 그만큼 연산 요구량과 특히 메모리 요구량이 급증했습니다. 전체 문맥을 이해하기 위해 수조 개의 파라미터를 실시간으로 훑어야 하고, 이전 대화 내용을 전부 기억하고 있어야 하기 때문입니다.
- KV-캐시(Key-Value Cache): 대규모 언어 모델(LLM)은 답변을 생성할 때 기존 대화 내용을 ‘키-값 캐시’라는 일종의 메모장에 계속해서 기록해 둡니다. 대화가 길어질수록 메모리에 저장해야 할 내용이 눈덩이처럼 불어납니다.
- 전문가 혼합 구조(MoE, Mixture-of-Experts): 딥시크 쇼크 이후 대세가 된 MoE 구조는 연산 효율을 높였지만, 모든 전문가 모델이 메모리에 대기하고 있어야 하므로 메모리 용량에 대한 요구치는 오히려 더 높아졌습니다.
3. 훈련에서 추론으로 넘어가며 메모리가 중요해진 이유
- AI의 단계 전환: AI가 훈련에서 추론 단계로 넘어가면서 메모리 의존에 대한 문제가 더욱 두드러지고 있습니다.
- 훈련 연산 (병렬 연산): 병렬적으로 진행되어 대용량 메모리 풀에 데이터를 효율적으로 대량 입력합니다.
- 추론 연산 (순차 연산): 한 번에 한 토큰씩 순차적으로 생성됩니다. 연산력 자체보다 이전 토큰의 정보를 기억하고 중간 연산 결과를 얼마나 빠르게 가져올 수 있는지가 중요해집니다.
- 메모리의 필수성: 충분한 메모리가 있어야 생성형 AI가 밀리지 않고 결과물을 생성해낼 수 있습니다.
4. FLOPs에서 TTFT와 TPOT의 싸움으로
- 사용자 경험과 직결: 메모리 역량은 서비스의 품질과 사용자의 경험에 직결됩니다. AI 비즈니스 경쟁은 정확도뿐 아니라 응답 지연 시간에도 달려있습니다.
- 핵심 지표: 사용자에게 중요한 것은 GPU 코어 개수나 FLOPs(GPU가 1초당 처리할 수 있는 연산 횟수)가 아니라, “내 질문에 얼마나 빠르게 반응하는가”입니다.
- TTFT (Time to First Token): 사용자가 엔터를 치고 첫 번째 글자(반응)가 화면에 찍힐 때까지 걸리는 시간. 서비스의 ‘첫인상’을 결정합니다.
- TPOT (Time Per Output Token): 첫 토큰 이후 토큰들이 끊기지 않고 얼마나 매끄럽게 출력되는지를 나타내는 속도.
- 두 가지 핵심 문제: 이 두 시간을 얼마나 줄여내는지가 고객을 잡아둘 수 있는 역량이 됩니다. 이 지표들을 좌우하는 핵심 변수가 메모리인데, 두 가지 문제에 직면해 있습니다.
- 발전 속도의 비대칭: 지난 2년간 AI 모델이 처리해야 할 연산량은 750배 폭증했지만, GPU 연산 성능은 30배, 메모리 대역폭은 고작 1.6배 늘어나는 데 그쳤습니다. 스포츠카의 엔진(GPU)은 수십 배 좋아졌는데, 도로는 여전히 비포장도로인 셈입니다.
- 물리적 한계 (폰 노이만 구조): 우리가 사용하는 컴퓨터 구조는 연산 장치(CPU, GPU)와 저장 장치(메모리)가 물리적으로 떨어져서 서로 정보를 교환하는 폰 노이만 구조를 채택하고 있습니다. 데이터센터 현장에서는 GPU가 데이터가 도착하기를 기다리며 가동 시간의 약 30%를 그냥 흘려보내고 있습니다. 단순히 연산 장치를 늘리는 방식만으로는 한계가 있습니다. 해법으로 HBM처럼 메모리를 쌓고 이를 연산 장치 바로 옆에 패키징하여 물리적 거리를 줄이는 방식이 등장했지만, 여전히 거대한 AI 모델이 요구하는 메모리 수요를 모두 감당하기는 쉽지 않습니다.
5. HBM만으로는 부족하다: 기억의 계층화 (Memory Hierarchy)
- 메모리의 한계: HBM은 속도가 빠르지만 가격이 비싸고, 앞으로의 AI 발전을 생각하면 용량이 턱없이 부족합니다.
- 새로운 해법: 기억의 계층화: 데이터의 중요도와 빈도에 따라 메모리를 나누는 ‘기억의 계층화’ 개념이 등장하고 있습니다. 인간의 뇌가 단기 기억과 장기 기억을 나눠 쓰는 것을 모방한 개념입니다.
- ‘뜨거운 기억’ (Hot Tier): GPU 옆에 탑재되는 HBM이 맡는 기억. 당장 문제를 풀기 위해 펼쳐 놓은 참고서와 같고 속도가 생명입니다. 하지만 책상 공간이 좁기 때문에 많은 책을 둘 수 없습니다.
- ‘차가운 기억’ (Cold Tier): SSD(Solid State Drive)와 같은 칩이 맡는 기억. 도서관에 있는 책과 같아서 당장은 안 쓰지만 언젠가 필요할지도 모르는 수만 권의 장서와 같습니다. 가지러 가는 데 시간은 걸리지만 보관 비용이 가장 저렴하고 용량은 무제한에 가깝습니다.
- ‘따뜻한 기억’ (Warm Tier): ‘뜨거운 기억’과 ‘차가운 기억’ 사이에 위치하며 효율성을 극대화하는 계층. 책상에는 없지만 자주 꺼내 봐야 하는 두꺼운 전공 서적과 같은 개념입니다. 기존에는 HBM과 SSD 사이의 속도 차이가 너무 커서 병목 현상이 발생했습니다. 이 간극을 메우기 위해 새로운 계층을 추가한 것입니다.
- HBF (High Bandwidth Flash)의 등장: 이 역할을 위해 새로 등장한 메모리가 바로 HBF입니다. 낸드 플래시(NAND Flash)를 HBM처럼 수직으로 쌓아 올린 메모리 칩입니다.
- 특징: DRAM보다 용량이 크고 가격은 저렴한 낸드의 특성상, HBM 대비 10배 이상의 데이터를 저장하면서도 가격은 훨씬 저렴합니다. 속도는 HBM이나 DRAM보다는 느리지만, 기존 SSD 대비 대역폭을 높이고 적층 구조를 통해 용량을 크게 확보할 수 있어 차가운 데이터와 뜨거운 데이터 사이에서 효율적으로 저장 및 공급하는 중간 계층으로 주목받고 있습니다.
6. 변화하는 AI 하드웨어 주도권
- 메모리 산업의 중심화: 메모리의 중요성이 커지고 메모리 계층을 다양화하면서 메모리 산업이 AI의 중심이 되어가고 있습니다.
- 주도권 이동: 이전까지는 AI 가속기, 즉 GPU를 만드는 기업들이 AI 컴퓨팅 시장을 세팅했다면, 이제 메모리가 AI 컴퓨팅을 세팅하는 상황이 온다는 전망입니다.
- 낸드 플래시 기업의 약진: HBF가 주목을 받으면서 단순히 저장 장치 취급을 받던 낸드 플래시 기업들도 약진하고 있습니다. 대표적으로 미국의 샌디스크와 일본의 키오시아이며, 삼성전자와 SK하이닉스도 이들과 손잡고 HBF를 개발 중이라고 합니다 (2027년 양산 목표).
- 메모리 반도체 기업 위상 강화: HBM을 통해 높아진 메모리 반도체 기업들의 위상이 다시 한 단계 높아질 것으로 보입니다.
- 메모리 센트릭의 현실화: AI 컴퓨팅에서 메모리가 중심적인 역할을 수행한다는 ‘메모리 센트릭’에 대한 이야기는 다양한 기술적 아이디어로 등장했습니다. 아직 상용화되지는 않았지만, 폰 노이만 구조를 탈피하여 메모리 안에서 연산을 마친다는 PIM과 같이 각광받던 아이디어도 있었습니다. HBF 역시 이런 관점에서 볼 필요가 있습니다.
- 메모리 메가 사이클: ‘부품’ 취급을 받던 메모리 반도체가 ‘특수 제품’이 되면서 무게중심이 이동하고 있고, 메모리 공급자가 주도권을 쥐는 시장으로 변화하면서 메모리 슈퍼 사이클 그 이상을 가는 메가 사이클이 돌아오고 있는 것 같습니다.
핵심 데이터 / 비교표
| 구분 | AI 모델 연산량 | GPU 연산 성능 | 메모리 대역폭 |
|---|---|---|---|
| 2년간 변화 | 750배 증가 | 30배 증가 | 1.6배 증가 |
| 구분 | NAND Flash (HBF) | DRAM (HBM) |
|---|---|---|
| 용도 | 데이터 저장 (SSD, USB 등) | 주기억장치 (메인 메모리) |
| 용량 | 매우 높음 (수십 GB ~ 수십 TB) | 상대적으로 낮음 (수 GB ~ 수백 GB) |
| 속도 | 느림 | 매우 빠름 |
| 가격 | 저렴함 (DRAM 대비 약 1/10 이하) | 비쌈 (NAND 대비 압도적으로 높음) |
타임스탬프별 핵심 포인트
| 시간 | 핵심 내용 | |—|—| | 00:00 | HR 컨퍼런스 프로모션 | | 00:21 | AI 컴퓨팅 시장의 경쟁 구도를 뒤흔드는 메모리 반도체 | | 00:31 | #1 AI 연산의 핵심이 ‘계산 능력’에서 ‘기억력’으로 변화 | | 00:56 | #2 LLM 시대, 트랜스포머 모델의 핵심인 어텐션 메커니즘과 메모리 요구량 | | 01:46 | 어마어마한 양의 기억력, 즉 메모리를 요구하기 시작하는 AI 모델 | | 01:58 | 대화 내용을 ‘키-값 캐시(KV-Cache)’에 저장하는 LLM | | 02:09 | 전문가 혼합 구조(MoE)의 등장으로 메모리 용량 요구치 상승 | | 02:27 | #3 AI 훈련에서 추론 단계로 넘어가면서 메모리의 중요성이 부각되는 이유 | | 02:54 | #4 GPU 코어 개수와 FLOPs보다 중요한 사용자 중심 지표 TTFT와 TPOT | | 03:19 | TTFT(Time to First Token)와 TPOT(Time Per Output Token) 설명 | | 03:53 | AI 모델 연산량 750배 vs GPU 연산 성능 30배 vs 메모리 대역폭 1.6배 (발전 속도 비대칭) | | 04:19 | #2 물리적 한계: 폰 노이만 구조와 메모리 병목 현상 | | 04:40 | GPU 가동 시간의 30%가 데이터 대기 시간으로 소모 | | 04:50 | HBM(고대역폭 메모리)을 통한 물리적 거리 단축 해법 | | 05:02 | #5 HBM만으로는 부족하다: ‘기억의 계층화(Memory Hierarchy)’ 개념 도입 | | 05:38 | ‘뜨거운 기억(Hot Tier)’, ‘차가운 기억(Cold Tier)’, ‘따뜻한 기억(Warm Tier)’ 설명 | | 06:43 | 기존 HBM과 SSD 사이의 속도 차이로 인한 ‘병목 현상’ 발생 | | 06:54 | HBF(High Bandwidth Flash)의 등장: 낸드 플래시 기반의 새로운 중간 계층 메모리 | | 07:01 | NAND Flash와 DRAM의 용도, 용량, 속도, 가격 비교 | | 07:28 | #6 변화하는 AI 하드웨어 주도권: GPU 중심에서 메모리 중심으로 | | 07:44 | HBF 주목으로 단순 저장 장치였던 낸드 플래시 기업들의 약진 | | 07:50 | 샌디스크, 키오시아, 삼성전자, SK하이닉스의 HBF 개발 현황 (2027년 양산 목표) | | 08:04 | ‘메모리 센트릭’ 컴퓨팅 시대의 도래와 메모리 산업의 ‘메가 사이클’ 전망 | | 08:43 | 마무리 인사 및 구독, 좋아요 요청 |
결론 및 시사점
AI 기술 발전의 핵심 동력이 연산 처리 능력에서 메모리 기술로 이동하고 있습니다. 대규모 언어 모델(LLM)의 복잡성과 추론 과정에서의 실시간 반응성 요구가 높아지면서, 방대한 데이터를 효율적으로 저장하고 빠르게 접근할 수 있는 메모리 솔루션의 중요성이 극대화되고 있습니다. 특히 HBM에 이어 HBF와 같은 새로운 계층형 메모리 기술의 등장은 기존 메모리 반도체 산업의 위상을 재정립하고, AI 컴퓨팅 시장의 주도권을 하드웨어, 특히 메모리 공급자가 쥐게 되는 새로운 메가 사이클을 예고하고 있습니다. 따라서 향후 AI 산업에서는 메모리 기술 개발 및 확보가 핵심적인 경쟁 우위 요소가 될 것입니다.
추가 학습 키워드
- 메모리 센트릭 (Memory Centric)
- 트랜스포머 모델 (Transformer Model)
- 어텐션 메커니즘 (Attention Mechanism)
- 기억의 계층화 (Memory Hierarchy)
- 고대역폭 플래시 (High Bandwidth Flash, HBF)
기본 정보
| 항목 | 내용 | |—|—| | 채널 | 티타임즈TV | | 카테고리 | 과학기술 | | 게시일 | 2026-02-24 | | 영상 길이 | 8:53 | | 처리 엔진 | gemini-2.5-flash | | 원본 영상 | YouTube에서 보기 |