핵심 요약
- 에이전틱 AI 시대에는 모델의 추론 능력보다 외부 지식과 과거 기록을 실시간으로 찾아내는 ‘데이터 공급’ 역량이 서비스 품질의 핵심이며, 이를 위해 모든 스토리지 시스템이 의미 기반의 데이터베이스(DB)로 진화하고 있습니다.
- 현재 AI 서비스의 병목 현상은 GPU가 아닌 데이터 검색을 담당하는 CPU에서 발생하고 있으며, 디노티시아는 이를 해결하기 위해 벡터 DB 및 시맨틱 검색을 하드웨어 차원에서 가속하는 VDPU(Vector Data Processing Unit)를 개발했습니다.
- LLM 추론 시 발생하는 KV 캐시가 수십 GB에 달해 HBM(고대역폭 메모리) 용량을 압박하고 있으므로, 연산 중심의 시스템에서 벗어나 메모리 내에서 직접 데이터를 처리하는 ‘메모리 중심 시스템’으로의 패러다임 전환이 필수적입니다.
주요 내용
1. 에이전틱 AI와 데이터 공급의 패러다임 시프트
- 데이터 공급의 중요성: 에이전틱 AI는 단순 연산을 넘어 외부 지식, 과거 작업 기록, 현재 맥락을 실시간으로 검색하여 답변을 생성합니다. 이제 서비스 품질은 모델 자체보다 ‘얼마나 정확한 데이터를 빠르게 뽑아주느냐’에 의해 결정됩니다.
- 다크 데이터의 자산화: 기업이 수집했으나 활용되지 못하던 90% 이상의 ‘다크 데이터’가 AI의 소스로 활용되면서 버려지던 데이터가 핵심 자산으로 신분이 상승하고 있습니다.
- 시맨틱 인터페이스로의 진화: 기존의 파일/디렉터리 중심 인터페이스가 AI가 이해할 수 있는 ‘의미 중심(Semantic)’ 인터페이스로 변화하며 모든 스토리지의 DB화가 진행 중입니다.
2. 하드웨어 병목 현상의 변화와 VDPU의 등장
- CPU 병목 발생: 에이전트 시스템이 도입되면서 데이터 검색 워크로드가 급증했습니다. 기존에 CPU가 담당하던 검색 및 툴 콜링(Tool Calling) 작업이 전체 연산의 상당 부분을 차지하며 시스템 속도를 저하시키고 있습니다.
- VDPU의 역할: 디노티시아가 제안하는 VDPU는 벡터 데이터베이스의 특징 추출 및 유사도 비교 연산을 가속합니다. 이는 GPU/NPU가 신경망 연산을 가속하는 것처럼, 데이터베이스 검색 작업을 전전 전용 칩으로 가속하여 CPU의 부담을 덜어주는 역할을 합니다.
3. 메모리 최적화 기술: KV 캐시와 터보퀀트
- KV 캐시의 압박: LLM 추론 시 이전 토큰 정보를 저장하는 KV 캐시는 사용자 수가 늘어날수록 기하급수적으로 증가하여 HBM 용량의 대부분을 차지하게 됩니다.
- 최적화 필요성: 구글의 ‘터보퀀트’와 같은 기술은 KV 캐시를 6배가량 압축하여 메모리 수요를 줄이려 하지만, 서비스 품질을 높이기 위해 더 긴 컨텍스트(Context)를 요구하는 시장의 특성상 메모리 발전과 최적화는 동시에 이루어져야 합니다.
핵심 데이터 / 비교표
[연산별 담당 하드웨어 비교]
| 구분 | 담당 하드웨어 | 주요 역할 | |—|—|—| | 신경망 연산 (LLM) | GPU / NPU | 딥러닝 모델의 행렬 연산 및 추론 가속 | | 데이터 검색/제어 | CPU | 데이터 검색, 툴 콜링, 시스템 전체 총괄 | | 데이터 검색 가속 | VDPU | 벡터 DB 검색, 시맨틱 검색 하드웨어 가속 |
[모델별 KV 캐시 용량 추정]
| 모델 기준 | 컨텍스트 크기 | 추정 용량 | |—|—|—| | 라 마 3.1 70B | 128k 토큰 | 약 43GB | | 빅테크 최신 모델 | 수백만 토큰 이상 | 수백 GB ~ TB 단위 육박 가능성 |
타임스탬프별 핵심 포인트
| 시간 | 핵심 내용 | |—|—| | 01:38 | 디노티시아(Dnotitia) 사명 의미: Deep + Notitia(심층 지식) | | 03:42 | 맥락 내 학습(In-Context Learning)을 통한 AI의 데이터 활용 메커니즘 | | 04:56 | 다크 데이터(Dark Data)의 가치 상승과 데이터 엑세스 주체의 변화(사람→AI) | | 06:12 | 의미론적 검색(Semantic Search)과 벡터 DB의 원리 | | 09:27 | VDPU(Vector Data Processing Unit)의 정의: 데이터 검색 가속 칩 | | 11:43 | KV 캐시의 개념: LLM 추론 시 이전 토큰 정보를 재사용하는 기술 | | 13:28 | 라마 3.1 기준 KV 캐시 용량 산출 데이터 (약 43GB 점유) | | 14:32 | 유저 세션별 KV 캐시 관리에 따른 메모리 부하 문제 |
결론 및 시사점
- 메모리 중심 시스템으로의 전환: 지금까지의 AI 하드웨어가 GPU 중심의 ‘연산 능력’에 집중했다면, 앞으로는 방대한 데이터를 효율적으로 찾아 공급하는 ‘메모리 및 스토리지 가속’ 기술이 경쟁 우위를 가를 것입니다.
- 한국의 기회: 데이터 공급의 핵심은 결국 메모리 반도체(DRAM, NAND)입니다. 메모리 제조 강국인 한국의 인프라를 바탕으로 VDPU와 같은 도메인 특화 반도체(ASIC)를 결합한다면, 글로벌 AI 하드웨어 시장에서 새로운 주도권을 확보할 수 있습니다.
추가 학습 키워드
- VDPU (Vector Data Processing Unit): 벡터 DB 연산을 전용으로 처리하는 가속기
- 시맨틱 검색 (Semantic Search): 키워드 일치가 아닌 의미적 유사성을 바탕으로 데이터를 찾는 기술
- KV 캐시 (Key-Value Cache): 생성 AI 모델이 문맥을 기억하기 위해 메모리에 저장하는 중간 연산 값
- 다크 데이터 (Dark Data): 수집되었으나 분석이나 의사결정에 활용되지 못한 채 방치된 데이터
- 에이전틱 AI (Agentic AI): 스스로 목표를 설정하고 필요한 도구와 지식을 검색하여 업무를 수행하는 AI 시스템
기본 정보
| 항목 | 내용 | |—|—| | 채널 | 티타임즈TV | | 카테고리 | 경제 | | 게시일 | 2026-04-30 | | 영상 길이 | 31:02 | | 처리 엔진 | gemini-3-flash-preview | | 원본 영상 | YouTube에서 보기 |