HDD에 초당 1petabyte 저장하기

← 2026-04-01 목록으로

핵심 요약

AWS S3는 느린 하드디스크를 사용하면서도 초당 1페타바이트의 입출력 속도를 구현하기 위해 데이터를 잘게 쪼개어 수만 개의 하드디스크에 분산 저장하는 방식을 채택하고 있습니다. 특정 하드에 부하가 집중되는 현상을 방지하기 위해 ‘Power of Two Choices’ 알고리즘을 사용하여 하드디스크 간 사용률을 균등하게 유지합니다. 데이터 손실에 대비해서는 Erasure 코딩을 적용해, 적은 추가 용량으로도 데이터 복구 효율을 높이고 읽기 속도를 최적화합니다.

주요 내용

1. 하드디스크의 한계를 극복하는 분산 저장 방식

S3는 성능이 좋은 SSD 대신 저렴한 하드디스크를 대량으로 사용합니다. 물리적인 속도 한계를 극복하기 위해 유저의 파일을 잘게 쪼개어 수만 개의 하드디스크에 분산 저장함으로써 전체적인 입출력 속도를 수만 배 증가시킵니다.

2. ‘Power of Two Choices’를 통한 부하 분산

단순 랜덤 방식으로 데이터를 저장하면 일부 하드디스크에 데이터가 쏠려 지연이 발생할 수 있습니다. 이를 해결하기 위해 데이터를 저장할 때 무작위로 하드 2개를 선택한 뒤, 상대적으로 사용률이 낮은 곳에 저장하는 ‘Power of Two Choices’ 알고리즘을 사용하여 하드디스크 간 사용률을 일정하게 맞춥니다.

3. Erasure 코딩을 통한 데이터 보호 및 효율성

데이터를 단순 복제하면 용량이 2배로 증가하지만, Erasure 코딩을 사용하면 원본 데이터 조각에 패리티(추가 정보)를 더해 용량 증가를 1.8배 수준으로 억제합니다. 이 방식은 조각 중 일부만 있어도 원본 복구가 가능하며, 특정 하드가 느릴 경우 해당 데이터를 기다리지 않고 다른 하드에서 빠르게 조각을 가져올 수 있어 읽기 성능도 향상됩니다.

4. 하드웨어 안정성 관리

S3는 하드디스크 고장에 대비해 주기적으로 상태를 검사하며, 새로 추가되어 불안정한 하드디스크에는 데이터 조각을 최소화하여 배정하는 등 리스크 관리를 수행합니다.

핵심 데이터 / 비교표

구분	내용
S3 처리량	초당 1 페타바이트
데이터 분산 저장	파일을 잘게 쪼개어 수만 개 하드에 분산
부하 분산 전략	Power of Two Choices (무작위 2개 중 낮은 사용률 선택)
데이터 복제 방식	Erasure 코딩 (용량 증가 약 1.8배, 복구 효율 극대화)
개인용 구현 기술	RAID 0(속도 향상), RAID 5(복구 가능)

타임스탬프별 핵심 포인트

| 시간 | 핵심 내용 | |—|—| | 00:00 | S3의 하드디스크 활용과 초당 1PB 입출력 처리 | | 00:46 | 데이터를 잘게 쪼개어 분산 저장하는 속도 향상 원리 | | 01:21 | 부하 집중을 방지하는 ‘Power of Two Choices’ 알고리즘 | | 02:27 | Erasure 코딩을 통한 데이터 복구 및 용량 절약 | | 03:20 | 하드 상태 모니터링 및 위험 관리 로직 | | 03:37 | 개인 NAS/RAID를 이용한 S3 아키텍처 구현법 |

결론 및 시사점

S3는 저비용의 하드디스크라는 하드웨어적 한계를 소프트웨어적 알고리즘(분산 처리, 부하 균등화, Erasure 코딩)으로 극복한 사례입니다. 대규모 시스템뿐만 아니라 개인이 NAS를 운용할 때도 RAID 기술 등을 통해 유사한 원리로 데이터의 안정성과 속도를 확보할 수 있습니다.

추가 학습 키워드

분산 파일 시스템 (Distributed File System)
Power of Two Choices 알고리즘
Erasure Coding (삭제 코드)
RAID (0, 1, 5 등)
부하 분산(Load Balancing) 알고리즘

기본 정보

| 항목 | 내용 | |—|—| | 채널 | 코딩애플 | | 카테고리 | 기타 | | 게시일 | 2026-04-01 | | 영상 길이 | 4:44 | | 처리 엔진 | gemini-3.1-flash-lite-preview+transcript | | 원본 영상 | YouTube에서 보기 |