NVIDIA H100 Tensor 코어 GPU

모든 데이터센터를 위한 전례 없는 성능, 확장성, 보안

가속화된 컴퓨팅을 위한 비약적인 도약

NVIDIA H100 Tensor 코어 GPU로 모든 워크로드에 대해 전례 없는 성능, 확장성, 보안을 달성하세요. NVIDIA® NVLink® 스위치 시스템을 사용하면 최대 256개의 H100을 연결하여 엑사스케일 워크로드를 가속화하고 전용 트랜스포머 엔진으로 매개 변수가 조 단위인 언어 모델을 처리할 수 있습니다. 여러 기술 혁신이 결합된 H100은 대규모 언어 모델의 속도를 이전 세대에 비해 30배 더 향상하여 업계를 선도하는 대화형 AI를 제공할 수 있습니다.

NVIDIA H100 데이터시트

워크로드를 엔터프라이즈에서 엑사스케일까지 안전하게 가속화하세요.

초대형 모델에서 최대 9배의 AI 훈련
다양한 전문가(3,950억 매개 변수)

혁신적인 AI 훈련

H100은 4세대 Tensor 코어와 FP8 정밀도의 트랜스포머 엔진을 탑재하여 전문가 혼합(MoE) 모델을 이전 세대보다 최대 9배 더 빠르게 훈련합니다. 900GB/s의 GPU 간 상호 연결을 제공하는 4세대 NVLink, 노드 전반의 모든 GPU에서 집단 통신을 가속화하는 NVLINK 스위치 시스템, PCIe Gen5, NVIDIA Magnum IO™ 소프트웨어의 조합은 소규모 엔터프라이즈에서 대규모의 통합 GPU 클러스터에 이르기까지 효율적인 확장성을 제공합니다. 데이터센터 규모로 H100 GPU를 배포하면 탁월한 성능을 제공하며 차세대 엑사스케일 고성능 컴퓨팅(HPC)과 매개 변수가 조 단위인 AI를 모든 연구원이 이용할 수 있습니다.

초대형 모델에서 최대 30배 더 높은 AI 추론 성능
Megatron 챗봇 추론(5,300억 매개 변수)

실시간 딥 러닝 추론

AI는 동등하게 광범위한 신경망을 사용하여 다양한 비즈니스 문제를 해결합니다. 뛰어난 AI 추론 가속기는 최고의 성능뿐만 아니라 이러한 네트워크를 가속화할 수 있는 다용성도 제공해야 합니다. H100은 NVIDIA의 업계 최고의 추론 리더십을 더욱 강화하여 추론을 최대 30배 가속화하고 지연 시간을 최소화합니다. 4세대 Tensor 코어는 FP64, TF32, FP32, FP16, INT8, 그리고 이제 FP8도 포함해 모든 정밀도에서 속도를 개선하여 대규모 언어 모델의 정확도를 유지하면서 메모리 사용량을 줄이고 성능을 향상합니다.

엑사스케일 고성능 컴퓨팅

HPC 애플리케이션 성능 최대 7배

NVIDIA 데이터센터 플랫폼은 무어의 법칙을 뛰어넘는 성능 향상을 일관적으로 제공합니다. 또한 H100의 새롭고 획기적인 AI 기능은 HPC+AI의 성능을 더욱 증폭하여 전 세계의 주요 난제들을 해결하기 위해 노력하는 과학자와 연구원의 연구 시간을 단축합니다.

H100은 배정밀도 Tensor 코어의 부동 소수점 연산(FLOPS)을 3배로 증가시켜 HPC에 60테라플롭스의 FP64 컴퓨팅을 제공합니다. AI 융합 HPC 애플리케이션은 H100의 TF32 정밀도를 활용하여 코드 변경 없이 단정밀도와 행렬 곱셈 연산에서 1페타플롭의 처리량을 달성할 수 있습니다.

H100은 또한 NVIDIA H100 Tensor 코어 GPU에 비해 7배 높은 성능과 더불어 DNA 서열 정렬을 위한 스미스-워터맨 등의 동적 프로그래밍 알고리즘에서 기존 듀얼 소켓 CPU 전용 서버에 비해 40배 더 빠른 속도를 제공하는 DPX 명령 기능이 있습니다.

데이터 분석

AI 애플리케이션 개발에서는 대부분의 시간이 데이터 분석에 소요될 때가 많습니다. 대규모 데이터 세트가 여러 서버에 흩어져 있기 때문에 상용 CPU 전용 서버를 사용하는 스케일아웃 솔루션은 확장 가능한 컴퓨팅 성능이 부족하여 발목을 잡히곤 합니다.

H100을 탑재한 가속화 서버는 GPU당 3TB/s의 메모리 대역폭 및 NVLink와 NVSwitch를 통한 확장성과 함께 컴퓨팅 성능을 제공하여 고성능으로 데이터 분석을 처리하고 대규모 데이터 세트를 지원하도록 확장할 수 있습니다. NVIDIA 데이터센터 플랫폼은 Quantum-2 Infiniband, Magnum IO 소프트웨어, GPU 가속 Spark 3.0, NVIDIA RAPIDS™와 결합하여 전례 없는 수준의 성능과 효율성으로 이러한 막대한 워크로드를 가속화할 수 있는 독보적인 위치에 있습니다.

엔터프라이즈 지원 활용률

IT 관리자들은 데이터센터에서 컴퓨팅 리소스의 활용률을(최대 활용률과 평균 활용률 모두) 극대화하려고 합니다. 이들은 종종 사용 중인 워크로드에 적합한 크기의 리소스로 컴퓨팅을 동적으로 재구성합니다.

H100의 2세대 MIG(Multi-Instance GPU)는 각 GPU를 최대 7개의 독립된 인스턴스로 안전하게 파티셔닝하여 활용률을 극대화합니다. 컨피덴셜 컴퓨팅을 지원하여 안전한 엔드 투 엔드 멀티 테넌트 사용이 가능한 H100은 클라우드 서비스 제공업체(CSP) 환경에 이상적입니다.

MIG를 사용하는 H100을 통해 인프라 관리자는 GPU 가속 인프라를 표준화하는 동시에 GPU 리소스를 더 세분화하여 유연하게 프로비저닝함으로써 개발자에게 적합한 양의 가속화 컴퓨팅을 제공하고 모든 GPU 리소스의 사용을 최적화할 수 있습니다.

NVIDIA 컨피덴셜 컴퓨팅과 보안

오늘날의 컨피덴셜 컴퓨팅 솔루션은 CPU 기반이므로 AI 및 HPC와 같은 컴퓨팅 집약적인 워크로드에는 너무 제한적입니다. NVIDIA 컨피덴셜 컴퓨팅은 NVIDIA Hopper 아키텍처의 내장 보안 기능입니다. 이를 탑재한 NVIDIA H100은 세계 최초로 컨피덴셜 컴퓨팅 기능을 갖춘 가속기입니다. 사용자는 전례 없이 가속화된 H100 GPU에 액세스하면서 사용 중인 데이터와 애플리케이션의 기밀성과 무결성을 보호할 수 있습니다.
NVIDIA 컨피덴셜 컴퓨팅은 단일 H100 GPU, 단일 노드 내의 다중 H100 GPU 또는 개별 MIG 인스턴스에서 실행되는 전체 워크로드를 보호하고 격리하는 하드웨어 기반의 신뢰할 수 있는 실행 환경(TEE)을 생성합니다. GPU 가속 애플리케이션은 TEE 내에서 변경하지 않고 실행할 수 있으며, 파티셔닝할 필요가 없습니다. 사용자는 AI 및 HPC용 NVIDIA 소프트웨어의 성능과 NVIDIA 컨피덴셜 컴퓨팅이 제공하는 하드웨어 RoT(Root of Trust)의 보안을 결합할 수 있습니다.

NVIDIA H100 CNX Converged Accelerator

NVIDIA H100 CNX는 NVIDIA H100의 성능과 NVIDIA ConnectX®-7 스마트 네트워크 인터페이스 카드(SmartNIC)의 고급 네트워킹 기능을 하나의 고유한 플랫폼으로 결합합니다. 이 결합은 엔터프라이즈 데이터센터의 분산 AI 훈련과 엣지의 5G 처리와 같은 GPU 기반 입력/출력(IO) 집약적 워크로드에 전례 없는 성능을 제공합니다.

NVIDIA Grace Hopper

Hopper Tensor Core GPU는 NVIDIA Grace Hopper CPU+GPU 아키텍처를 지원합니다. 테라바이트 규모의 가속 컴퓨팅을 위해 특별히 제작되었으며, 대규모 모델 AI 및 HPC에서 10배 더 높은 성능을 제공합니다. NVIDIA Grace CPU는 Arm® 아키텍처의 유연성을 활용하여 처음부터 가속화 컴퓨팅을 위해 설계된 CPU 및 서버 아키텍처를 생성합니다. Hopper GPU과 Grace가 결합되면 NVIDIA의 초고속 칩 간 상호 연결을 통해 PCIe Gen5보다 7배 빠른 900GB/s의 대역폭을 제공합니다. 이 혁신적인 설계는 오늘날의 가장 빠른 서버에 비해 최대 30배 높은 전체 대역폭과 테라바이트 규모의 데이터를 실행하는 애플리케이션에 최대 10배 더 높은 성능을 제공합니다.

NVIDIA DGX H100 System

AI 인프라의 최적 표준입니다.

세계적으로 입증된 엔터프라이즈 AI

NVIDIA DGX™ H100으로 혁신과 최적화의 영역을 확대하세요. NVIDIA의 전설적인 DGX 시스템의 최신 버전이자 NVIDIA DGX SuperPOD™의 토대인 DGX H100은 NVIDIA H100 Tensor 코어 GPU의 획기적인 성능으로 가속화된 AI의 강자입니다.

데이터시트 다운로드

가장 완벽한 AI 플랫폼

AI 혁신 센터의 초석

DGX H100은 세계 최초 특수 목적 AI 인프라의 4세대로서 새로운 NVIDIA AI 소프트웨어 솔루션 제품군 지원, 풍부한 서드파티 지원 에코시스템, NVIDIA 전문 서비스에서 제공하는 전문가 자문이 포함된 고도로 최적화된 하드웨어와 소프트웨어 플랫폼을 제공합니다.

대규모로 AI의 한계를 뛰어넘다

NVIDIA DGX H100은 NVIDIA DGX SuperPOD를 위한 6배 더 빠른 성능, 2배 더 빠른 네트워킹, 고속 확장성을 지원합니다. 차세대 아키텍처는 자연어 처리 및 딥 러닝 추천 모델과 같은 초대규모 워크로드에서 그 강력함을 드러냅니다.

사용자 요건을 충족하는 동급 최고의 인프라

DGX H100은 직접 관리할 수 있는 온프레미스 설치는 물론, NVIDIA DGX 지원 데이터센터에 공동 배치, NVIDIA DGX Foundry에 임대 및 NVIDIA 인증 관리형 서비스 공급업체를 통한 접근도 가능합니다. 또한 조직은 DGX 지원 라이프사이클 관리를 통해 최첨단 배포를 유지할 수 있는 예측 가능한 금융 모델을 확보할 수 있습니다.

DGX H100 둘러보기

최대 640GB의 총 GPU 메모리를 탑재한 NVIDIA H100 GPU 8개
GPU당 NVIDIA® NVLink® 18개, 900GB/s의 GPU 간 양방향 대역폭
NVIDIA NVSWITCH™ 4개
초당 7.2 테라바이트의 양방향 GPU 간 대역폭으로 이전 세대대비1.5배 향상
NVIDIA CONNECTX®-7 8개 및 NVIDIA BLUEFIELD® DPU 400Gb/s 네트워크 인터페이스 2개
1TB/s의 최대 양방향 네트워크 대역폭
듀얼 x86 CPU 및 2TB 시스템 메모리
초고도 AI 작업을 위한 강력한 CPU
30TB NVMe SSD
최고의 성능을 위한 고속 스토리지

제품 사양

폼 팩터	H100 SXM	H100 PCIe
FP64	30테라플롭스	24테라플롭스
FP64 Tensor 코어	60테라플롭스	48테라플롭스
FP32	60테라플롭스	48테라플롭스
TF32 Tensor 코어	1,000테라플롭스*	800테라플롭스*
BFLOAT16 Tensor 코어	2,000테라플롭스*	1,600테라플롭스*
FP16 Tensor 코어	2,000테라플롭스*	1,600테라플롭스*
FP8 Tensor 코어	4,000테라플롭스*	3,200테라플롭스*
INT8 Tensor 코어	4,000TOPS*	3,200TOPS*
GPU 메모리	80GB
GPU 메모리 대역폭	3TB/s	2TB/s
디코더	7 NVDEC 7 JPEG
최대 열 설계 전력(TDP)	700W	350W
멀티 인스턴스 GPU(MIG)	최대 7개의 MIG, 각각 10GB
폼 팩터	SXM	PCIe 듀얼 슬롯 공랭식
인터커넥트	NVLink: 900GB/s PCIe Gen5: 128GB/s	NVLINK: 600GB/s PCIe Gen5: 128GB/s
서버 옵션	4개 또는 8개의 GPU가 지원되는 NVIDIA HGX™ H100 파트너 및 NVIDIA- Certified Systems™ 8개의 GPU가 지원되는 NVIDIA DGX™ H100	GPU가 1~8개인 파트너 인증 시스템 및 NVIDIA-Certified System™

제품소개