NVIDIA A100 TENSOR 코어 GPU

모든 규모에서의 유례 없는 가속화

이 시대의 가장 중요한 작업 가속화

NVIDIA A100 Tensor 코어 GPU는 모든 규모에서의 유례없는 가속화를 제공하여 AI, 데이터 분석 및 HPC를 위한 세계 최고 성능과 유연성을 갖춘 데이터센터를 지원합니다. NVIDIA Ampere 아키텍처 기반의 A100은 NVIDIA 데이터센터 플랫폼의 엔진입니다. A100은 기존 세대보다 최대 20배 높은 성능을 제공하며, 7개의 GPU 인스턴스로 분할되므로 요구 변경 사항에 맞춰 동적으로 조정될 수 있습니다. 40GB와 80GB 메모리 버전으로 제공되는 A100 80GB는 GPU 메모리를 두 배로 높이며 초당 2테라바이트(TB/s)가 넘는 세계에서 가장 빠른 메모리 대역폭을 갖췄으므로 가장 큰 모델과 데이터세트도 실행할 수 있습니다.

NVIDIA A100 데이터시트

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

A100은 완전한 NVIDIA 데이터센터 솔루션의 일부로, 다양한 하드웨어, 네트워킹, 소프트웨어, 라이브러리 및 NGC™의 최적화된 AI 모델과 애플리케이션에 걸쳐 빌딩 블록을 통합합니다.
연구원은 데이터센터를 위한 가장 강력한 엔드 투 엔드 AI 및 HPC 플랫폼을 통해 실제 결과를 빠르게 제공하고 솔루션을 규모에 맞게 프로덕션에 배포할 수 있습니다.

딥러닝 훈련

가장 큰 규모의 모델에서 최대 3배의 AI 훈련
DLRM 훈련

AI 모델은 대화형 AI와 같은 차세대 도전 과제를 풀어나가면서 그 복잡성 역시 폭발적으로 커지고 있습니다.
이러한 모델을 훈련시키려면 엄청난 컴퓨팅 성능과 확장성이 필요합니다.

Tensor Float(TF32)를 갖춘 NVIDIA A100의 Tensor 코어는 코드를 변경할 필요 없이 이전 세대 NVIDIA Volta보다 최대 20배 높은 성능과 더불어 자동 혼합 정밀도 및 FP16으로 성능이 추가로 2배나 향상됩니다. NVIDIA® NVLink®, NVIDIA NVSwitch™, PCI Gen4, NVIDIA® InfiniBand®, NVIDIA Magnum IO™ SDK와 함께 사용하면 수천 개의 A100 GPU로 확장할 수 있습니다.

2,048개의 A100 GPU를 통해 BERT와 같은 다양한 규모의 훈련 워크로드를 1분 안에 해결할 수 있으며, 해결까지 걸리는 시간은 세계 신기록을 자랑합니다.

딥러닝 추천 모델(DLRM)과 같은 방대한 데이터 테이블이 있는 최대형 모델의 경우, A100 80GB는 노드당 1.3TB의 통합 메모리를 달성하며 처리량이 A100 40GB보다 3배 더 많습니다.
MLPerf에서 보여준 NVIDIA의 리더십은 업계 전반의 AI 훈련 벤치마크에서 여러 가지 성능 기록을 세웠습니다.
딥러닝 추론

A100은 획기적인 기능을 도입하여 추론 워크로드를 최적화합니다. FP32에서 INT4에 이르는 전체 범위의 정밀도를 가속화합니다. 멀티 인스턴스 GPU(MIG) 기술을 사용하면 여러 네트워크를 단일 A100에서 동시에 운용하여 컴퓨팅 리소스를 최적으로 활용할 수 있습니다. 또한 구조적 희소성 지원은 A100의 다른 추론 성능 이점 외에 최대 2배의 추가 성능을 제공합니다.

A100은 BERT와 같은 최첨단 대화형 AI 모델에서 추론 처리량을 CPU의 249배까지 가속합니다.

자동 음성 인식을 위한 RNN-T와 같이 배치 크기가 제약된 가장 복잡한 모델에서, A100 80GB의 개선된 메모리 용량은 각 MIG의 크기를 2배로 늘리며 A100 40GB보다 1.25배 더 높은 처리량을 제공합니다.

시장을 주도하는 NVIDIA의 성능은 MLPerf 추론에서 드러났습니다. A100은 20배의 추가 성능으로 시장 리더의 위상을 한층 더 높였습니다.

CPU보다 최대 249배 더 높은 AI 추론 성능
BERT 대규모 추론

A100 40GB보다 최대 1.25배 더 높은 AI 추론 성능
RNN-T 추론: 싱글 스트림
고성능 컴퓨팅

차세대 발견을 위해 과학자들은 우리 주위의 세계를 더 잘 이해할 수 있도록 시뮬레이션을 보고 있습니다.

NVIDIA A100에는 GPU 도입 이래로 HPC 성능에서 가장 커다란 도약을 보여준 배정밀도 Tensor 코어가 도입되었습니다. 가장 빠른 GPU 메모리 80GB와 A100을 결합함으로써 연구원은 10시간 배정밀도 시뮬레이션을 4시간 미만으로 줄일 수 있습니다. HPC 애플리케이션도 TF32를 활용하여 단정밀도의 고밀도 매트릭스 곱셈 연산에서 최대 11배 높은 처리량을 달성할 수 있습니다.

가장 큰 데이터세트가 있는 HPC 애플리케이션의 경우, A100 80GB의 추가적인 메모리는 소재 시뮬레이션인 Quantum Espresso에서 처리량이 최대 2배로 증가하는 모습을 보여줍니다. 이렇게 방대한 메모리와 전례 없는 메모리 대역폭 덕분에 A100 80GB는 차세대 워크로드에 이상적인 플랫폼이 되었습니다.

4년 동안 11배 향상된 HPC 성능
최고 HPC 앱

HPC 애플리케이션의 최대 1.8배 높은 성능
Quantum Espresso
고성능 데이터 분석

빅데이터 분석 벤치마크에서 A100 40GB보다 2배 빠른 속도
DLRM 훈련

데이터 사이언티스트는 대규모 데이터세트를 분석, 시각화하고 인사이트로 전환할 수 있어야 합니다. 하지만 스케일아웃 솔루션은 여러 서버에 흩어진 데이터세트 때문에 교착 상태에 빠지는 경우가 많습니다.

A100을 사용하는 가속화 서버는 방대한 메모리, 2TB/s를 넘는 메모리 대역폭, NVIDIA® NVLink®, NVSwitch™를 통한 확장성과 함께 필요한 컴퓨팅 성능을 제공하여 이러한 워크로드를 처리합니다. InfiniBand와 NVIDIA Magnum IO™ 그리고 GPU 가속 데이터 분석을 위한 Apache Spark용 RAPIDS Accelerator 등 오픈 소스 라이브러리의 RAPIDS™ 제품군과 함께 NVIDIA 데이터센터 플랫폼은 이러한 대규모 워크로드를 전례 없는 수준의 성능과 효율성으로 가속화합니다.

A100 80GB는 빅데이터 분석 벤치마크에서 A100 40GB보다 2배 더 많은 인사이트를 기록했으므로, 데이터세트 크기가 엄청 거대해진 요즘 워크로드에 적합합니다.
엔터프라이즈 지원 활용률

멀티 인스턴스 GPU(MIG)를 갖춘 7배 더 높은 추론 처리량
BERT 대규모 추론

MIG를 사용하는 A100은 GPU 가속화 인프라의 활용률을 극대화합니다. A100 GPU는 MIG를 통해 7개나 되는 별개의 인스턴스로 안전하게 분할될 수 있어 여러 사용자가 GPU 가속화에 액세스할 수 있습니다. A100 40GB의 경우 각 MIG 인스턴스에 최대 5GB가 할당할 수 있으며, A100 80GB로 메모리 용량이 증가하면 그 크기가 10GB로 2배가 됩니다.
MIG는 Kubernetes, 컨테이너, 하이퍼바이저 기반 서버 가상화와 연동됩니다. MIG는 인프라 관리자가 모든 작업에 보장된 서비스 품질(QoS)로 알맞은 크기의 GPU를 제공하도록 지원하여 모든 사용자가 가속 컴퓨팅 리소스를 사용할 수 있게 합니다.

데이터 센터 GPU

HGX용 NVIDIA A100

모든 워크로드에서 보여주는 최고의 성능.

PCIe용 NVIDIA A100

모든 워크로드에서 보여주는 최고의 다용성.

사양

	A100 40GB PCIe	A100 80GB PCIe	A100 40GB SXM	A100 80GB SXM
FP64	9.7TFLOPS
FP64 Tensor 코어	19.5TFLOPS
FP32	19.5TFLOPS
Tensor Float 32(TF32)	156TFLOPS \| 312TFLOPS*
BFLOAT16 Tensor 코어	312TFLOPS \| 624TFLOPS*
FP16 Tensor 코어	312TFLOPS \| 624TFLOPS*
INT8 Tensor 코어	624TOPS \| 1,248TOPS*
GPU 메모리	40GB HBM2	80GB HBM2e	40GB HBM2	80GB HBM2e
GPU 메모리 대역폭	1,555GB/s	1,935GB/s	1,555GB/s	2,039GB/s
최대 열 설계 전력(TDP)	250W	300W	400W	400W
멀티 인스턴스 GPU	최대 7개의 MIG @ 5GB	최대 7개의 MIG @ 10GB	최대 7개의 MIG @ 5GB	최대 7개의 MIG @ 10GB
폼 팩터	PCIe		SXM
인터커넥트	NVIDIA® NVLink® 2개의 GPU를 위한 브리지: 600GB/s ** PCIe Gen4: 64GB/s		NVLink: 600GB/s PCIe Gen4: 64GB/s
서버 옵션	1~8개의 GPU가 지원되는 파트너 및 NVIDIA-Certified System™		4개, 8개 또는 16개의 GPU가 지원되는 NVIDIA HGX™ A100 파트너 및 NVIDIA-Certified System 8개의 GPU가 지원되는 NVIDIA DGX™ A100

제품소개

NVIDIA A100 TENSOR 코어 GPU

이 시대의 가장 중요한 작업 가속화

가장 강력한 엔드 투 엔드 AI 및 HPC 데이터센터 플랫폼

딥러닝 훈련

가장 큰 규모의 모델에서 최대 3배의 AI 훈련 DLRM 훈련

딥러닝 추론

CPU보다 최대 249배 더 높은 AI 추론 성능 BERT 대규모 추론

A100 40GB보다 최대 1.25배 더 높은 AI 추론 성능 RNN-T 추론: 싱글 스트림

고성능 컴퓨팅

4년 동안 11배 향상된 HPC 성능 최고 HPC 앱

HPC 애플리케이션의 최대 1.8배 높은 성능 Quantum Espresso

고성능 데이터 분석

빅데이터 분석 벤치마크에서 A100 40GB보다 2배 빠른 속도 DLRM 훈련

엔터프라이즈 지원 활용률

멀티 인스턴스 GPU(MIG)를 갖춘 7배 더 높은 추론 처리량 BERT 대규모 추론

데이터 센터 GPU

HGX용 NVIDIA A100

PCIe용 NVIDIA A100

사양

가장 큰 규모의 모델에서 최대 3배의 AI 훈련
DLRM 훈련

CPU보다 최대 249배 더 높은 AI 추론 성능
BERT 대규모 추론

A100 40GB보다 최대 1.25배 더 높은 AI 추론 성능
RNN-T 추론: 싱글 스트림

4년 동안 11배 향상된 HPC 성능
최고 HPC 앱

HPC 애플리케이션의 최대 1.8배 높은 성능
Quantum Espresso

빅데이터 분석 벤치마크에서 A100 40GB보다 2배 빠른 속도
DLRM 훈련

멀티 인스턴스 GPU(MIG)를 갖춘 7배 더 높은 추론 처리량
BERT 대규모 추론