製品情報

NVIDIA A100(80GB)

PCI Express Gen.4版 TENSOR コア GPU

あらゆる規模で前例のないアクセラレート

  • 製品概要
  • 仕様

製品概要

現代で最も重要な作業を高速化

NVIDIA A100 Tensorコア GPUはあらゆる規模で前例のない高速化を実現し、世界最高のパフォーマンスを誇るエラスティックデータセンターに AI、データ分析、HPCのためのパワーを与えます。NVIDIA Ampereアーキテクチャで設計されたNVIDIA A100は、NVIDIAデ ータセンタープラットフォームのエンジンです。A100は、前世代と比較して最大20倍のパフォーマンスを発揮し、7つのGPUインスタンスに分割して、変化する需要に合わせて動的に調整できます。80GB のメモリを搭載した新しい A100 は、毎秒1.9テラバイト(TB/秒)超えの高速メモリ帯域幅を実現し、大規模なモデルやデータセットに対して解を得るまでの時間を短縮します。

ディープラーニング トレーニング

最大級のモデルで最大 3 倍高速な AI トレーニング

DLRM on HugeCTR framework, precision = FP16 | ​NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

対話型 AI といった次のレベルの課題に挑む AI モデルは、爆発的に複雑化しています。モデルのトレーニングには、大規模な計算処理能力とスケーラビリティが必要になります。

NVIDIA A100 のTensor コアと Tensor Float (TF32) を利用することで、NVIDIA Volta と比較して最大 20 倍のパフォーマンスがコードを変更することなく得られます。加えて、Automatic Mixed Precision と FP16 の活用でさらに 2 倍の高速化が可能になります。NVIDIA® NVLink®、NVIDIA NVSwitch、PCI Gen4、NVIDIA® Mellanox® InfiniBand®、NVIDIA Magnum IO SDK と組み合わせることで、数千個もの A100 GPU まで拡張できます。

2,048 基の A100 GPU という大規模な環境で、BERT などのトレーニング ワークロードを、世界記録となる 1 分未満で解決できます。

ディープラーニング レコメンデーション モデル (DLRM) といった大きなデータ テーブルを持つ最大級のモデルの場合、A100 80GB であれば、ノードあたり最大 1.3 TB の統合メモリに到達し、A100 40GB の最大 3 倍のスループットの増加が可能です。
NVIDIA は、AI トレーニングの業界標準ベンチマークであるMLPerfで複数のパフォーマンス記録を打ち立て、そのリーダーシップを確立しました。

ディープラーニング推論

A100 には、推論ワークロードを最適化する画期的な機能が導入されています。FP32 から INT4 まで、あらゆる精度を加速します。マルチインスタンス GPU (MIG) テクノロジでは、1 個の A100 で複数のネットワークを同時に動作できるため、コンピューティング リソースの使用率が最適化されます。また、構造化スパース性により、A100 による数々の推論性能の高速化に加え、さらに最大 2 倍のパフォーマンスがもたらされます。
BERT などの最先端の対話型 AI モデルでは、A100 は推論スループットを CPU の最大 249 倍に高めます。
メモリ容量の大きな A100 80GB では各 MIG のサイズが 2 倍になります。自動音声認識用の RNN-T といった、バッチサイズが制約された非常に複雑なモデルでは、A100 40GB に比べて最大 1.25 倍のスループットが得られます。
市場をリードする NVIDIA のパフォーマンスはMLPerf 推論 推論で実証されました。A100 は 20 倍のパフォーマンスを実現し、そのリードをさらに広げます。

CPU と比較して最大 249 倍高速なAI 推論パフォーマンス

BERT 大規模推論

BERT-Large Inference | CPU only: Dual Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 with sparsity.​

A100 40GB と比較して最大 1.25 倍高速なAI 推論パフォーマンス

RNN-T 推論: 単一のストリーム

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

ハイパフォーマンス コンピューティング

次世代の発見を解き明かすため、科学者たちは、私たちを取り巻いている世界をより良く理解するために、シミュレーションに関心を向けています。
NVIDIA A100 は、GPU の導入以降で最大のHPCパフォーマンスの飛躍を実現するために、Tensor コアを導入しています。80 GB の最速の GPU メモリと組み合わせることで、研究者は 10 時間かかる倍精度シミュレーションをA100 で 4 時間たらすに短縮できます。HPC アプリケーションで TF32 を活用すれば、単精度の密行列積演算のスループットが最大 11 倍向上します。
大規模データセットを扱う HPC アプリケーションでは、メモリが追加された A100 80GB により、マテリアル シミュレーションの Quantum Espresso において最大 2 倍のスループットの増加を実現します。この膨大なメモリと前例のないメモリ帯域幅により、A100 80GB は次世代のワークロードに最適なプラットフォームとなっています。

4 年間で 11 倍の HPC パフォーマンス

上位 HPC アプリケーション

Geometric mean of application speedups vs. P100: Benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.​

HPC アプリケーションで最大 1.8 倍高速なパフォーマンス

Quantum Espresso​

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

ハイパフォーマンス データ分析

ビッグ データ分析ベンチマークでCPUより最大83倍、A1004GBより2倍高速

Big data analytics benchmark | 30 analytical retail queries, ETL, ML, NLP on 10TB dataset | CPU: Intel Xeon Gold 6252 2.10 GHz, Hadoop | V100 32GB, RAPIDS/Dask | A100 40GB and A100 80GB, RAPIDS/Dask/BlazingSQL​

データ サイエンティストは、大量のデータセットを分析し、可視化し、インサイトに変えられる能力を求めています。しかしながら、スケールアウト ソリューションは行き詰まることが多々あります。複数のサーバー間でデータセットが分散されるためです。

A100 を搭載したアクセラレーテッド サーバーなら、大容量メモリ、2 TB/秒を超えるメモリ帯域幅、NVIDIA® NVLink® と NVSwitch によるスケーラビリティに加えて、必要な計算処理能力を提供し、データ分析ワークロードに対応することができます。InfiniBand、NVIDIA Magnum IO 、オープンソース ライブラリの RAPIDS スイート (GPU 活用データ分析用の RAPIDS Accelerator for Apache Spark を含む) と組み合わせることで、NVIDIA データ センター プラットフォームは前例のないレベルのパフォーマンスと効率性で大規模なデータ分析ワークロードを高速化します。

A100 80GB はビッグ データ分析ベンチマークで、CPU の 83 倍高いスループット、A100 40GB では 2 倍高いスループットでインサイトをもたらします。データセット サイズが爆発的に増える昨今のワークロードに最適です。

企業で効率的に利用

マルチインスタンス GPU (MIG) による 7 倍の推論スループット

BERT 大規模推論BERT Large Inference | NVIDIA TensorRT™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.​​

A100 とMIGの組み合わせにより、GPU 活用インフラストラクチャを最大限に利用できます。MIG を利用することで、A100 GPU を 7 つもの独立したインスタンスに分割できます。複数のユーザーが GPU アクセラレーションを利用できます。A100 40GB では、各 MIG インスタンス に最大 5GB まで割り当てることができ、A100 80GB のメモリ容量が増えたことで、そのサイズは 2 倍の 10GB になります。

MIG は、Kubernetes、コンテナー、ハイパーバイザーベースのサーバー仮想化. と連動します。MIG を利用することで、インフラストラクチャ管理者はあらゆるジョブに適切なサイズの GPU を提供し、サービスの品質 (QoS) を保証できます。アクセラレーテッド コンピューティング リソースをすべてのユーザーに届けることが可能です。

仕様


仕様

NVIDIA A100 PCI Express版
ピークFP64 9.7 TF
ピークFP64 Tensor コア 19.5 TF
ピークFP32 19.5 TF
ピークTF32 Tensor コア 156 TF | 312 TF*
ピークBFLOAT16 Tensor コア 312 TF | 624 TF*
ピークFP16 Tensor コア 312 TF | 624 TF*
ピークINT8 Tensor コア 624 TOPS | 1,248 TOPS*
ピークINT4 Tensor コア 1,248 TOPS | 2,496 TOPS*
GPUメモリ 80 GB
GPUメモリ帯域幅 1953GB/s
相互接続 64 GB/s
マルチインスタンス GPU 最大7MIG @10GBのさまざまなインスタンスサイズ
フォームファクター PCI Express x16 Gen.4
最大TDP電力 300W
主要アプリケーション
実効性能
90%

 

製品内容
  • NVIDIA® A100 80GB
  • 製品保証書
保証期間
  • 3年間保証
品番
製品名 NVIDIA A100 80GB
型番 ETSA100-80GER
JANコード 4524076071253
オプション
  • NVLink Bridge 2-Slot (for Ampere)

    NVIDIA NVLink Bridge 2-Slot
    (for Ampere) Retail
    ELSA型番:P3412
    JANコード:4524076030311

価格
  • オープンプライス

© 2021 NVIDIA Corporation. All Rights Reserved. NVIDIA, NVIDIA logo, Tesla, and CUDA are registered trademarks and/or trademarks of NVIDIA Corporation in the United States and other countries. Other company and product names may be trademarks of the respective companies with which they are associated.