| NVIDIA L4 仕様 | |
|---|---|
| FP 32 | 30.3 テラフロップス |
| TF32 Tensor Core | 60 テラフロップス |
| FP16 Tensor Core | 121 テラフロップス |
| BFLOAT16 Tensor Core | 121 テラフロップス |
| FP8 Tensor Core | 242.5 テラフロップス |
| INT8 Tensor Core | 242.5 TOPs |
| GPUメモリ | 24GB GDDR6 |
| GPUメモリ帯域幅 | 300GB/s |
| 最大熱設計電力 (TDP) | 72W |
| フォームファクタ | 1スロット ロープロファイル PCIe |
| インターコネクト | PCIe Gen4 x16 |
| 仕様表 | L4 |
もちろん、L4の価格が約2500ドル、A2がその半額程度、そして古いがまだかなり高性能なT4が中古で1000ドル未満で入手可能であることを考えると、これらの3つの推論GPUの違いは何なのかという疑問が生じます。
| NVIDIA L4、A2、T4 仕様 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| FP 32 | 30.3 テラフロップス | 4.5 テラフロップス | 8.1 テラフロップス |
| TF32 Tensor Core | 60 テラフロップス | 9 テラフロップス | N/A |
| FP16 Tensor Core | 121 テラフロップス | 18 テラフロップス | N/A |
| BFLOAT16 Tensor Core | 121 テラフロップス | 18 テラフロップス | N/A |
| FP8 Tensor Core | 242.5 テラフロップス | N/A | N/A |
| INT8 Tensor Core | 242.5 TOPs | 36 TOPS | 130 TOPS |
| GPUメモリ | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
| GPUメモリ帯域幅 | 300GB/s | 200GB/s | 320+ GB/s |
| 最大熱設計電力 (TDP) | 72W | 40-60W | 70W |
| フォームファクタ | 1スロット ロープロファイル PCIe | ||
| インターコネクト | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| 仕様表 | L4 | A2 | T4 |
これらの3つのカードを見る上で理解すべきことは、それらが世代的に1対1の置き換えではないということです。これが、T4が長年経っても一部のユースケースで人気のある選択肢であり続けている理由を説明しています。A2は、低消費電力でより互換性の高い(x8対x16メカニカル)オプションとしてT4の後継として登場しました。技術的には、L4はT4の後継であり、A2は将来的にリフレッシュされるかもしれないされないかもしれない中間的な位置を占めています。
MLPerf Inference 3.1 パフォーマンス
MLPerfは、学術界、研究機関、産業界のAIリーダーからなるコンソーシアムであり、公正で関連性の高いAIハードウェアおよびソフトウェアベンチマークを提供するために設立されました。これらのベンチマークは、さまざまなタスクとシナリオにおける機械学習ハードウェア、ソフトウェア、およびサービスのパフォーマンスを測定するように設計されています。
私たちのテストは、2つの特定のMLPerfベンチマークに焦点を当てています:Resnet50とBERT。
- Resnet50:これは主に画像分類に使用される畳み込みニューラルネットワークです。画像処理に関連するディープラーニングタスクをシステムがどの程度うまく処理できるかを示す良い指標です。
- BERT(Bidirectional Encoder Representations from Transformers):このベンチマークは自然言語処理タスクに焦点を当てており、システムが人間の言語を理解し処理する能力を評価します。
これらの両方のテストは、画像および言語処理を含む実際のシナリオにおけるAIハードウェアの能力を評価するために重要です。
これらのベンチマークを使用したNVIDIA L4の評価は、特定のAIタスクにおけるL4 GPUの能力を理解する上で重要です。また、さまざまな構成(シングル、デュアル、クアッドセットアップ)がパフォーマンスにどのように影響するかについての洞察も提供します。この情報は、AIインフラストラクチャを最適化したい専門家や組織にとって不可欠です。
モデルは、サーバーとオフラインの2つの主要なモードで実行されます。
- オフラインモード:このモードは、すべてのデータが同時に処理可能である場合のシステムのパフォーマンスを測定します。これは、システムが一括で大規模なデータセットを処理するバッチ処理に似ています。オフラインモードは、レイテンシが主要な懸念事項ではないが、スループットと効率が重要なシナリオに不可欠です。
- サーバーモード:対照的に、サーバーモードは、リクエストが一度に1つずつ入ってくる実際のサーバー環境を模倣したシナリオでのシステムのパフォーマンスを評価します。このモードはレイテンシに敏感であり、システムが各リクエストにどれだけ迅速に応答できるかを測定します。これは、即時の応答が必要なWebサーバーやインタラクティブアプリケーションなどのリアルタイムアプリケーションに不可欠です。
1 x NVIDIA L4 – Dell PowerEdge XR7620
最近のDell PowerEdge XR7620のレビューの一部として、単一のNVIDIA L4を搭載し、MLPerfを含むいくつかのタスクを実行するためにエッジに持ち込みました。
私たちのテストシステムの構成は、以下のコンポーネントを含んでいました:
- 2 x Xeon Gold 6426Y – 16コア 2.5GHz
- 1 x NVIDIA L4
- 8 x 16GB DDR5
- 480GB BOSS RAID1
- Ubuntu Server 22.04
- NVIDIA Driver 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | スコア |
|---|---|
| Resnet50 – サーバー | 12,204.40 |
| Resnet50 – オフライン | 13,010.20 |
| BERT K99 – サーバー | 898.945 |
| BERT K99 – オフライン | 973.435 |
Resnet50およびBERT K99のサーバーおよびオフラインシナリオでのパフォーマンスはほぼ同一であり、L4が異なるサーバーモデル間で一貫したパフォーマンスを維持していることを示しています。
1、2、4基のNVIDIA L4 – Dell PowerEdge T560
私たちのレビューユニットの構成は、以下のコンポーネントを含んでいました:
- 2 x Intel Xeon Gold 6448Y (各32コア/64スレッド、225ワットTDP、2.1-4.1GHz)
- 8 x 1.6TB Solidigm P5520 SSD (PERC 12 RAIDカード付き)
- 1-4x NVIDIA L4 GPU
- 8 x 64GB RDIMM
- Ubuntu Server 22.04
- NVIDIA Driver 535
| Dell PowerEdge T560 1x NVIDIA L4 | スコア |
|---|---|
| Resnet50 – サーバー | 12,204.40 |
| Resnet50 – オフライン | 12,872.10 |
| Bert K99 – サーバー | 898.945 |
| Bert K99 – オフライン | 945.146 |
Dell T560で2基のL4を使用したテストでは、Resnet50およびBERT K99ベンチマークの両方でほぼ線形のスケーリングパフォーマンスが観察されました。このスケーリングは、L4 GPUの効率と、オーバーヘッドや非効率による大きな損失なしに連携して動作する能力の証です。
| Dell PowerEdge T560 2x NVIDIA L4 | スコア |
|---|---|
| Resnet50 – サーバー | 24,407.50 |
| Resnet50 – オフライン | 25,463.20 |
| BERT K99 – サーバー | 1,801.28 |
| BERT K99 – オフライン | 1,904.10 |
2基のNVIDIA L4 GPUで確認された一貫した線形スケーリングは、4基のL4ユニットを搭載した構成にも印象的に拡張されます。このスケーリングは、並列処理とリソース管理の複雑さにより、GPUを追加するたびに線形パフォーマンスの向上がますます困難になるため、特に注目に値します。
| Dell PowerEdge T560 4x NVIDIA L4 | スコア |
|---|---|
| Resnet50 – サーバー | 48,818.30 |
| Resnet50 – オフライン | 51,381.70 |
| BERT K99 – サーバー | 3,604.96 |
| BERT K99 – オフライン | 3,821.46 |
これらの結果は説明目的のみであり、競争的または公式なMLPerfの結果ではありません。完全な公式結果リストについては、MLPerf結果ページをご覧ください。
NVIDIA L4 GPUの線形スケーラビリティを検証することに加えて、ラボでのテストは、これらのユニットをさまざまな運用シナリオに展開する実際的な影響を明らかにしました。たとえば、L4 GPUを使用したすべての構成で、サーバーモードとオフラインモード間のパフォーマンスの一貫性は、それらの信頼性と汎用性を明らかにしています。
この側面は、運用コンテキストが大きく異なるビジネスや研究機関にとって特に重要です。さらに、インターコネクトのボトルネックの影響が最小限であること、およびマルチGPUセットアップでのGPU同期の効率に関する観察は、AIインフラストラクチャをスケーリングしたい人々にとって貴重な洞察を提供します。これらの洞察は、単なるベンチマーク数値を超え、そのようなハードウェアが実際のシナリオでどのように最適に活用できるかについての深い理解を提供し、AIおよびHPCインフラストラクチャにおけるより良いアーキテクチャ上の決定と投資戦略を導きます。
NVIDIA L4 – アプリケーションパフォーマンス
新しいNVIDIA L4のパフォーマンスを、その前に登場したNVIDIA A2およびNVIDIA T4と比較しました。過去のモデルに対するこのパフォーマンスアップグレードを示すために、すべての3つのモデルをラボのサーバーに展開し、Windows Server 2022と最新のNVIDIAドライバーを使用し、GPUテストスイート全体を活用しました。
これらのカードは、以下の構成のDell Poweredge R760でテストされました:
- 2 x Intel Xeon Gold 6430 (32コア、2.1GHz)
- Windows Server 2022
- NVIDIA Driver 538.15
- 1xサンプリングのためにすべてのカードでECCを無効化
この3つのエンタープライズGPUグループ間のパフォーマンステストを開始するにあたり、以前のA2およびT4モデル間の独自のパフォーマンスの違いに注意することが重要です。A2がリリースされたとき、それは低消費電力や、古いT4が必要としていたより大きなPCIe Gen3 x16スロットではなく、より小さなPCIe Gen4 x8スロットでの動作など、いくつかの注目すべき改善を提供しました。すぐに、特に必要なフットプリントが小さいシステムにスロットインできるようになりました。
Blender OptiX 4.0
Blender OptiXはオープンソースの3Dモデリングアプリケーションです。このテストはCPUとGPUの両方で実行できますが、ここでは他のほとんどのテストと同様にGPUのみを実行しました。このベンチマークは、Blender Benchmark CLIユーティリティを使用して実行されました。スコアはサンプル/分であり、高いほど良いです。
| Blender 4.0 (高いほど良い) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| GPU Blender CLI – Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI – Junkshop | 1,127.829 | 292.553 | 517.243 |
| GPU Blender CLI – Classroom | 1,111.753 | 262.387 | 478.786 |
Blackmagic RAW Speed Test
BlackmagicのRAW Speed TestでCPUとGPUをテストし、ビデオ再生速度を測定します。これはCPUとGPUのパフォーマンスを含むハイブリッドテストであり、実際のRAWデコードをテストします。これらは個別の結果として表示されますが、ここではGPUのみに焦点を当てているため、CPUの結果は省略します。
| Blackmagic RAW Speed Test (高いほど良い) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Cinebench 2024 GPU
MaxonのCinebench 2024は、すべてのCPUコアとスレッドを利用するCPUおよびGPUレンダリングベンチマークです。ここでもGPUの結果に焦点を当てているため、CPU部分のテストは実行しませんでした。スコアが高いほど良いです。
| Cinebench 2024 (高いほど良い) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPU | 15,263 | 4,006 | 5,644 |
GPU PI
GPUPI 3.3.3は、GPUとCPUのハードウェアアクセラレーションを使用して数十億桁のπ(パイ)を計算するように設計された軽量ベンチマークユーティリティのバージョンです。OpenCLとCUDAのコンピューティングパワーを活用しており、これには中央処理装置とグラフィック処理装置の両方が含まれます。3つのGPUすべてでCUDAのみを実行し、ここでの数値は削減時間を含まない計算時間です。低いほど良いです。
| GPU PI 計算時間(秒) (低いほど良い) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 – 1B | 3.732秒 | 19.799秒 | 7.504秒 |
| GPUPI v3.3 – 32B | 244.380秒 | 1,210.801秒 | 486.231秒 |
前の結果はカードの単一イテレーションのみを見ていましたが、Dell PowerEdge T560内の5x NVIDIA L4展開も確認する機会がありました。
| GPU PI 計算時間(秒) (低いほど良い) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) 5x NVIDIA L4搭載 |
|---|---|
| GPUPI v3.3 – 1B | 0秒850ミリ秒 |
| GPUPI v3.3 – 32B | 50秒361ミリ秒 |
Octanebench
OctaneBenchは、V-Rayと同様のRTXサポートを備えた別の3DレンダラーであるOctaneRenderのベンチマークユーティリティです。
| Octane (高いほど良い) | ||||
| シーン | カーネル | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| インテリア | 情報チャンネル | 15.59 | 4.49 | 6.39 |
| 直接照明 | 50.85 | 14.32 | 21.76 | |
| パス トレーシング | 64.02 | 18.46 | 25.76 | |
| アイデア | 情報チャンネル | 9.30 | 2.77 | 3.93 |
| 直接照明 | 39.34 | 11.53 | 16.79 | |
| パス トレーシング | 48.24 | 14.21 | 20.32 | |
| ATV | 情報チャンネル | 24.38 | 6.83 | 9.50 |
| 直接照明 | 54.86 | 16.05 | 21.98 | |
| パス トレーシング | 68.98 | 20.06 | 27.50 | |
| ボックス | 情報チャンネル | 12.89 | 3.88 | 5.42 |
| 直接照明 | 48.80 | 14.59 | 21.36 | |
| パス トレーシング | 54.56 | 16.51 | 23.85 | |
| 総合スコア | 491.83 | 143.71 | 204.56 | |
Geekbench 6 GPU
Geekbench 6は、システム全体のパフォーマンスを測定するクロスプラットフォームベンチマークです。CPUとGPUの両方のベンチマークオプションがあります。スコアが高いほど良いです。ここでも、GPUの結果のみを確認しました。
Geekbench Browserで任意のシステムとの比較を見つけることができます。
| Geekbench 6.1.0 (高いほど良い) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMarkは、オープンソースの3DレンダリングエンジンLuxRenderを管理する人々からのOpenCLクロスプラットフォームベンチマークツールです。このツールは、3Dモデリング、照明、ビデオワークにおけるGPUパフォーマンスを評価します。このレビューでは、最新バージョンv4alpha0を使用しました。LuxMarkでは、スコアに関しては高いほど良いです。
| Luxmark v4.0alpha0 OpenCL GPU (高いほど良い) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| ホールベンチ | 14,328 | 3,759 | 5,893 |
| フードベンチ | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
また、分子動力学ソフトウェアであるGROMACSをCUDA用に特別にコンパイルしました。このカスタムコンパイルは、計算シミュレーションの高速化に不可欠な5基のNVIDIA L4 GPUの並列処理能力を活用するために行われました。
プロセスには、NVIDIAのCUDAコンパイラであるnvccの使用と、バイナリがサーバーのアーキテクチャに適切にチューニングされていることを確認するための適切な最適化フラグの多くのイテレーションが含まれていました。GROMACSコンパイルにCUDAサポートを含めることで、ソフトウェアはGPUハードウェアと直接インターフェースできるようになり、複雑なシミュレーションの計算時間を大幅に短縮できます。
テスト:Gromacsでのカスタムタンパク質相互作用
私たちの多様なDiscordコミュニティから提供された、特定のタンパク質相互作用研究に合わせて調整されたパラメータと構造を含むコミュニティ提供の入力ファイルを利用して、分子動力学シミュレーションを開始しました。結果は驚くべきものでした。システムは1日あたり170.268ナノ秒のシミュレーションレートを達成しました。
| GPU | システム | ns/日 | コア時間 (秒) |
|---|---|---|---|
| NVIDIA A4000 | Whitebox AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Whitebox AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5x NVIDIA L4 | Dell T560 (2x Intel Xeon Gold 6448Y搭載) | 170.268 | 608,912.7 |
AIを超えて
Sandy Yang/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要なグローバルブランドと提携して信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!



