電通総研 テックブログ

電通総研が運営する技術ブログ

AWS "hpc8a" ベンチマークレポート 第1回~AWS hpc8a Benchmark Report by Dentsusoken~

1. はじめに

はじめまして!電通総研の武田嵩史(たかふみ)と申します。テックブログを執筆するのが初めてで怯えながらの投稿ですが、全2回に渡り本テーマについて発信できればと思います。簡単に私の自己紹介をしてから本内容に移りたいと思います。

自己紹介

改めまして武田嵩史と申します。普段はクラウドを用いたシステム開発や運用のプロジェクト・マネージャーをしております。
その中でも最近ではクラウドHPCの基盤を構築することが多く、様々なクラウドベンダー様とお仕事をさせていただいております。
”クラウドHPC”?なんじゃそりゃ?という方は弊社が公開している以下記事をご覧いただければと思います!
SDGsの達成にも貢献!?クラウドHPCについてもう一度考えてみる
電通総研のクラウドHPCサービスがもたらす革新とメリット

扱うクラウドはAWS, Azure, OCIの3つが主でして、それぞれのクラウドプロバイダーの強み・特徴を活かして最適な環境をお客様に提供することを得意としております。

モチベーション

さて、そんな私がクラウドHPCの中でも最近特に注目しているのが、AWSの"hpc8a"インスタンスです。
AMD社の最新プロセッサであるTurin(EPYC 9R45)を搭載したインスタンスタイプでして、ap-northeast-1(東京)リージョンで利用ができることが1つの特徴です。
このインスタンス、AWS公式のページを引用すると以下のパフォーマンスを発揮するとのこと。

前世代の Hpc7a インスタンスよりも最大 40% 優れたパフォーマンス、42% 広いメモリ帯域幅、最大 25% 優れた料金パフォーマンスを実現します。

(引用元)第 5 世代 AMD EPYC プロセッサを搭載した Amazon EC2 Hpc8a インスタンスの一般提供開始
HPCワークロードの特徴上、解析データサイズも大きかったり、多くのI/Oが発生したりするので、データとコンピューティングリソースは可能な限り近い場所に置く方がパフォーマンスを発揮できます。そのため、日本のお客様は日本で利用できる高性能なマシンはあればあるだけ嬉しいので、このインスタンスタイプに私自身もとても興味があり、実力はどんなものかと調査すべく今回のベンチマーク実施に至りました。

本題

本記事は以下の流れとなっております。

目次

  1. はじめに ←終了
  2. ベンチマーク概要
  3. Ansys Fluentベンチマーク結果
  4. Cradle MSC scFLOWベンチマーク結果
  5. おわりに(次回予告)

2. ベンチマーク概要

2.1 ベンチマークに利用したインスタンスタイプ

ベンチマークと言ってもhpc8aだけで解析実行しても仕方ありません。ということで、今回は以下のEC2インスタンスタイプを選定しベンチマークを実施しました。

Instance type Spec Cost $ (instance/h) Cost $ (core/h)
hpc6id.32xlarge (Intel) CPU:Intel Xeon Ice Lake 64cores
Memory:1024GB
NIC:200Gbps EFA
$5.70 $0.09
r8i.96xlarge (Intel) CPU:Intel Xeon 6 Granite Rapids-AP 192 cores
Memory:3072GB
NIC:100Gbps EFA
$26.67 $0.14
c7a.48xlarge (AMD) CPU:AMD EPYC 9R14 Genoa 192 cores
Memory:384GB
NIC:50 Gbps EFA
$9.85 $0.05
hpc7a.96xlarge (AMD) CPU:AMD EPYC 9R14 Genoa 192 cores
Memory:768GB
NIC:300 Gbps EFA
$7.20 $0.04
m8a.48xlarge (AMD) CPU:AMD EPYC 9R45 Turin 192 cores
Memory:768GB
NIC:75 Gbps EFA
$11.69 $0.06
c8a.48xlarge (AMD) CPU:AMD EPYC 9R45 Turin 192 cores
Memory:384GB
NIC:75 Gbps EFA
$10.35 $0.06
hpc8a.48xlarge (AMD) CPU:AMD EPYC 9R45 Turin 192 cores
Memory:768GB
NIC:300 Gbps EFA
$7.92 $0.04
c8g.48xlarge (AWS) CPU:AWS Graviton4 192 cores
Memory:384GB
NIC:50 Gbps EFA
$7.63 $0.04

※Costはオハイオリージョンでの単価です。
※Cost $ (core/h), Cost $ (instance/h)においては小数点3桁を四捨五入した小数点以下2桁で表記しております。
※一部ベンチマークについては結果がないインスタンスタイプもございます。

選定の基準としては3つの観点で行いました。
1. 会社"
CPUの製造元として代表的なIntel, AMDを選定。また、AWSも独自でプロセッサを開発しているので、Gravitonもノミネートしました。
"2. 世代"
各CPUの世代が上がると性能も向上するのか、どの程度向上するのか、という指標をみるために複数世代を選定しました。
"3. インスタンスの用途"
AWSは同じCPUを搭載していても、ワークロードによって最適化されたインスタンスタイプを準備しています。基本的にはコンピューティング最適化インスタンス(cシリーズ)とHPC特化インスタンス(hpcシリーズ)を選定していますが、メモリ最適化(rシリーズ)、汎用(mシリーズ)も選定しているものもあります。

2.2 ベンチマーク実施内容

ここではどのような条件、ソルバでベンチマークを行ったかをご説明いたします。

2.2.1 ベンチマーク実施ソルバ

今回ベンチマークを実施したソルバ・ベンチマークモデルは以下です。

Solver Version Benchmark Model
Ansys Fluent 2025R2 f1_racecar_140m Fluent benchmark model
Ansys LS-DYNA 2025R2 Car2Car LS-DYNA benchmark model
Siemens STAR-CCM+ 2506.0001 Golf_140M [Original Model]
Cradle MSC scFLOW 2025.1 Common Research Model

この中で第1回となる今回はAnsys FluentCradle MSC scFLOWのベンチマーク結果を皆様に共有いたします!

2.2.2 ベンチマーク実施環境情報

ベンチマークを実施した環境情報は以下のとおりです。

項目 内容
OS Red Hat Enterprise Linux 8.10
ストレージ Amazon FSx for Lustre (SSD / 250 MB/s-TiB ) *4.8 TiB
ネットワーク EFA 有効化
ジョブスケジューラー Slurm
MPI Intel MPI 2021.13
MPI (Arm プロセッサ利用時) Open MPI 4.1.7

また、これらの環境の準備にはAWS ParallelClusterを利用しており大変便利なサービスでしたので、こちらも別途ご紹介できればと思います。
(参考)AWS ParallelCluster

2.2.3 ベンチマーク評価項目

ベンチマークの評価項目は以下の3つの指標で評価を行いました。
1.実行時間
各ソルバーの実行時間を秒単位で計測。
2.コスト
各ベンチマークジョブを完走するのに必要となるインスタンスの費用を計算。ここでは起動/停止にかかる費用やデータの保管費用、通信にかかる費用は含んでおらず、あくまでベンチマークジョブを完走するのにかかったコンピューティングリソースのみの費用を算出しています。
3.コストパフォーマンス
「計算速度が速くても値段が高いと簡単には利用できない。」というのが実情だと思いますので、今回はコストパフォーマンスという指標も準備しました。コストパフォーマンスは以下式で定義します。

今回は簡単のために、Genoaプロセッサを搭載したコンピューティング最適化インスタンスタイプ "c7a.48xlarge"を"1.0"として正規化したスコアで評価しました。

3. Ansys Fluentベンチマーク結果

それではAnsys Fluentのベンチマーク結果がこちらです。Ansys Fluentでは256並列から2048並列までの並列数で実施しました。

3.1 実行時間

  • ソルバー実行の経過時間比較
    • 同一並列解析数の場合、全ての場合でTurin (m8a, hpc8a) のインスタンス性能が良い結果となりました。
  • 前世代とのパフォーマンス比較
    • 全並列数で3割程度のパフォーマンス改善がみられました。AWS公式によると、最大40%の優れたパフォーマンスとのことだったので、今回の結果はそれに近い結果が得られました。
  • Gravitonの計算スケール
    • c8g (Graviton4) については、並列数が増加するにつれ、他インスタンスタイプとの経過時間の差は縮小傾向にあり、大規模並列計算において計算時間のスケールメリットが出ることが確認できました。

3.2 コスト

  • コスト比較
    • hpc8aが全ての並列数で一番コストが低い結果でした。
    • Ansys Fluentの今回のベンチマークモデルにおいては512並列が一番コストに優れた並列数となりました。
  • 前世代とのコスト比較
    • 全並列数で2割程度のコスト改善がみられました。AWS公式によると、最大 25% 優れた料金パフォーマンスとのことだったので、こちらも公式に近い結果が得られました。

3.3 コストパフォーマンス

  • コストパフォーマンス比較
    • hpc8aが一番コストパフォーマンスに優れた結果になりました。
    • 同CPUスペックで比較するとHPCインスタンスはコストパフォーマンスが高い結果がみられます。
    • c8g (Graviton4) は2048並列になると、c7aのコストパフォーマンスを上回る結果になりました。

以上がAnsys Fluentのベンチマーク結果となりますが、いかがでしたか。
実行時間・コスト・コストパフォーマンス全てにおいてhpc8aが良いパフォーマンスを示していたことがみてとれたのではないでしょうか。

4. MSC scFLOWベンチマーク結果

続いてはCradle MSC scFLOWのベンチマーク結果です。scFLOWでは128並列から1024並列までの並列数で実施しました。
scFLOWにおいては一部実施できていないインスタンスタイプがあることご了承ください。

4.1 実行時間

  • ソルバー実行の経過時間比較
    • 同一並列解析数の場合、全ての場合でhpc8aの性能が良い結果となりました。
  • 前世代とのパフォーマンス比較
    • こちらもAnsys Fluentと同様、全並列数で3割程度のパフォーマンス改善がみられました。

4.2 コスト

  • コスト比較
    • hpc8aが全ての並列数で一番コストが低い結果でした。
  • 前世代とのコスト比較
    • こちらもAnsys Fluentと同様、全並列数で2割程度のコスト改善がみられました。

4.3 コストパフォーマンス

  • コストパフォーマンス比較
    • 上記の結果からも分かるとおり、hpc8aが一番コストパフォーマンスに優れた結果になりました。

以上、scFLOWのベンチマーク結果でしたが、大きな方向性としてはAnsys Fluentと変わらず、実行時間・コスト・コストパフォーマンス全てにおいてhpc8aが良いパフォーマンスを残していました。

5. おわりに(次回予告)

というところで今回はAnsys FluentとCradle MSC scFLOWにおけるhpc8aのベンチマーク結果をご紹介いたしました。
次回は衝突系ソルバのAnsys LS-DYNAと流体系ソルバSiemens STAR-CCM+のベンチマーク結果もご紹介いたしますので、そちらもお楽しみにお待ちいただけますと幸いです!
末筆になりましたが、本ベンチマーク実施にあたりご協力いただきました各社様、ご関係者の皆様に厚く御礼申し上げます。

私たちは一緒に働いてくれる仲間を募集しています!

電通総研 キャリア採用サイト 電通総研 新卒採用サイト

執筆:@takeda.takafumi
レビュー:@kobayashi.hinami
Shodoで執筆されました