2020年12月24日に開催されたイベント「AWS Webinar「AWSの最新GPUインスタンス – Amazon EC2 P4d」に「p4d.24xlarge のすゝめ~ 圧倒的なコスパを誇る GPU インスタンス ~」というテーマで登壇させて頂きました。発表資料は下にあります。

来栖川電算ではお客様の課題を解決する技術をお客様と共に研究開発をさせて頂いております。この研究開発において私たちは深層学習を活用することが多く、必要な計算資源を適切に調達してゆくことが重要となっています。

この発表では、まず「普段、私たちが、どのような研究開発に、どのような計算資源を、どのように活用しているのか」について紹介させて頂きました。主に、AHAB(弊社製の実験スケジューラ)を用いて、ハイブリッドクラウドを構築し、オンプレミス環境とクラウド環境の両方の計算資源を切り替えられるようにしているという話です。AHAB を用いれば、高価な計算資源を共有できるだけでなく、全ての環境でプログラムの修正なしに同じ実験を実施できます。ご興味がある方はお気軽にお問い合わせください。

次に、AWS から新しく登場した GPU インスタンス「p4d.24xlarge」の性能評価した結果を共有させて頂きました。実際の研究開発に用いている深層学習モデルを p4d.24xlarge(NVIDIA A100 40GB × 8)、p3dn.24large(NVIDIA V100 32GB × 8)、p3.16xlarge(NVIDIA V100 16GB × 8)、DGX-1(P100 16GB × 8)で学習して処理時間を評価しました。p4d.24xlarge を使いこなせていない現時点であっても、十分な費用対効果が期待できることが分かります。今後、A100 向けの最適化ノウハウを学び、使いこなしてゆくことで、更なる費用対効果が期待できます。資料には詳しい数値もたくさん掲載してありますので、ご興味がある方はご覧ください。

発表資料に記載していますが、来栖川電算は p4d.24xlarge(NVIDIA A100 × 8)を導入し、研究開発を加速させることを決定しました。リッチな環境で研究開発したい方はお問い合わせください。

カテゴリー: 講演