西川氏よる 4gamers の記事。NVIDIA さん渾身の?新チップ。ディープラーニング等の機械学習用に特化しつつ、1チップにできるだけ詰め込んだものだそうな。その演算性能は、120 Tensor TFlops とか。4x4 の行列の掛け算と足し算に特化した回路を組んでいるとは言え、とんでも無い数値である。2005年あたりだとスパコンランキングでも上位だったような。まぁ、途中計算は、FP32 等使っているが、入出力は FP16 なので、単純に比較はできないが。スパコンは倍精度前提かな。
また、一般的に積和演算は、積と和を別々にやるより少ないリソースでできるので(積の計算中に含まれる和もまとめてやってしまえる)、これを 2 FLOPS と数えるのはちょっとずるい感じもあるが、みんなが同じ計算をして比較するなら OK か。
メモリも現在最高速とも言える、HBM2 を搭載していて(メインのチップ GV100 の周囲にほとんど接して実装されている)向かう所敵なし感がある。後、気になるのは、熱的な部分だろうか。1455MHz で 120TensorTFlops ということは、4万個以上の積和演算器が搭載されている。4x4 の行列同士の掛け算は、64 回の積和演算が必要で、ついでに、行列の積和の和もまとめてやってしまうので、640 個の Tensor Core という計算か。まぁ、数字を転がしていても意味は薄いが。
Tensor Core 以外にも普通の GPU のように普通の演算器も搭載しているので、それも含めると、本当にとんでもないチップと言えると思う。こちらは 15TFlops らしい。純粋に FP32 での値。
このチップを複数載っけたサーバーとか、凄いことになりそう。FP16 の件もあるので、スパコンランキングとかには載らないとは言え、機械学習ランキングみたいなものでは、飛び抜けた結果が出せそう。とは言え、未だその辺りは、この潜在能力を引き出すソフトウェア次第な所もあるが。このチップを活用した、画期的な応用例が出てくるのが楽しみ。
もう1つの GPU の雄、AMD がどんなチップを出してくるか、それも楽しみ。ちょっと、この GV100 を超えるのは難しそうだが… はてさて。