Daily Memo 2011-03-14
- 松岡先生のtwitterを見ている.主に電力関係で,普段聞けない貴重なコメント.↓ (23:23 JST)
- ProfMatsuoka/twitter SRのような性能電力効率の悪いスパコンは止めてしかるべきです。Tsubameはラップトップの3倍良いので、止めると同仕事量なら寧ろ悪影響で 不急の同定が先で。@takeshun1984 地震研のeicは止める可能性があるとアナウンス&東大のSRはとりあえず月曜日までは止まって 11:53 PM Mar 13th (23:23 JST)
- ProfMatsuoka/twitter ここでもう一度、何故TSUBAME2とか京とか性能電力効率が良いスパコンを安易に止めてはいけないか、むしろ節電に協力という意味では状況を悪化させる恐れがあるのか、を述べておきます。 1:04 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter 例えばGreen500の結果からは、高度にGPUチューンされたアプリケーションではTSUBAME2.0はラップトップの3倍、京でも2倍以上の性能電力比を示します。CPUオンリーでも莫大なバンド幅で良い。このあたり細かい議論は色々あるのですが省略します。 1:08 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter 無論多くのアプリは並列化しますが、その場合ユーザも弱スケーリングの範囲で使うことが多いのです。つまりCPU/GPU数を100倍にしたら性能も50-100倍になると。強スケーリングで並列化効率がアララの範囲だと課金でムチャ損するので実際のユーザでは余り見られません。 1:11 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter つまり、もしTSUBAME2.0を停止して、同じジョブをユーザが自分のパソコン等で実行すると、電力効率は最悪で数倍も悪く、あるいは強スケーリング性が多少あるとき問題サイズを小さくして、かつCPUオンリーとかでもTSUBAMEの電力効率を抜くことはラップトップ上でも難しいのです。 1:14 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter じゃあその分問題を小さくしてゆっくり計算を、という話もありますが、積分すれば弱スケーリングならば同じ計算量になるので、結局同じ性能電力効率を仮に達成できてもエネルギー使用量は同じです。今回の様に計画停電が長期化する事態では、ユーザはそう待ってられないので結局は同じ仕事量をする。 1:18 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter つまりせっかくスパコン止めてもユーザが自分のPCやクラスタとかで計算してしまって元の木阿弥以上にエネルギー消費する。しかも、結果が出るのはずっと遅くなって研究自身の質も下がる。省電力ではエネルギーxディレイ積という効率の考えがあるのですが、それが正に増大してしまうわけです。 1:21 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter 現状の我が国のスパコンを鑑みれば、理研RICCより新しいマシンは世の中は確実に得するので止めないほうが良い。仮に計画停電対応以外の理由で止めたとすると、それは単にシンボリックな素人受けを狙った行為で、スパコン技術者としてちゃんとマシンのメトリックを考えていないことが露呈します。 1:24 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter 唯一可能性があるのは、組織運営の長レベルから「スパコンだろうがパソコンだろうがしばらくシミュレーション禁止」令が出ることです。長期化する場合、これの研究組織として強行は世の中それどころではない程ヤバイことになってるか、あるいは「ベンチがxx」な時です。無論後者は東工大ではない筈 1:28 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter だから短期間ならば「スパコンだろうがパソコンだろうが使わない」ですが、でも実際ユーザはそういうニーズを持ってるから、我慢=研究の遅れなわけです。研究機関としてそのような我慢を長期間強いることは結局その研究の否定になる。なので、トップレベルでしか判断できないし、したらアララと。 1:36 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter 勿論世の中研究どころではないなら話は別です。今の福島原発の話は正にそうで、海水注入したら炉はNGになるので経済的損失だけでなくあらゆる面倒な事が起きるがそれは言ってられない危機で、当然トップレベルの判断でそうしてて、多分それは正しいものだった。でも同様の危機がスパコンでは?です。 1:40 AM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter あと、残念ながら京が稼働するまでは日本の大型スパコンパワーは過去より関東地方に90%ぐらい集中してしまっている(1/2近くがTSUBAME)ので、とても需要はまかないきれないのです。。。RT @__aji 東京電力管区のスパコンユーザを中部以西地域のスパコンに誘導し 12:18 PM Mar 14th (23:23 JST)
- ProfMatsuoka/twitter やはりインフラはある程度地域分散しかつ分散透過性とそれによる相互のリスクヘッジがないといけない。今回は複数の事象で嫌というほど思い知らされている。スパコンに限ればナショプロが京の神戸の一点集中でなく仕分け後に全国分散のHPCIのサイエンスクラウド(旧グリッド)に発展するのはグー。 1:09 PM Mar 15th (23:23 JST)
- ProfMatsuoka/twitter いろいろバタバタしましたが、TSUBAME2.0の今後の運用方針が大筋で決まりました。ただ現状は細切れで、かつやるかやらないか曖昧な計画停電に対応するのにスパコンとしての特性が合わず、稼働時間を確保するのに大変苦労しています。フル構成では立ち上げ7-8時間、下げ3時間かかるので。 5:26 PM Mar 15th (23:23 JST)
- ProfMatsuoka/twitter よって起動時間を3-4時間に高速化するために縮退構成ににして、インタラクティブなノードとストレージの動作だけ今週は保障します。バッチキューも動き出す可能性がありますがいつでもジョブは停止される可能性があります。その分インタラクティブノードを順次増やした構成にしていきます。 5:32 PM Mar 15th (23:23 JST)
- ProfMatsuoka/twitter このように時間がかかるのはTSUBAMEがデカイことと、連続稼働することで最高性能を確保する構成だからで、PCのような訳にはいかないのです。おまけに交通機関の不安定さでSEやスタッフの時間確保や足の問題もあるので、作業時間帯が限られてしまいます。 5:30 PM Mar 15th (23:23 JST)
- ProfMatsuoka/twitter ですねえ御社も。しかもTsubameの非運用での損失は得られる学術成果や省エネ効果を加味すれば月一億を超える。簡単に継続運用確保の為の発電機が買える額です。@fumita0818: @ProfMatsuoka 今まさにTSUBAMEでやれることがあるのに本当に悔しいです。 9:42 PM Mar 15th (23:23 JST)
- ProfMatsuoka/twitter TSUBAME2はインタラクティブノードとストレージのみに縮退運転し、ブート・シャットダウンを7-8時間から3-4時間に短縮化して何とかある程度のサービス時間を確保する作戦。これ以上の短縮はストレージ・Infiniband・管理サーバのブート順があり不可能。これ以下は発電機要。 (23:23 JST)