2010/09/17 なぜSandy Bridgeはそんなにパフォーマンスが高いのか
Intelの次世代CPUアーキテクチャSandy Bridgeの情報が公開された.アーキテクチャの概要は次のようになる.市場への投入は2011年を予定.コア数は,2,4,8の3モデルを用意する.コアとキャッシュをリングバスで接続し,コア数のスケーラビリティを確保している.2,4コアでは,GPUをオンダイでサポート.メモリコントローラはDDR3.
Sandy Bridgeでは,Core MAをベースに,次の改良を加えている.
#フロントエンドクラスタでのuOPキャッシュの追加#実行エンジンクラスタでのAVXユニットの実装と再編成#物理レジスタファイルへの移行とスケジューリングのリソースの強化#メモリクラスタでのロード/ストア機能の強化
第1に,命令デコード回数を減らすため,命令のデコード結果を保持するキャッシュを追加する.電力と時間を食う命令デコードステージの使用回数を減らすことで,電力を削減しつつ,性能を高めるのが狙い.
多くのx86命令は,CPUの内部命令であるuOPにデコードされる.直近のデコード済みuOPを,Sandy Bridgeでは1,500個キャッシュする.Intelによれば,ヒット率は80%以上を達成するとしている.これにより,(1)デコーダの稼働率を20%に落とすことで電力消費を抑える,(2)デコード処理を80%スキップすることで演算速度を向上する,といった改善に繋がる.加えて,キャッシュには過去に実行された命令列が保存されるため,命令のトレースが可能となる.このため,分岐命令に起因するストールの解消などにも利用できる.
第2に,SIMD演算を強化するため,AVX (Advanced Vector eXtensions) を追加する.従来のSSEとは別に新ユニットとして設け,命令セットも合わせて拡張する.AVXでは256bit幅で並列実行する.これはSSEの128bit幅の2倍であり,演算性能が2倍になることを意味する.AVXの高い演算性能を引き出すため,以降で説明する3点目および4点目の改良を加えている.
第3に,命令スケジューリング機能を強化し,演算器の高い稼働率を実現する.加えて,レジスタファイルを物理レジスタファイルにリネームすることで,電力を削減しつつ性能を引き上げる.
第4に,メモリアクセス性能を向上し,プロセッサのストールを防ぐ.具体的には,ロード16byte×2およびストア16byteを同時に実行する.このため,ロード/ストアのパイプラインを統合し,キャッシュのポートを改良.
後藤氏によれば,これらの改良の中で最も重要な拡張は1点目,すなわちフロントエンドクラスタでのuOPキャッシュの追加である.x86命令の欠点は,命令セットが複雑であるため,デコーダをはじめとするフロントエンドが複雑になることだ.従って,この部分は回路規模が大きく,電力消費の根源であり,遅延も大きい.このため,Core MA,Nehalem,Sandy Bridgeと,Intelはフロントエンドの改良に力を注いでおり,今後も継続すると予想されている.
2010/10/01 アーキテクチャ改良で40倍の性能向上を目指すNVIDIAの「Maxwell」
NvidiaのGPUは,Tesla,Fermi,Kepler,Maxwellへと進む.GTC (GPU Technology Conference) でのNvidiaのキーノートスピーチによれば,2013年に投入予定Maxwellでは,第二世代Teslaに対して40倍の性能向上を目指すという.
倍精度浮動小数点(FP)演算のサステイン(持続:Sustain)性能/ワット.これはGPUの性能指標で,同スピーチにてNvidiaが使用したものである.この指標から,Nvidiaの戦略は次のようになると考える.#倍精度演算性能の向上#性能/電力比の向上#持続性能の向上
まず,倍精度演算性能が重視される理由は,GPUの使用用途が変化しているためである.すなわちGPUが必要とされる分野は,従来のグラフィクスだけでなく,ハイパフォーマンスコンピューティングへとシフトしている.グラフィクス処理では単精度が多用されるが,GPUコンピューティングでは主に倍精度が要求される.ここで,倍精度では単精度の倍のデータ量を必要とするため,メモリバンド幅の改良が必要となる.これについては,アプリケーションの要求する「メモリバンド幅/演算性能」を,継続して精査する必要があるとしている.
次に,性能/電力比を重視する理由は,電力の壁の存在もあるが,Nvidiaが主張するところが,徹底した省電力の追求であるためだ.このため,(1)パワーゲーティング,(2)パイプランの浅化・クロック周波数の維持,(3)並列性の向上,といった手段を採用している.
最後に,持続性能を重視する理由は,アーキテクチャの利用効率を上げるためだ.GTCのスピーチによれば,次のように述べている.「持続性能とピーク性能という用語については,前者は実行時の性能,後者はアーキテクチャの理論上の性能,としている.Fermiアーキテクチャの倍精度演算性能においては,ピーク性能で768 GFLOPS,持続性能で500 GFLOPS,である.」持続性能がピーク性能に大きく及ばない理由は,(1)メモリアクセスと演算を同時実行できないため,(2)メモリバンド幅が狭いため,である.これらは,演算器がフルに稼動しないことを意味する.このため,アーキテクチャの利用効率を向上させることで,性能向上の余地がある.
2011/03/16 デュアルCPUコア&デュアルGPUコアになったiPad 2
米国でのiPad2の発売を受け,次の内容について述べられている.
- iPadと比べたCPUアーキテクチャの改良
- iPadと比べたGPUアーキテクチャの改良
- Appleの今後の戦略
- Sony NGPとの比較
CPUアーキテクチャは,シングルコアからデュアルコアに改良される.命令のデコードは2並列で変化は無いが,インオーダ実行からアウトオブオーダ実行へと変更.パフォーマンスの向上は2倍以上と説明している.製造はSamsung Semiconductorの45nmプロセスへの委託を継続.
GPUについても,シングルコアからデュアルコアへと改良される.コア当たりに16個のスカラプロセッサを格納する.つまり,計32個のスカラプロセッサを集積することとなる.こちらも,2倍以上の性能向上を達成している.
これらの結果,iPad2では電力的にはiPad以上にシビアになる.このことから,iPad2では,消費電力以上に処理性能を重視していることがわかる.これには,iPad/iPhoneにゲームを定着させる狙いがある.得に高い処理能力が要求される3Dゲームを軽快に動かすためとされる.
iPadとiPhoneそれぞれのCPUアーキテクチャは,いずれ分化すると予測される.iPadでは比較的電力に余裕があるため性能を追求できるが,iPhoneではそうはいかないからだ.
類似商品と比較するため,SonyのNGP (Next Generation Portable) との差異について触れている.NGPではCPUコア数およびGPUコア数ともに4コアを搭載しており,iPad2と比べともに2倍である.45nmプロセスで製造を開始し,最終的なターゲットは32~28nmプロセスになる.一方のiPad2では,当初は45nmプロセスで製造し,32~28nmプロセス移行後はコア数を倍増すると見込まれる.