後藤弘茂のWeekly海外ニュース：注目の記事

2010/09/17 なぜSandy Bridgeはそんなにパフォーマンスが高いのか

Intelの次世代CPUアーキテクチャSandy Bridgeの情報が公開された．アーキテクチャの概要は次のようになる．市場への投入は2011年を予定．コア数は，2，4，8の3モデルを用意する．コアとキャッシュをリングバスで接続し，コア数のスケーラビリティを確保している．2，4コアでは，GPUをオンダイでサポート．メモリコントローラはDDR3．

Sandy Bridgeでは，Core MAをベースに，次の改良を加えている．

#フロントエンドクラスタでのuOPキャッシュの追加#実行エンジンクラスタでのAVXユニットの実装と再編成#物理レジスタファイルへの移行とスケジューリングのリソースの強化#メモリクラスタでのロード/ストア機能の強化

第1に，命令デコード回数を減らすため，命令のデコード結果を保持するキャッシュを追加する．電力と時間を食う命令デコードステージの使用回数を減らすことで，電力を削減しつつ，性能を高めるのが狙い．

多くのx86命令は，CPUの内部命令であるuOPにデコードされる．直近のデコード済みuOPを，Sandy Bridgeでは1,500個キャッシュする．Intelによれば，ヒット率は80%以上を達成するとしている．これにより，(1)デコーダの稼働率を20%に落とすことで電力消費を抑える，(2)デコード処理を80%スキップすることで演算速度を向上する，といった改善に繋がる．加えて，キャッシュには過去に実行された命令列が保存されるため，命令のトレースが可能となる．このため，分岐命令に起因するストールの解消などにも利用できる．

第2に，SIMD演算を強化するため，AVX (Advanced Vector eXtensions) を追加する．従来のSSEとは別に新ユニットとして設け，命令セットも合わせて拡張する．AVXでは256bit幅で並列実行する．これはSSEの128bit幅の2倍であり，演算性能が2倍になることを意味する．AVXの高い演算性能を引き出すため，以降で説明する3点目および4点目の改良を加えている．

第3に，命令スケジューリング機能を強化し，演算器の高い稼働率を実現する．加えて，レジスタファイルを物理レジスタファイルにリネームすることで，電力を削減しつつ性能を引き上げる．

第4に，メモリアクセス性能を向上し，プロセッサのストールを防ぐ．具体的には，ロード16byte×2およびストア16byteを同時に実行する．このため，ロード/ストアのパイプラインを統合し，キャッシュのポートを改良．

後藤氏によれば，これらの改良の中で最も重要な拡張は1点目，すなわちフロントエンドクラスタでのuOPキャッシュの追加である．x86命令の欠点は，命令セットが複雑であるため，デコーダをはじめとするフロントエンドが複雑になることだ．従って，この部分は回路規模が大きく，電力消費の根源であり，遅延も大きい．このため，Core MA，Nehalem，Sandy Bridgeと，Intelはフロントエンドの改良に力を注いでおり，今後も継続すると予想されている．

2010/10/01 アーキテクチャ改良で40倍の性能向上を目指すNVIDIAの「Maxwell」

NvidiaのGPUは，Tesla，Fermi，Kepler，Maxwellへと進む．GTC (GPU Technology Conference) でのNvidiaのキーノートスピーチによれば，2013年に投入予定Maxwellでは，第二世代Teslaに対して40倍の性能向上を目指すという．

倍精度浮動小数点(FP)演算のサステイン(持続:Sustain)性能/ワット．これはGPUの性能指標で，同スピーチにてNvidiaが使用したものである．この指標から，Nvidiaの戦略は次のようになると考える．#倍精度演算性能の向上#性能/電力比の向上#持続性能の向上

まず，倍精度演算性能が重視される理由は，GPUの使用用途が変化しているためである．すなわちGPUが必要とされる分野は，従来のグラフィクスだけでなく，ハイパフォーマンスコンピューティングへとシフトしている．グラフィクス処理では単精度が多用されるが，GPUコンピューティングでは主に倍精度が要求される．ここで，倍精度では単精度の倍のデータ量を必要とするため，メモリバンド幅の改良が必要となる．これについては，アプリケーションの要求する「メモリバンド幅/演算性能」を，継続して精査する必要があるとしている．

次に，性能/電力比を重視する理由は，電力の壁の存在もあるが，Nvidiaが主張するところが，徹底した省電力の追求であるためだ．このため，(1)パワーゲーティング，(2)パイプランの浅化・クロック周波数の維持，(3)並列性の向上，といった手段を採用している．

最後に，持続性能を重視する理由は，アーキテクチャの利用効率を上げるためだ．GTCのスピーチによれば，次のように述べている．「持続性能とピーク性能という用語については，前者は実行時の性能，後者はアーキテクチャの理論上の性能，としている．Fermiアーキテクチャの倍精度演算性能においては，ピーク性能で768 GFLOPS，持続性能で500 GFLOPS，である．」持続性能がピーク性能に大きく及ばない理由は，(1)メモリアクセスと演算を同時実行できないため，(2)メモリバンド幅が狭いため，である．これらは，演算器がフルに稼動しないことを意味する．このため，アーキテクチャの利用効率を向上させることで，性能向上の余地がある．

2011/03/16 デュアルCPUコア&デュアルGPUコアになったiPad 2

米国でのiPad2の発売を受け，次の内容について述べられている．

iPadと比べたCPUアーキテクチャの改良

iPadと比べたGPUアーキテクチャの改良

Appleの今後の戦略

Sony NGPとの比較

CPUアーキテクチャは，シングルコアからデュアルコアに改良される．命令のデコードは2並列で変化は無いが，インオーダ実行からアウトオブオーダ実行へと変更．パフォーマンスの向上は2倍以上と説明している．製造はSamsung Semiconductorの45nmプロセスへの委託を継続．

GPUについても，シングルコアからデュアルコアへと改良される．コア当たりに16個のスカラプロセッサを格納する．つまり，計32個のスカラプロセッサを集積することとなる．こちらも，2倍以上の性能向上を達成している．

これらの結果，iPad2では電力的にはiPad以上にシビアになる．このことから，iPad2では，消費電力以上に処理性能を重視していることがわかる．これには，iPad/iPhoneにゲームを定着させる狙いがある．得に高い処理能力が要求される3Dゲームを軽快に動かすためとされる．

iPadとiPhoneそれぞれのCPUアーキテクチャは，いずれ分化すると予測される．iPadでは比較的電力に余裕があるため性能を追求できるが，iPhoneではそうはいかないからだ．

類似商品と比較するため，SonyのNGP (Next Generation Portable) との差異について触れている．NGPではCPUコア数およびGPUコア数ともに4コアを搭載しており，iPad2と比べともに2倍である．45nmプロセスで製造を開始し，最終的なターゲットは32~28nmプロセスになる．一方のiPad2では，当初は45nmプロセスで製造し，32~28nmプロセス移行後はコア数を倍増すると見込まれる．

refluster's blog

このブログを検索