Radeon HD 4870 アーキテクチャーの特徴
RV670 (Radeon HD 38x0) の場合、この GPU は前世代のコアである R600 (Radeon HD 2900) とほとんど変わらないため、次世代の番号を割り当てることの正当性が疑問視される可能性がある場合、RV770 ではそのような疑いはありません。生じる - これは、前任者の機能のほとんどを継承していますが、実際には新しい製品です。 新しいファミリは ATI Radeon HD 4800 と命名され、ATI Radeon HD 3800 ファミリで ATI が最初に使用したさまざまなグラフィックス カード モデルの命名方式が保持されます。最初の数字はグラフィックス アーキテクチャの世代を意味し、XNUMX 番目の数字はファミリ、および最後の XNUMX つ - 特定のビデオ アダプタのモデル。
RV770 コアは 956 億 200 万個のトランジスタで構成されており、一見すると非常に印象的ですが、業界では絶対的な記録ではありません。 この領域の手のひらは、1.4 億個のトランジスタを搭載した GT65 チップを搭載した Nvidia のものです。 ATI の競合他社は高度ではない 200 nm プロセス技術を使用しているため、その優位性は疑わしいと言えます。このようなコアの巨大な面積と複雑さを考えると、基板上のコア数が少なくなり、歩留まりが低下することを自動的に意味します。その結果、生産コストが大幅に高くなりますが、このようなアプローチは近年の Nvidia の典型的な戦術です。 GT770 ベースのカードは、RVXNUMX を使用する新しい ATI ソリューションとは異なり、時間の経過とともに安くなる可能性は低いです。 したがって、ATI Technologies が選択した戦略は、一見すると、それ自体を完全に正当化します。
前世代の GPU である RV670 に基づくカードと比較して、GPU 周波数が著しく低下したことに注意してください。これは、新しいコアの複雑さが大幅に増加したことによって説明できます。 処理能力とテクスチャリング能力が向上していることを考えると、これは問題にはなりません。 注目に値するもう 4800 つの興味深い詳細: 古い ATI Radeon HD 5 モデルでの高速 GDDR256 メモリの使用により、ATI が昨年行い、Nvidia が現在行っているように、外部アクセス バスの拡張に頼ることなく高帯域幅を実現することが可能になりました。 従来の 5 ビットを超えるメモリ バス幅の増加は、プリント回路基板の大幅な複雑化につながり、その結果、価格の上昇につながります。 もちろん、GDDR3 メモリは、広く使用されている GDDRXNUMX よりも高価ですが、この違いは、よりシンプルな PCB 設計によって十分に補われているようです。
メモリ アクセス サブシステムのトポロジは全体として保持されていることがはっきりとわかりますが、現在はリングとは言えません。ほぼすべてのメモリ コントローラが双方向インターフェイスによって別のメモリ コントローラに接続されていますが、「リング」自体はもはや閉まっている。 メモリ アクセス インターフェイスは依然としてクリスタルの周囲に配置されており、その隣にはスループットにとって最も重要な機能ブロックがあります。
同時に、PCI Express バス インターフェイス、CrossFireX インターフェイス、UVD2 ビデオ プロセッサ、ディスプレイ コントローラなど、帯域幅の要求が少ないブロックを相互接続するスイッチがコアに登場しました。 ATI によれば、前世代の ATI Radeon HD におけるメモリ サブシステム リソースの使用効率は、すでに 85% に達しており、RV770 トポロジーの最適化により、それをほぼ最大にすることが可能になりました。 高速な GDDR5 メモリを使用できる可能性と合わせて、開発者は 256 ビットを超える容量の外部バスを使用する必要がなくなり、ATI Radeon HD 4800 プリント回路基板の設計の簡素化にプラスの効果がありました。
最新のアーキテクチャを備えたグラフィックス コアの重要な部分は、タスク マネージャー ブロックです。これは、すべての部分が最大限にロードされるように、利用可能なプロセッサ リソースを分配する作業を任されているため、パフォーマンスが低下する傾向があります。できるだけ高く。
タスク マネージャ ブロックは、最初は ATI Radeon X1000 ファミリの一部として登場し、それぞれ 512 ピクセルの 16 個のコード ブランチを管理できました。 タスク分散プロセッサの 2000 番目のバージョンは、ATI Radeon HD 16 で導入されました。新しいハンドラは、より多くのコード ブランチを処理できるだけでなく、より正確かつ効率的に実行できます。最小ブランチ サイズは 5 ピクセルから XNUMX ピクセルに縮小されました。
R600 と RV670 の計算部分は 64 個のユニバーサル モジュールで構成され、各モジュールには XNUMX つの ALU、フロー制御ユニット、および汎用レジスタのアレイが含まれていました。 XNUMX つの ALU のうち XNUMX つは、サイクルごとに XNUMX つの FP MAD 命令を実行できる非常に単純なデバイスであり、XNUMX つ目は複雑で、複雑な SIN、COS、LOG、EXP などの命令を処理できるものでした。 実際、各コンピューティング モジュールは、XNUMX 段のパイプラインを備えたプロセッサでした。
理論的には、そのような組織は320のアクチュエータの存在について話すことを可能にしましたが、実際には、これは64のパイプラインすべての全負荷の場合にのみ当てはまり、実際には常に提供されるとはほど遠いものでした。次元アプリケーションでは、多くの操作が前の操作の結果に依存するため、一貫したパイプライン操作を実現するのは容易ではありません。 これには、Catalyst ドライバーのレベルで特定のアプリケーションを大幅に最適化する必要がありますが、少なくとも公式リリースまで、ゲームのソフトウェア「スタッフィング」にアクセスできるとは限りません。
その結果、実際には、各コンピューティング モジュールで 80 つの ALU だけが有用な作業を行っていることがしばしば判明しました。これにより、ATI Radeon HD アーキテクチャの可能性が大幅に低下し、Nvidia G92/G770 に基づくソリューションからのゲームの遅延につながりました。 . 後者はより多くの独立したコンピューティング ユニットを備えているだけでなく、これらのユニットはより高いクロック周波数で動作していました。 RV64 を作成することにより、ATI の開発チームはスーパースカラー アーキテクチャの潜在的な非効率性の問題を直接的な方法で解決しました。つまり、計算モジュールの数を 160 から 55 に増やすことでした。しかし、XNUMX nm プロセス技術を使用することで、その面積を妥当な範囲内に抑えることができました。
モジュール自体のアーキテクチャには目立った変更はなく、5 つの ALU、フロー制御ユニット、および一連の汎用レジスタで構成されています。
ATI の声明によると、コンピューティング モジュールの効率は 40% 向上しましたが、単純にその数を 64 から 160 に増やすだけでも、Radeon HD 4800 は、このアーキテクチャにとってあまり好ましくない条件でも競争力のあるソリューションになる可能性があります。 それだけではありません。 前述のように、変更はよりグローバルなレベル、つまりコア トポロジのレベルでも存在します。 リングトポロジーを部分的に維持しつつ、機能ブロックの配置を最適化。 RV770 コンピューティング モジュールは、それぞれ 10 モジュール (4 ALU) の 16 個の SIMD コア (以前は 80 個のコア) に結合されています。
ATI R600 および RV670 グラフィック コアの主なボトルネックは、テクスチャ プロセッサ サブシステムでした。
まず、ゲーム開発者がマルチプラットフォームを志向しているため、複雑な高解像度テクスチャの使用よりも数学的特殊効果が普及する傾向があるにもかかわらず、16 個 (4 つの大きなブロック) しかなかったため、明らかに十分ではありませんでした。 . 第 XNUMX に、XNUMX つのテクスチャ アドレス ユニットごとに XNUMX つのフィルタリング ユニットしかなかったため、テクスチャ フィルタリング、特に今日どこでも使用されている異方性フィルタリングを実行する際のテクスチャ ユニットの効率が大幅に低下しました。将来放棄されます。
RV770 の開発時には、これらの欠点が考慮され、新しいコアには新しいテクスチャ プロセッサが搭載されました。
設計が完全に再設計され、各 TMU に 16 個の FP32 テクスチャ フェッチ ユニット、4 個のアドレス ユニット、および 4 個のフィルター ユニットが含まれるようになりました。 サンプリング効率が低下するように見えますが、これは TMU とテクスチャ キャッシュを接続するバスの帯域幅が 2.5 倍になることで補われます。 ATI は、32 ビット テクスチャで 1.5 倍、64 ビット テクスチャで XNUMX 倍のフィルタリング速度の向上を達成しました。実際の条件。
テクスチャ プロセッサは、依然として 4 つの TMU の大きなモジュールに結合されており、そのような各モジュールは 10 個の SIMD コアの XNUMX つを提供します。 不要なブロックの排除で表現される最適化により、TMU を構成するトランジスタの数を減らすことが可能になり、したがって、複雑さと面積を維持しながら、比較的流血の少ないチップ上により多くのトランジスタを配置することが可能になりました。合理的な範囲内のコア。
キャッシュ サブシステムは GPU テクスチャ サブシステムの重要な部分であり、RV770 では大幅なアップグレードも行われています。
まず第一に、帯域幅の増加に注意する必要があります。現在、第 480 レベル キャッシュからのテクスチャ フェッチ レートは 384 GB/秒という驚異的な速さですが、第 770 レベルと第 4800 レベルのキャッシュは XNUMX GB/秒の速度で通信できます。 第 XNUMX に、各 SIMD コアが独自の第 XNUMX レベル キャッシュを備えているため、データ ストレージの効率が向上します。 第 XNUMX に、第 XNUMX レベルのキャッシュがメモリ コントローラーと連携し、第 XNUMX に、RVXNUMX には頂点データを格納するための個別のキャッシュがあります。 改善は、テクスチャ プロセッサ アーキテクチャの場合ほど明らかではありませんが、ゲームでの ATI Radeon HD XNUMX のパフォーマンス向上に大きく貢献することは間違いありません。 新しい ATI グラフィックス プロセッサは、ATI Radeon HD アーキテクチャの主なボトルネックから完全に解放されており、Nvidia ソリューションが伝統的に強力だった、つまりテクスチャを使用した操作において、同等の条件で競合できるようになったと言えます。 ここでは、GPU を設計するための ATI のアプローチが最も明確に示されています。つまり、電力を直接増加させるのではなく、最適化しています。
ATI 用語でレンダー バックエンドと呼ばれるラスター プロセッサは、ATI Radeon HD アーキテクチャで劇的なボトルネックになったことはありませんが、RV770 では改善されていますが、これらのモジュールの総数は変わっていません。コアにはまだ 16 つあり、XNUMX の従来の ROP に相当します。
ATI RV770 に含まれるその他の技術革新に加えて、ビデオ エンジンの新機能、特に新しいサウンド コントローラーといくつかのソフトウェアの改善に注意する必要があります。
AC6.144、DTS、Dolby True-HD、DTS-HD フォーマットで最大 192 Mbps のオーディオ ストリームと 3 kHz のサンプリング レートをサポートする Realtek の 4000 チャネル オーディオ コントローラは、主要な HD コンテンツ拡張機能です。 新しいオーディオ コアの強化された機能は、ATI Radeon HD 4800 をホーム マルチメディア センターの一部として使用することを計画しているユーザーにとって非常に重要です。 さらに、ATI の Radeon HD XNUMX は現在、XNUMX チャンネル HD オーディオをネイティブにサポートする世界で唯一のグラフィックス カードであり、HDMI 経由で出力する機能を備えています。これは、競合する Nvidia ソリューションよりも大きな利点です。
Radeon HD4870 ビデオ カードに電力を供給するために、コネクタが 6 つしかない新しい Radeon HD4850 とは異なり、ビデオ カードのテールに 4850 つの 4870 ピン コネクタがあります。 より高い周波数でビデオカードを安定して動作させるには、強化された電源システムが必要でした。 したがって、Radeon HD125 ビデオ カードと比較すると、Radeon HD750 GPU 周波数は 5 MHz 高く、3600 MHz に等しく、有効な GDDR1986 ビデオ メモリ周波数は 4850 MHz であり、これは 5 MHz で使用される 900 MHz よりも大幅に高くなります。 Radeon HDXNUMX ビデオ カードのビデオ メモリ。 確かに、ここで予約する価値があります。新しい GDDRXNUMX メモリの実際の周波数は XNUMX MHz です。XNUMX クロック サイクルで、「通常の」非 DDR メモリと比較して XNUMX 回ではなく XNUMX 倍の情報を転送するだけです。
仕様 ATI Radeon HD 4870
名前 | のRadeon HD 4870 |
コア | RV770XT |
プロセス技術 (µm) | 55 |
トランジスタ (百万) | 956 |
コア周波数 | 750 |
メモリ周波数 (DDR) | 900 (3600QDR) |
バスとメモリの種類 | GDDR5 256 ビット |
帯域幅 (Gb/秒) | 115,2 |
統合されたシェーダー ブロック | 800 |
統合されたシェーダー ユニットの頻度 | 750 |
コンベアあたりのTMU | 40 |
ROP | 16 |
シェーダー モデル | 4.1 |
充填率 (Mtex/秒) | 30000 |
DirectXの | 10.1 |
メモリ容量 | 512/1024 |
インターフェース | PCIe 2.0 |
Radeon HD4870 ビデオ カードは、言葉だけでなく、実際には NVIDIA の GeForce GTX 260 ビデオ カードの最も強力な競争相手であることが判明しました。 AMDの以前の260つのビデオカードファミリの「トップ」の代表者は、NVIDIA製品と言葉でしか競合できなかったので、これは長い間見られませんでしたが、実際には遅すぎました。 明らかに、ストリーム プロセッサの数が増え、アーキテクチャが変更された新しいシェーダー ユニットは、GeForce GTX 280 ビデオ カードのシェーダー ユニットよりも強力であることが判明しました。同時に、ほとんどすべての最新ゲームで快適なゲームプレイを提供します。
Mass Effect