close

):NV卡皇,英偉達GTX Titan Z性能首發測試

用先發後至和一波三折來形容Titan Z一點都不為過。高調的亮相並給人萬無一失的第一印象,之後卻晚於強大競爭對手發佈,甚至還一度傳出瞭跳票以及cancel的傳言。盡管它最終還是來到瞭我們的面前,但這塊NVIDIA的新一代卡皇確實經歷瞭跌宕起伏的兩個月。

北京時間2014年5月28日21點,在GTC大會首次亮相近兩個月之後,NVIDIA終於在全球正式發佈瞭Kepler架構的最終產品線,基於Kepler架構設計的本代雙芯旗艦——GeForce GTX Titan Z。與先前所發佈的Radeon R9-295X2不同,GeForce GTX Titan Z除瞭能夠滿足以包括4K UltraHD分辨率及多屏拼接在內的各種高清/超清分辨率遊戲應用場合之外,還附帶瞭完整的單節點級生產力屬性,可以讓用戶實現與GeForce GTX Titan類似的輕生產力部署能力。

▲GeForce GTX Titan Z

不得不承認的是,Radeon R9-295X2的出現為NVIDIA創造瞭一個壓力巨大的競爭環境,Radeon R9-295X2由兩顆頻率更高的全規格Radeon R9-290X核心打造,搭載風水冷一體式散熱器,采用瞭“非標準”的能夠提供最少450W功率的8pin+8pin外接供電接口,這一系列破釜沉舟的做法創造瞭一塊性能強大同時溫度噪音表現俱佳的旗艦卡皇。而這塊卡皇,正是擺在Titan Z面前的對手。

▲Radeon R9-295X2

比競爭對手更早曝光,同時采用瞭常規散熱佈局,這兩點為Titan Z的最終表現埋下瞭伏筆。外界之所以會傳言Titan Z數次延期,大抵上也因這兩點而起。Titan Z的實際表現究竟如何?NVIDIA現在發佈這款產品究竟是陣前慌亂還是厚積薄發的表現?它是否具備正面承受295X2沖擊的實力呢?就讓我們接下來的測試來告訴您答案吧。

1、GeForce GTX Titan Z規格一覽

●GeForce GTX Titan Z規格一覽

GeForce GTX Titan Z采用Kepler圖形架構,集成兩顆完整規格的GK110圖形芯片,擁有124億晶體管,其運算資源總量因為這種疊加而提升到5760個ALU,Texture Filter Unit增加到480個,構成後端的ROPs為96個,雙芯式設計也為其帶來瞭384Bit×2顯存控制單元及容量高達6144MB×2的顯存體系。

GeForce GTX Titan Z的默認核心及顯存運行頻率為706/7012MHz,官方Boost頻率為876/7012MHz,默認總Pixel Fillrate能力為76.8Gpixels/S,默認總Texture Fillrate能力為338.8G/S,有效顯存帶寬336.6GB/S。GeForce GTX 780Ti擁有4.06T×2 Flops/S的單精度浮點運算能力,由於其所處的特殊產品地位,GeForce GTX Titan Z同Titan一樣保留瞭1/3速DP的運算特征,因此其單卡總雙精度浮點運算能力達到瞭1.35T×2 Flops/S。

GeForce GTX Titan Z采用的GK110與其他GeForce顯卡所采用的GK110同屬Kepler架構,但GeForce GTX Titan Z開放瞭Kepler架構全部功能性設計和特點,這些特點主要由以下主要的部分組成:

1、完整的單節點通用計算特性,包括全部雙精度運算能力。

2、單個GPU當中包含5單元的宏觀並行結構,15組SMX單元被分為5個GPC,每個GPC包含3組SMX。

3、15組包含瞭幾何引擎、光柵化引擎以及線程仲裁管理機制的SMX單元。每個SMX單元的細節同GK104完全相同,均包含一組改進型的負責處理幾何任務需求的PolyMorph Engine,192個負責處理運算任務及Pixel Shader的ALU,16個負責處理材質以及特種運算任務如卷積、快速傅裡葉變換等的Texture Array,二級線程管理機制以及與它們對應的shared+unified cache等緩沖體系。

4、基於Dynamic Parallelism的全新本地任務管控機制,以及由此帶來的更高的單元復用率。

5、調節粒度更細同時頻率控制范圍更大的新一代GPU Boost。

6、由GPU Boost 2.0發展而來的新一代Power Balance功能。

▲GK110核心照片

Kepler構架曾經是一個充滿瞭神秘感的存在,伴隨著GK104以及GK110的陸續發佈,我們在過去的兩年多裡曾經對它的各種細節,諸如ALU團簇單元、Cache、線程仲裁機制、動態頻率調節體系等等進行過透徹的相關分析。作為Kepler架構的最終產品線,單卡雙芯的TitanZ給瞭我們再一次回顧和總結Kepler架構的機會。

2、再讀GK110的宏觀並行體系

●再讀GK110的宏觀並行體系

NVIDIA於Fermi架構中首次引入瞭宏觀並行結構設計,它將若幹組ALU團簇綁定為一個GPC,並輔以完整的幾何處理及光柵化流水線,這讓每個GPC因此成瞭與傳統GPU同等級的存在。在執行符合DirectX 11特征的程序時,一級任務管理機制隻需將Kernel並行的發放給不同的GPC,即可達成整個架構的並行kernel處理過程。因此這種設計不僅可以比較直接的為架構帶來更好的幾何和光柵化處理能力,同時還可以提升任務的執行效率。

與去年發佈的GK104不同,NVIDIA在GK110架構中使用瞭新的宏觀並行結構。GK104的8組SMX單元被兩兩分組結合成一個GPC,整個架構的8組SMX單元被劃分成瞭4 GPC並行的形式。而GK110則是將15組SMX單元以三組為單位結合成一個GPC,整個架構被劃分成瞭5 GPC並行的形式。

▲完整規格GK110架構圖

由於NVIDIA采用瞭Setup以及Rasterizer同GPC綁定的方案,因此GK110架構可以實現單周期輸出5多邊形,在同頻下擁有瞭比GK104多20%的多邊形輸出能力以及光柵化處理能力。

宏觀並行度的進一步提升有助於體系在處理並行Kernel時的效率,但從外表上來看GK110對於宏觀並行度的提升與其運算單元(SMX/ALU)規模的提升並不成比例,單個GPC的規模較之GK104提升瞭50%,這樣的做法給人一種整個架構開始偏重於吞吐而非強調任務效率以及單元復用率的感覺。這是否意味著NVIDIA打算放棄堅持瞭多年的既有設計思路,開始放棄效率並轉向提升架構的吞吐能力瞭呢?

恐怖的規格和吞吐能力是否意味著GK110的效率會下降呢?

事實並非如此,因為NVIDIA在GK110中為我們帶來瞭另外兩個重要的特性——Dynamic Parallelism和Hyper-Q,這兩個特性不僅極大地提升瞭整個架構的任務效率/密集度,同時將單元復用率以及整個Kepler架構的意義提升到瞭一個全新的高度。

3、最重要特性——Dynamic Parallelism

●最重要特性——Dynamic Parallelism

在GK110架構中,NVIDIA在傳統的二級仲裁機制CWD(CUDA Work Distributor,CUDA分配器)之外加入瞭全新的GMU(Grid Management Unit,Grid管理單元),GMU可以對CWD收到的Grid進行啟停管理、回收、判斷、掛起以及重排序等操作,令其以更加靈活的方式在必要時進入執行單元,這避免瞭Grid像過去那樣以缺乏排序的順序模式被送入SM,而且一旦進入SM之後就隻能等到全部執行結束才能出來。

▲Dynamic Parallelism特性

GMU的引入為動態片上創建Kernel提供瞭條件,所以NVIDIA在GK110中引入瞭全新的Dynamic Parallelism(動態並行)特性,該特性允許GPU根據需要直接對Grid的結果進行判斷並在本地創建新的Kernel,這與傳統的Kernel執行完畢之後由CPU進行回收判斷並創建新的Kernel再行發放有瞭很大的不同。

▲Dynamic Parallelism帶來的變化(傳統模式VS Dynamic Parallelism)

Dynamic Parallelism減少瞭GPU同CPU之間的通訊需求,減輕瞭與CPU頻繁通訊所帶來的等待周期產生的延遲影響,提升瞭GPU內部的Kernel密度和執行連貫度,對於低負載高密集任務中單元復用率改善有不小的幫助。

4、再議Kepler架構的目的和意義

●再議Kepler架構的目的和意義

通過GK110的“送出去,請進來”,我們已經可以明確的掌握Kepler架構的目的和意義瞭——Kepler架構的目的在於在NVIDIA從G80一直延伸到Maxwell及其後架構的路線圖中扮演承前啟後的角色,它嘗試著將一部分邏輯判斷性任務交給通用處理器執行,同時將一部分不適合通用處理器執行的控制性工作轉移到對應的專用單元來處理,以厘清任務執行地點和執行特征、優化任務處理對象的選定、積累通用處理器使用經驗以及收集執行過程中的能耗比特征等一系列手段,為未來Maxwell融合架構中最終接納ARM架構通用處理器打下瞭必要的基礎。

▲Maxwell的後續——Echelon架構細節

而Kepler架構的意義則更加單純,那就是強調性能功耗比屬性。讓合適的單元以盡可能合適的功耗去完成盡可能合適它們完成的任務,進而讓整個架構以更小的功耗達成更大的性能輸出能力,這就是Kepler架構最突出的特征和意義。我們在過去一年間面對的以及等待的各色“黑科技”,包括高效的register體系、新Scheduling過程、GPU Boost以及Dynamic Parallelism等等,全部都是為這一意義而存在的。

通過調節SMX結構提升體系的吞吐能力,同時以優秀的緩沖體系、合理的仲裁和任務管理機制以及各種全新的技術來保證體系的單元復用率以及執行效率,這種平衡的理念賦予瞭Kepler架構強大的性能和成熟穩健的性能功耗表現。Kepler架構的註意力並沒有片面的集中在某些特性或者單純運算能力的提升上,它對任務分派管理機制的調整和改進屬於最底層的架構效率優化,正是這種能夠讓所有架構中運行的任務,無論是運算任務還是圖形任務均能受益的改動,為Kepler帶來瞭令人難忘的表現。

▲G80~GF100架構發展示意(圖片引自後藤弘茂先生博客)

當然,我們同樣不能忘記那些站在Kepler背後的英雄們,Kepler之前諸架構對於任務管理體系的不斷完善,寄存器及寄存器溢出緩沖體系使用經驗的積累,架構設計理念的逐步驗證、檢討和補充修正同樣是造就Kepler架構的成功的重要因素,而正確平衡成本關系並在DirectX 11時代的起點劃下瞭空間充分的D線,又在可制造型層面為Kepler架構的最終實現奠定瞭最根本的基礎。NVIDIA充分的計劃性和推進這些計劃的執行力,逐漸將這些積累轉化成瞭實際的架構和產品,並最終帶來瞭今天我們所見到的基於GK110架構的產品。

除此Dynamic Parallelism之外,GK110架構還將更多更新的技術引入到瞭體系當中,其中最典型的就是全新的GPU Boost——GPU Boost 2.0。

5、GPU Boost 2.0+G-SYNC

●GPU Boost 2.0+G-SYNC

GPU Boost是NVIDIA在GK104中首先引入的動態功耗/性能平衡調節機制,它可以動態遊戲及應用負載,並將負載同設計功耗上限進行比較,接著將實際負載同設計功耗上限之間的差值轉化成實時頻率的提升,同時還能根據用戶自定義的遊戲幀數上限來判斷性能需求,進而將多餘的性能以降頻的形式予以消去,並最終讓用戶獲得更低的使用能耗。

▲GPU Boost 2.0

伴隨著GK110架構的到來,NVIDIA將GPU Boost從1.0升級到瞭全新的2.0版本,新版本GPU Boost支持以下新特性:

• 更細膩和敏感的頻率調節段位。
• 溫度監控出現在控制要素中。
• 更加集中於“常規使用溫度區間”的性能調節區間。
• 擁有更大的電壓調節上限。
• 支持全新的電壓上限/溫度聯動調節功能,GPU溫度越低,可用的電壓上限就越高。
• 支持溫度目標值設定及對應的自動調節頻率功能。
• 更多可調節選項。
• 顯示器刷新率調節功能。

▲GPU Boost 2.0提供瞭更豐富的可調選項

GPU Boost 2.0比1.0版本更加敏感,可以更加積極的完成功耗和性能之間的互換,其調節模式也發生瞭變化,監控機制對GPU頻率的調節判斷機制將不僅限於功耗數值,溫度因素現在也已經被納入到瞭判斷機制當中。在GPU Boost 2.0默認控制下,GK110架構將會在更多的時間裡處於80度附近這樣一個小范圍的溫度區間中。玩傢現在除瞭可以通過限定自定義幀數上限來達到節能降耗的目的之外,還能通過設定任意的自定義溫度上限來達到相同的目的。

▲GPU Boost 2.0特性

▲GPU Boost 2.0特性

除瞭加入溫度要素之外,GPU Boost 2.0還開放瞭電壓控制的上限,玩傢在進行超頻時可以擁有更大的電壓可調空間。另外,電壓上限還可以與溫度因素進行聯動,如果玩傢有能力改造散熱並達到更低的使用溫度,那麼在GPU Boost 2.0中將可以獲得比常規散熱更多地電壓上限空間。

▲G-SYNC技術

GPU Boost 2.0引入的最後一個值得註意的變化來自全新的顯示器刷新率調節能力,該能力目前已經演化成瞭更為完善的G-SYNC技術,這項NVIDIA於2013年蒙特利爾媒體日上發佈的全新技術從根本上解決瞭畫面的卡頓及撕裂問題。我們會在未來展開針對該項特性的專門解析和測試,敬請期待。

6、精彩的分享——ShadowPlay

●精彩的分享——ShadowPlay

作為NVIDIA全新推出的遊戲分享技術,ShadowPlay並非GeForce GTX Titan Z的專屬新特性,但它在後者的服役生涯中同樣會扮演重要的角色。該技術由Kepler GPU以及GFE軟件兩部分所組成,其作用在於以近乎無損性能的方式在遊戲過程當中實時完成高清遊戲視頻的截取,同時完成近乎實時的上傳分享。

▲全新遊戲視頻截取技術——ShadowPlay

ShadowPlay的視頻截取過程可以充分GK110 GPU的硬件來完成視頻編碼過程,整個過程不會占用額外的CPU以及其他系統資源,因此對實際遊戲幀數影響甚小。根據大會現場NVIDIA所演示的遊戲實況,ShadowPlay即便是在進行1080P分辨率視頻的實時錄制時,對遊戲的幀數影響也可以控制在1~2幀左右,幾乎達到瞭無損的程度。

▲ShadowPlay可實現多種分辨率視頻截取

ShadowPlay同時支持從普通的480/720P一直到Full HD的1080P在內的多種不同分辨率的視頻錄制,同時還可以通過GFE軟件簡單實時地完成視頻分享過程,視頻上傳到網絡中的整體延遲僅為當前畫面後2~3秒左右,這幾乎等同於現場直播你的遊戲過程。借由GeForce GTX TitanZ來實現實時的將逼真的高清分辨率遊戲過程進行分享的感受,這是傳統硬件以及其他解決方案無法提供的。

7、GeForce GTX Titan Z細節

●GeForce GTX Titan Z細節

▲GeForce GTX Titan Z

▲GeForce GTX Titan Z

▲GeForce GTX Titan Z

▲GeForce GTX Titan Z

▲GeForce GTX Titan Z PCB

▲GeForce GTX Titan Z

▲GeForce GTX Titan Z散熱方案

▲GeForce GTX Titan Z散熱方案

▲GeForce GTX Titan Z

8、測試平臺硬件環境一覽

●測試平臺硬件環境一覽

為保證測試能夠發揮顯卡的最佳性能,本次測試平臺由Intel酷睿i7-3970X處理器、ANTEC H650水冷散熱器、技嘉X79芯片組主板、威剛4GB DDR3-1600×4四通道內存、影馳戰將240GB固態硬盤、ANTEC 1300W白金牌電源組建而成。詳細硬件規格如下表所示:

●測試平臺軟件環境一覽

為保證系統平臺具有最佳穩定性,本次產品測試所使用的操作系統為Microsoft Windows 7正版授權產品,除關閉自動休眠外,其餘設置均保持默認,詳細軟件環境如下表所示。

在測試成績方面,理論性能測試用得分來衡量性能,數值越高越好;遊戲性能測試用遊戲自帶Benchmark記錄平均幀數來衡量性能,數值同樣越高越好。

9、理論性能測試之3DMark FireStrike

●理論性能測試之3DMark FireStrike

於北京時間2013年2月5日推出的新3DMark,采用全新界面設計,除瞭測試分數,還會展現每個場景測試期間的實時曲線,全程記錄幀率、CPU溫度、GPU溫度、CPU功耗。新3DMark取消瞭傳統的E、P、X模式,取而代之的是根據負載不同所推出的三個場景,其中FireStrike專為基於DirectX 11顯卡搭建的高端遊戲平臺,而CloudGate則支持基於DirectX 10環境的主流硬件,IceStorm則支持入門級DirectX 9設備、手機、平板電腦等等。

▲3DMark FireStrike

▲GeForce GTX Titan Z測試成績

驅動問題給我們的測試帶來瞭一個不算太好的開端,無論是最終的跑分成績,還是相對於其他GK110架構單芯顯卡的提升幅度,TitanZ在新3Dmark當中的表現都談不上優秀,但願這種現象能夠在後續的驅動當中得到緩解。

10、理論性能測試之3DMark 11

●理論性能測試之3DMark 11

PC遊戲隨Windows 7的發佈進入DirectX 11時代,眾多DirectX 11顯卡早已摩拳擦掌上陣廝殺,卻遲遲沒有一個權威性的基準測試軟件來衡量遊戲顯卡DirectX 11性能的高低。終於,DirectX 11時代的3DMark 11來到大傢面前。3DMark 11使用原生DirectX 11引擎,測試場景包括Tessellation曲面細分、Compute Shader以及多線程在內的大量DirectX 11特性。

▲3DMark 11

▲GeForce GTX Titan Z測試成績

與新3Dmark一樣,3Dmark 11的測試同樣受到瞭來自驅動的困擾。如果想讓TitanZ獲得更好的表現,NVIDIA還需要在驅動上下一番功夫。

11、滿載溫度測試

●滿載溫度測試

在溫度及功耗測試環節,我們繼續采用Furmark滿載的方式讓顯卡達到全負荷工作,以此收集GeForce GTX Titan Z顯卡的滿載溫度。

▲GeForce GTX Titan Z滿載溫度

Furmark應用測試可以完美支持GeForce GTX Titan Z的兩顆核心同時運行,通過測試可以看出,GPU Boost在這類測試當中發揮瞭明顯地作用,GeForce GTX Titan Z在風冷環境下的滿載溫度同其他GK110相當,均在80度附近。

12、全文總結:有生產力的遊戲卡皇

●全文總結:有生產力的遊戲卡皇

更低的功耗,更高的溫度,更昂貴的價格,和Titan一樣完整的生產力屬性及使用方式,和競爭對手一樣“強大但嚴重依賴驅動”的遊戲性能表現,這就是GeForce GTX Titan Z留給我們的印象。以一份稍顯遲到瞭的作業而言,這結果應該算是意料之中,談不上驚喜。

當然,有一點需要註意的是,我們所獲得的Titan Z樣卡以及驅動均為早期版本,隨著NVIDIA的後續進行的調整,Titan Z的表現應該還有進一步提升的空間。

▲GeForce GTX Titan Z

與Titan一樣,Titan Z並不是一塊單純的遊戲顯卡,它確實具有強大的遊戲性能,但以個人為目標的通用計算/開發/生產環境,包括低強度個人節點超級運算、HPC相關程序開發及快速調試、低密度大規模並行計算功能體驗等場合才是更適合它的歸宿。另外,說到生產力,值得註意的是在生產力屬性的開放層面上NVIDIA一如既往的小心謹慎——Titan Z並沒有因為單卡雙芯的存在形態而開放跨節點互聯並行工作的指令集,換個直白的說法,就是它在生產力屬性場合僅僅是兩顆連接在一起但獨立工作的Titan/TitanBE,同Titan/TitanBE一樣無法形成雙節點或者多卡多節點並行部署能力。

▲GeForce GTX Titan Z

未采用水冷雖然是一個“正常”的選擇,但由於Radeon R9-295X2的出現,這一正常的選擇未必會為輿論以及部分玩傢所接受。GeForce GTX Titan Z雖然功耗更低,但風冷所帶來的高溫和無法回避的噪音確實無法與競爭對手的水冷方案相提並論。盡管水冷方案並不是一個理智且值得鼓勵的選擇,甚至可以說是開瞭一個極壞的頭,但在競爭終極卡皇的過程中沒有預估到競爭對手的決心和行動力,最後不得不以兩顆風冷低頻版Titan BE去應對對手的兩顆液冷高頻版R9-290X,這的確是NVIDIA的失誤。

當然,你也可以說Titan Z“並不是顯卡”,NVIDIA還有諸如GTX790之類的後手,但在Kepler架構已經問世50個月以上,Maxwell都已經登場數月的今天,繼續去部署GTX790這樣的顯卡,真的還是一件有什麼積極意義的事麼……

▲還會有GeForce GTX 790麼?

整體而言,Titan Z確實是一塊遊戲性能強大的顯卡,足以問鼎當今顯卡業界的翹楚之位,它同時還能提供較為完整的個人超級計算體驗,並能在一定程度上形成生產力,但它身上的所有特征和優勢幾乎都是幾十個月之前就已經註定瞭的,所以並沒有給我們帶來太多值得回味的激蕩或者觸動。至於這樣的顯卡是否會滿足您的需求,後續還會不會有遊戲性能更加出色同時更加便宜的無生產力屬性版本單卡雙芯,也就是GeForce GTX 790之類顯卡的出現,就交給屏幕前的諸位自行判斷吧。



Orignal From: NV卡皇,英偉達GTX Titan Z性能首發測試

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 x0z7blog01 的頭像
    x0z7blog01

    x0z7blog01的部落格

    x0z7blog01 發表在 痞客邦 留言(0) 人氣()