Nvidia Fermi - Analýza nové generace GPU
i Zdroj: PCTuning.cz
Hardware Článek Nvidia Fermi - Analýza nové generace GPU

Nvidia Fermi - Analýza nové generace GPU | Kapitola 4

Z. Obermaier

Z. Obermaier

1. 10. 2009 03:00 57

Seznam kapitol

1. Úvod, tajností už bylo dost 2. Historie GPU Computingu 3. Lehké připomenutí CUDA 4. Fermi - Nové Jádro GPU 5. Další inovace v jádru 6. Závěr - spekulace o výkonu, a uvedení

Nové Radeony už mají své uvedení za námi, na Nvidii jsme si museli chvíli počkat. Rok jsme hovořili o GT300, jež vzalo za své a místo toho se objevilo kódové označení Fermi. I když vám dnes ještě kartu fyzicky neukážeme, dozvíte se o jádru téměř vše. Prohlédneme si změny vůči architektuře G200 a zaspekulujeme o parametrech karty.

Reklama
Nvidia Fermi - Analýza nové generace GPU
i Zdroj: PCTuning.cz

Pokud si stále nemůžete zvyknout na název Fermi místo číslic, nejste sami. U jádra GT200 bylo vždy jádro pro herní grafiky GeForce označeno G200, pro karty Tesla GT200. V podstatě se jednalo o dva souběžné trendy, herní a grafika pro GPGPU. S Fermi jde spíše jen o GPGPU, tedy zmizelo i „herní“ označení. K rozlousknutí, zdali se jádro jmenuje GF100 nebo Fermi dojde až s prvními samply, co bude na rozvaděči tepla nad GPU.

Specifikace jádra

Nejprve tedy základní fakta o jádru. První verze sestává ze 3,0-3,2 miliard tranzistorů, což je dvakrát tolik co měla G200. Nové Radeony HD5800 mají „jen“ 2,15 miliardy, což je i tak dost. SP procesorů je v jádru 512, nyní se jmenují CUDA procesory (CP). Jádro je rozděleno na šestnáct SM jednotek, každá v sobě nese 32 CUDA procesorů, a čtyři SFU procesory, ukážeme si to už za okamžik na schématu. GPU je vybaveno šesti 64-bitovými řadiči pamětí, sběrnice pro GDDR5 je tedy 384-bitová a maximálně umí obsloužit 6 GB pamětí. U herního modelu se počítá s 1,5 GB pamětí GDDR5. Výjimkou nebudou ani 3 GB modely. Maximální kapacitu využijí jen GPGPU karty do profi sféry. Karta je samozřejmě vybavena rozhraním PCI Express 2.0. Podle analytika Tom R. Halfhilla by při teoretické frekvenci karty okolo 1.5GHz (odhad založený na informacích o architektuře, reálné frekvence zatím nebyly zveřejněny) odhadovaný výpočetní výkon v Single precision je něco málo přes 1,5 TFLOPS a v Double precision 768 GFLOPS. Pokud by se Nvidii podařilo dosáhnout frekvence jádra 2 GHz, tak by se výpočetní výkon v Double precision mohl dostat až na hranici magického jednoho TFLOPS. Podle jiného nejmenovaného zdroje by potom měl být výkon o poznání vyšší, až někde vysoko přes 2 TFLOPS, ale tady nejsou podklady ověřené a přikláněl bych se proto k seriózní analýze, která byla součástí podkladů z prezentace Fermi. 

Nutno říci, že jsem zde zklamán. Výkon v Single precision je jen o 60 procent vyšší než u G200, čemuže se Radeon HD 5870 s 2,7 TFLOPS může jen smát. V Double precision je náskok dvojnásobný, ale od nové architektury se čekalo více ... dle toho můžeme i trochu odhadnout herní výkon.

Nvidia Fermi - Analýza nové generace GPU
i Zdroj: PCTuning.cz

Zde je schéma jádra Fermi (GF100), jež jste před nedávnem mohli vidět na rozmazaném obrázku na webu. SM bloků je šestnáct a každý z nich nese 32 CUDA procesorů. Čtveřici SFU jednotek, paměť, L1 cache a dva Warp Schedulery. V dolní části je šest 64-bitových řadičů pamětí. Podívejme se na detailní obrázek jednoho SM bloku.

Nvidia Fermi - Analýza nové generace GPU
i Zdroj: PCTuning.cz

Právě se díváte na třetí generaci SM (Streaming Multiprocesor) clusteru. Těch je v jádru Fermi rovných šestnáct. Samotný CUDA procesor vidíte ve zvětšeném obrázku nalevo. Ten v sobě nese jednu aritmetickou jednotku ALU a FPU pro výpočty s plovoucí desetinou čárkou. Implementován byl také nejnovější standard pro programovatelné výpočty IEEE 754-2008, který nahrazuje dříve obsažený IEEE 754-1985. Znamená to, že nový čip NVIDIA (stejně jako nové Radeony HD5800) podporuje nejnovější normu pro GPGPU, jež umožňuje počítat i s hodnotami blízkými nule, kde předešlá generace nepodávala dobré výsledky.

Nejčastější operací při většině výpočtů je násobení hodnot, jež bylo u starší generace (Single precision) prováděno funkcí MAD (multiply-add), jež ale není nejpřesnější a některá čísla "zahodí". Pro Double precision je nutná funkce FMA (fused multiply-add) jež je právě implementovaná u jádra Fermi (u G200 byla také v Double precision módu). Nové jádro využívá FMA v obou režimech, jak Single i Double precision. Což je podstatná změna k lepšímu, výsledky jsou přesnější.

Kromě 32 CUDA procesorů, jež umí provádět základní matematické operace, je v SM ještě čtveřice speciálních jednotek. V jádru G200 byly tři, zde jsou čtyři. Každá zvládá vykonat nadstandardní matematické operace, jako jsou sin, cos a další. U G200 byly tyto jednotky řízené Schedulerem přímo v konkrétním SM bloku, pokud byly všechny zaneprázdněné, další výpočty se provést nemohly a čekalo se. To bylo neefektivní a mělo dopad na výkon. U Fermi je to jinak, jednotky jsou zcela nezávislé na Scheduleru v SM, ale podléhají přímo hlavnímu Dispatch procesoru, který může úlohu přesměrovat na jakoukoliv jinou SFU jednotku v celém čipu.

Hlavní je výkon v Double precision

Nvidia Fermi - Analýza nové generace GPU
i Zdroj: PCTuning.cz

Několikrát jsme zmínili, že NVIDIA zásadně zapracovala na Double precision výpočetním výkonu. Ten by měl být zhruba čtyřikrát vyšší než u G200. Tomu se nelze divit, u G200 pracovaly v Double precision pouze UI jednotky, jichž bylo v jádru 30. U Fermi pracuje v tomto režimu 256 CUDA procesorů. Navýšení výkonu je tedy signifikantní.

Nvidia Fermi - Analýza nové generace GPU
i Zdroj: PCTuning.cz

Nakonec se ještě podívejme na srovnání parametrů G80, G200 a Fermi. Některé změny které vidíte jsme si už popsali, některé nás čekají v příští kapitole.

Předchozí
Další
Reklama
Reklama

Komentáře naleznete na konci poslední kapitoly.

Reklama
Reklama