Hlavní stránka Hardware Procesory, paměti AMD Bulldozer – Nová architektura CPU od AMD
AMD Bulldozer – Nová architektura CPU od AMD
autor: Z. Obermaier , publikováno 6.9.2010
AMD Bulldozer – Nová architektura CPU od AMD

Většina světových médií přinesla zevrubný pohled na novou architekturu procesorů AMD už minulý týden. My máme sice krapet zpoždění, nabídneme vám ale také více informací. Kromě obecně známých skutečností si podrobně popíšeme architekturu jádra, a pohovoříme více o výkonu budoucí generace procesorů AMD.


AMD Bulldozer – Nová architektura CPU od AMD

Pokud jste článek pozorně četli až sem, máte myslím vcelku jasno. Architektura AMD Bulldozer je do jisté míry revoluční, v některých ohledech ale pouze dohání konkurenci a její architekturu Nehalem/Westmere. Pokud jsme si u první recenze Core i7 říkali, že Intel okopíroval zásadní znaky Phenomů, byla to do jisté míry pravda. Na první pohled viditelné vlastnosti byly první viděny u čipů AMD a Intel je adoptoval.

Jsou to zejména integrovaný paměťový řadič, výkonná sběrnice spojující procesor s jeho okolím (QPI). K tomuto kroku Intel dovedla nutnost srovnat krok s AMD v serverovém segmentu trhu. Pokud sledujete situaci kolem procesorů detailněji, tak ale víte, že architektura procesorů Nehalem a K8 (10h) je značně odlišná a spojovacím znakem jsou opravdu jen integrovaný řadič pamětí a QPI. Vnitřní uspořádání procesoru, systém zpracování dat je u obou rivalů jiný. Nehalem/Westmere je modernější architektura více reflektující soudobé aplikace a využití. V případě Phenomů II jde přeci jen o málo upravenou architekturu obstarožních Athlonů 64, jež si už zaslouží jít na odpočinek. Software se od jejich dob změnil a je to vidět i na výkonu současných procesorů AMD jež už nestíhají konkurenci.

Nyní se situace otáčí, a je zřetelně vidět, že AMD se naopak inspirovalo u úspěšné architektury dnešních Core i7, aby dohnalo svůj stále klesající podíl v serverech. Spousta principů a použitých technologií v těchto procesorech se nyní objevuje v architektuře Bulldozer. Ať jsou to instrukční sady, práce s paměťmi cache a jejich hierarchie, způsob zpracování instrukcí, predikce, branch fusion, úsporné funkce, Turbo mód. Je toho mnoho, co se v Nehalem/Westmere osvědčilo a nyní adoptuje do budoucích procesorů i AMD.

Na druhou stranu AMD nezůstalo jen u kopírování funkcí, to bychom jim hodně křivdili. Jejich návrh sdílených prostředků je v x86 procesorech ojedinělý a jde v podstatě o skok do neprobádaných vod. Někdo musí být ale průkopník, jinak by se vývoj zastavil. Intel je spíše opatrný a konzervativní, jde cestou menších postupných úprav. AMD ale vsází vše na jednu divokou kartu, což je celkem nebezpečné a už se jim to jednou vymstilo (65nm Phenomy).

Zdali se nová koncepce x86 procesoru prosadí, ukáží až první výsledky v reálných aplikacích. Podle mne je ale téměř vyloučené aby byly procesory architektury Bulldozer pomalejší než současné Nehalem/Westmere čipy. AMD hodně zapracovalo na nedostatcích současné architektury a mělo dost času na vyladění návrhu na "tělo" dnešním aplikacím. Vnitřní uspořádání procesoru bylo také uzpůsobeno vysokým pracovním frekvencím, tedy takty osmijádra kolem 3,4 GHz a více nebudou jistě problém. Zde záleží jak se vydaří výrobní proces a odladí prodejní revize procesorů.

Výkon

V tuto chvíli ještě neexistuje žádný finální procesor této architektury, a samotné AMD čeká na první vzorky na testování. Do ruky se mi sice dostala prezentace pro partnery, kde byl výkon naznačen (nebyl změřen jen simulován) v několika testech a grafech. Jména parterů a čísla jsou ale nadále pod NDA, tedy bych vám neměl prozradit více než se obecně traduje –  počet jader stoupl o 33 procent při navýšení výkonu o 50 procent. Já vám ale něco navíc řeknu, podle několika výsledků v prezentaci se dalo zřetelně vyčíst, že výkon na jádro by měl proti K8 (10h) narůst od 10-15 procent. Celkový výkon dnešního šestijádra (Istanbul) byl asi o 40 procent nižší než měl osmijádrový Valencia při podobné spotřebě. Pokud bude takto skutečný výkon vypadat, půjde o skutečně solidní počin hodný koupě nové AM3+ desky.

Názor

Po důkladném prozkoumání dostupných informací o nových procesorech AMD jsem na finální produkt skutečně velice zvědavý. Nový přístup může být pro x86 procesory skutečně zajímavým osvěžením, spolu s vysokými frekvencemi může jít skutečně o přelomový produkt. Nyní se mi zdá, že Bulldozer bude rovnoprávným soupeřem pro Sandy Bridge a to je dobře. Konkurence v High-endu tu dlouho chybí a Intel si diktuje ceny nejvýkonnějších procesorů opravdu troufale vysoké. AMD se u Bulldozeru soustředilo hlavně na serverový trh, i tak ale přinesou nové čipy zajímavé vlastnosti i domácím uživatelům. Nezbývá než držet AMD palce ať se podaří 32nm výrobu odladit co nejdříve a uvést první procesory s jádrem Zambezi podle plánu. PS. příště se podíváme na druhou novinku – jádro Bobcat.

Zdroje: Wikipedia, Citavia Blog, RealWorldTech, Anandtech, AMD a další ..



Tagy: AMD  Bulldozer  CPU  procesor  server  Orochi  


 
Komentáře k článku
RSS
Pouze registrovaní uživatelé mohou přidat komentář!
6.9.2010 07:22:18   89.173.156.xxx 5413
AMD daj mi zamienku zahodit INTEL
6.9.2010 07:47:18   89.102.174.xxx 4823
Za víc peněz jsi u Intelu a máš vyšší výkon, který v 99% případů stejně nepotřebuješ
6.9.2010 07:39:12   194.228.245.xxx 472
Pekny clanek
6.9.2010 08:59:43   89.111.103.xxx 438
Je vidět, že pan Obermaier se jako jeden z mála redaktorů na tomto webu opravdu vyzná. Moc se těším na pokračování s jádrem Bobcat.
6.9.2010 09:35:04   147.175.125.xxx 52
Po prazdninach 2010 sa velmi zlepsil Clanok som cital len zbezne, ale opat strelil jednoho kapra, ktory nie je ale zavaznym

K9 bolo pracovne ozancenie dvojjadrovyvh K8 preto to oznacenie K10 pre stvorjadra.,.
6.9.2010 11:39:23   194.213.42.xxx 281
Tak přečetl jsem to celé a musíme toho OBRa pochválit. Předpokládám, že mu ten článek trval hodně dlouho, ale má tam všechno dobře a i překlady pojmů, které se nepřekládají v IT doslovně, má prostě všechny dobře... Takže fakt skvěle zvládnutý článek.
6.9.2010 09:42:28   78.24.12.xxx 190
Jen jedna věc. Ze začátku zmiňujete že vše vychází z Pentia. No, ono z Pentia (5x86) ani tak moc ne, P54 ala Pentium ala socket 4 (první s vadnou FPU), později socket 5 a 7 + Pentia MMX jsou 5x86 a z těch to fakt nevychází. Vychází to z Pentia PRO, naprosto jiného (tehdy primárně serverového - jak jinak) CPU do socketu 8, to byl první CPU 6x86 generace a P6 architektury, ze který přímo vycházej i Core2 a Nehalem se tam taky v mnoha věcech inspiruje. Pentium PRO je rok 1996 ano tak dlouho jsme tu neměli revoluci, jen evoluci.

Jen ještě jdna věc, trochu se obávám o herní výkon Buldozerů. ano, správně dělaj když budou jednu FPU sdílet pro obě dvě logická jádra. Protože na serverech je poměr ALU/FPU zátěže asi 80/20, čili je tam solidní rezerva. Ale v hrách je to právě naopak kdy 80% leží právě na FPU jednotce. A to by mohl být problém.
6.9.2010 10:03:06   147.175.125.xxx 511
tam je to vyriesene
APU - teda GPGPU na chipe, ktora ma 10x taky FPU vykon ako CPU s mensou presnostou a asi 2x taky vykon s rovnakou presnostou ako CPU.
6.9.2010 10:06:37   90.176.74.xxx 410
"...bych vám neměl prozradit více než se obecně traduje – počet jader stoupl o 33 procent při navýšení výkonu o 50 procent. Já vám ale něco navíc řeknu, podle několika výsledků v prezentaci se dalo zřetelně vyčíst, že výkon na jádro by měl proti K8 (10h) narůst od 10-15 procent."--Takže 1,5 výkonu při 1,33 nárůstu jader a máme tu 1,5/1,33=1,1278 nárůst výkonu na jádro. Tj. 12,78%.-------------
Článek je plný kostrbatých vět, zřejmě jak je autor přepisoval do výsledné podoby (alespoň tak se mi to stává:-). Chtělo by to ho ještě přečíst a upravit.
6.9.2010 10:28:39   78.24.12.xxx 20
Nárůst, ale v čem? Pokud to bude 80% nárůst v ALUoperacích a 50% propad v FPU tak to furt odpovídá nárůstu výkonu na jádro.... o to jde.
6.9.2010 10:55:41   90.176.74.xxx 21
Šlo mi o to, že ta supertajná informace nepřináší oproti té co "se obecně traduje" nic nového. Že i ta 1. má vypovídající hodnotu mizivou je jiná věc.
6.9.2010 10:11:48   90.176.74.xxx 21
Nemyslel jsem tím, že nárůst bude přesně 12,78%, ale to že tajná informace 10-15% nepřináší oproti té předchozí nic nového.
6.9.2010 13:13:35   89.239.15.xxx 60
velmi prijemne cteni pro pondelni rano
6.9.2010 14:09:24   88.100.164.xxx 20
takže, pokud jsem to dobře pochopil, teoreticky zle vzít jeden "modul" a ten nahradit "grafickým modulem" ?
Pak by to bylo skvělé a teoreticky by šlo přidat funkci do proceseru, který při práci s plovoucí desetinnou čárkou(tečkou) přepne výpočet na grafiku.... otázka je, zda "přepnutí" nebude pomalé, ale to by vzhledem k tomu, že má sdílenou L3 paměti neměl být problém.... ne?
6.9.2010 14:57:41   94.113.125.xxx 40
To bych rek ze nepujde. Logika, ktera visi nad vsema modulama CPU by musela rozumet i podivnejma instrukcim pro GPU modul a ten jen tezko muze pouzivat normalni x86 instrukce.

Urcite existuje nejaky reseni, ale ja se svejma znalostma radci nebudu ani moc spekulovat. Vazne by me zajimalo jak dohromady spojit CPU, ktery jede na x86 a vlastnich microOPs a GPU, ktery v pripade AMD ani z dalky nepripomina CPU. Pouziva VLIW a nejspis nemaj ani ustalenou instrukcni sadu mezi generacema (RV7xx bude mit trochu jinou sadu nez RV8xx ...). Reseni urcite nebude zadna sranda.
Bude zajimavy sledovat kdo bude mit lepsi pozici. AMD ma diky ATI mnohem vetsi know how v oblasti GPU. Intel n druhou stranu muze rozhazovat penize a Larrabee je vyrazne bliz CPU a nez rekneme RV870.

Kazdopadne preju AMD uspech aspon takovej jakej byl s K8kou.
6.9.2010 16:35:39   217.11.246.xxx 20
Mne to naopak nerealne neprijde. Dnesni cpu prece taky nejsou nativni x86, ale x86 instrukce jsou prekladany do internich microOPs. Je jedno jakou instrukcni sadu aktualni generace GPU pouziva, decoder muze byt uzpusoben vzdy na tu, ktera je obsazena v chipu. Ohledne rozhodovani na co pouzit FPU a kde GPU je to jiste slozitejsi, ale kdyz muzou fungovat veci tak slozite jako predikce vysledku, jiste v AMD vymysli vnitrni logiku i pro toto. Jestli neco takoveho rozpracovano nemaji do detailu, pak vidim mnohaletou marketingovou strategii ve jmenu Fusion jako prinejmensim trapnou.
6.9.2010 19:13:30   212.71.186.xxx 71
Lidi, neblaznete, vyuzivat GPU jadra pro x86 FPU instrukce je naprosty nesmysl.GPU ma pipeline dlouhou radove stovky stages, takze kazda takto zpracovavana instrukce by mela latenci stovky taktu. Coz je zhruba 50x vic, nez ma FPU v procesoru ;). GPU je optimalizovana pro obrovske mnozstvi nezavislych instrukci a threadu a ne pro jednotlive, navzajem zavisle FPU / SSE instrukce, ktere navic pro adresovani pameti pouzivaji standardni x86 registry a AGU. To je jako byste dali do A380 motor z F16 a mysleli si, ze bude letat nadzvukovou rychlosti .

Kdyz to reknu jeste trochu jinak - FPU v CPU je dokonce rychlejsi, nez v GPU, ale GPU ma techto jednotek stovky. Ale pro CPU neni pocet jednotek dulezity, protoze vetsinou stejne nejde vykonavat soucasne vic nez 2 az 3 instrukce naraz, protoze v programu jsou skoky a instrukce jsou na sobe vzajemne zavisle.
6.9.2010 19:03:41   83.208.197.xxx 55
Právě, že to půjde a je to také cesta budoucnosti, kterou půjde AMD i Intel. Představte si to takto, podívejte se na Bulldozer modul a FPU cluster uprostřed se čtyřmi výpočetními jednotkami nahraďte třeba 80 Stream procesory .. SP procesory umí stejné microOPs jako výpočetní jednotky CPU, umí počítat nic víc umět nemusí ... takový FPU výkon bude vůči tomu dnešnímu gigantický ... aplikace vůbec nepozná, že část počítají SP procesory nebo FPU jádra CPU, jen se vše provede ultra rychle a procesor to bude řídit sám ... tohle není hudba daleké budoucnoszi, ale letošního roku ... AMD už první APU předvedlo a jistě i letos uvede ...
6.9.2010 21:15:40   212.71.186.xxx 101
Ne nepujde. Ja se optimalizovanim a programovanim GPU a CPU (SSE) zivim, takze vim, co pisu . I kdyby tam nakrasne bylo milion stream procesoru, tak by je nebylo cim krmit, protoze nejde provadet vic instrukci paralelne v jednom threadu, nez rekneme 3 nebo 4. Je to stejny pripad jako INT jednotky. Vic nez 2 se vyuziva tezko, proto treti INT jednotku AMD vypustilo. Mluvime samozrejme o normalnim obecnem x86 kodu s SSE. Jak uz jsem psal, ty instrukce jsou na sobe navzajem zavisle, tak jak byste je chtel paralelizovat ? A co vetveni, adresovani atp. Kazda druha SSE instrukce pracuje primo s pameti a k tomu potrebuje GP registry, kterymi GPU nedisponuje. Navic, SP rozhodne neumi stejne micro-ops, jako CPU. SSE instrukci jsou stovky a vetsinou jsou to single micro-ops. GPU podporuje kolem 20-ti instrukci +-. Nejhorsi by ale bylo vetveni, ktere se navic dela v INT casti. FPU/SSE nejde od INT oddelit, natoz provadet v GPU casti. Vase reseni mi pripomina ten trojclenkovy vtip, kdy 1 Cinan vykope jamu za 5 hodin, za jak dlouho tu jamu vykope milion Cinanu ? GPU potrebuje tisice threadu. FPU v Bulldozeru bude pracovat se 2 a navic s promichanymi INT, FPU a SSE instrukcemi, vcetne tech, co patri do vice skupin soucasne... GPU v CPU musi byt specialne programovano. Nikdy nebude provadet zadny druh x86 kodu, ani micro-ops z neho pochazejici. Kdo pise, nebo videl, jak vypada typicky x86 SSE(2,3,4) kod, tak nema pochyb. Ano, AMD APU predvedlo, ale bude to jen hodne integrovane GPU/VPU, se spolecnou cache a mozna i load/store engine. Nic vic.
7.9.2010 06:51:05   83.208.197.xxx 16
bohuzel se mylis ty, presne jak to rikam to amd prezentovalo na hot chips 22 konferenci ... a intel ukazal u sve architektury haswell ... mozna si jen nerozumime ... sp procesory nebudou jen fpu jednotkou ale radou klasickych alu/fpu jednotek ... pokud prijde vysoce paralelni kod, pujde ke zpracovani tam, pokud pujde o beznou aplikaci pujde do cpu, tohle reseni nas ceka ve finalni podobe mozna za tri, ctyri roky ... to bude zrejme cely x86 model cpu kompletne prepracovan pro tuto moznost
7.9.2010 09:44:07   212.71.186.xxx 100
Ano, souhlasim, ze pro specialne napsany vysoce paralelni kod (nejspis s vlastni sadou instrukci) to bude mozne - neco ve stylu x87, kdyz byl jeste samostatny koprocesor. Ale urcite ne pro normalni x86 (SSE) kod, ten proste paralelizovat nejde a kdo to dokaze, ma Nobelovku jistou .

Jinak, firemni prezentace je nutne brat s trochou te "grain of salt". Oni tam prezentuji vselico a realita je pak trosku jina. Pripadne, clovek si v nadseni rad domysli i to, co tam neni . Ono je to videt i ve tvem clanku, ktery obsahuje dost technickych chyb a nepresnosti - treba o te delce pipeline. Ty cisla tusim 17 a 23 neznamenaji pocet stages, ale latenci jedne stage. A taky samozrejme - vic stages = vyssi frekvence a mensi vykon a ne naopak, jak je (nebo aspon vcera bylo) uvedeno. Ale nechci rypat, laickym ctenarum je to stejne fuk a ja uz musim jit zase makat .
7.9.2010 15:30:24   89.102.114.xxx 40
Presne tak, musim dat palec nahoru

Delka instukcni pipeline je primo umerna dosahovane frekvenci a neprimo umerna dosahovanym realnym IPC.
-> zkontrolujte na jednotlivych NetBurstech

Jinak, do dnesnich SPs opravdu nenacpeme zadnou uOPS z CPU... Takovahle architekturalni unifikace je v nedohlednu.

Cpani GPU a CPU pod jeden IHS je jen k vykonavani OpenCL, ComputeShaderu nebo Stream kodu.
Vyhoda spociva v nizsich nakladech a zrejme hlavne i v rozsireni pomerne solidnich GPU i lowendu.

Hlavne ne Federmannuv pristup...
6.9.2010 16:16:47   82.142.90.xxx 49
Nepochopil jsem, proč jsou ve článku zvýrazněna některá slova. Zvláště pak INTEL a AMD. Možná to někomu jinému nepřijde, ale na mě takové množství působí rušivě a čtení článku jsem skončil na první stránce... Dle mého osobního názoru má zvýrazňování sloužit ke zdůraznění nějaké skutečnosti v textu, ale to co je v tomto článku vypadá jako textový "Product placement" a navíc rušivý. Pro samé AMD, INTEL a zase INTEL a AMD mám dojem, že článek je o podílu počtu těchto názvů v textu a ne o nové architektuře...
7.9.2010 06:46:20   194.228.18.xxx 30
Ranger666 napsal:
Citace:
Nyní se mi zdá, že Bulldozer bude rovnoprávným soupeřem pro Sandy Bridge


som zvedavy...dufam ze to skonči tak ako vzdy


Jak jako vždycky? Podívej na Thuban, ve své kategorii vynikající CPU, nebýt existence Gulftownu s 12 vlákny, pak by spolu s i7 965 patřil k nejvýkonějším CPU v nabídce.
6.9.2010 18:08:13   217.12.62.xxx 03
Citace:
Nyní se mi zdá, že Bulldozer bude rovnoprávným soupeřem pro Sandy Bridge


som zvedavy...dufam ze to skonči tak ako vzdy
6.9.2010 18:55:47   83.208.197.xxx 00
fotobaNEW napsal:
Po prazdninach 2010 sa velmi zlepsil Clanok som cital len zbezne, ale opat strelil jednoho kapra, ktory nie je ale zavaznym

K9 bolo pracovne ozancenie dvojjadrovyvh K8 preto to oznacenie K10 pre stvorjadra.,.


K9 byl zrušený projekt, K10 v podstatě neexistuje ... u K8 AMD opustilo označení Kxx a nahradilo jej slovními názvy - Bulldozer, Bobcat ... atd.
6.9.2010 18:58:35   83.208.197.xxx 50
DOC_ZENITH napsal:
Jen jedna věc. Ze začátku zmiňujete že vše vychází z Pentia. No, ono z Pentia (5x86) ani tak moc ne, P54 ala Pentium ala socket 4 (první s vadnou FPU), později socket 5 a 7 + Pentia MMX jsou 5x86 a z těch to fakt nevychází. Vychází to z Pentia PRO, naprosto jiného (tehdy primárně serverového - jak jinak) CPU do socketu 8, to byl první CPU 6x86 generace a P6 architektury, ze který přímo vycházej i Core2 a Nehalem se tam taky v mnoha věcech inspiruje. Pentium PRO je rok 1996 ano tak dlouho jsme tu neměli revoluci, jen evoluci.

Jen ještě jdna věc, trochu se obávám o herní výkon Buldozerů. ano, správně dělaj když budou jednu FPU sdílet pro obě dvě logická jádra. Protože na serverech je poměr ALU/FPU zátěže asi 80/20, čili je tam solidní rezerva. Ale v hrách je to právě naopak kdy 80% leží právě na FPU jednotce. A to by mohl být problém.


Já myslím, že asi ani ne. Žádná hra neumí využít osm jader CPU, tedy se bude Bulldozer chovat ve hrách jako pomyslné čtyřjádro + dedikovaná FPU jednotka ke každému z nich. To bude na hry bohatě stačit ...
14.9.2010 19:22:53   89.103.191.xxx 20
uvidíme jetli amd dodrží slovo jinak vím co chci příštím vanocům Bulldozer

Redakce si vyhrazuje právo odstranit neslušné a nevhodné příspěvky. Případné vyhrady na diskuze(zavináč)pctuning.cz

153 čtenářů navrhlo autorovi prémii: 68.5Kč Prémie tohoto článku jsou již uzavřené, děkujeme za váš zájem.
Tento web používá k poskytování služeb soubory cookie.