Několik generací Intel Atomu předčasně umírá – které a proč?
Seznam kapitol
Minulý týden se přišlo na to, že kauza předčasně umírajících serverových Atomů C2000 představuje jen pověstnou špičku ledovce problémů a že rozsah potíží je mnohem větší, než se původně myslelo. Pojďme se podívat, jak se věci mají ve skutečnosti a proč může být postižen skoro každý z vás.
Co se děje?
Minulý týden bylo odhaleno, že produkce procesorů Intel Atom (a z něj odvozených Pentií a Celeronů) vyráběných mezi lety 2013 a 2017 trpí závažnou hardwarovou chybou v návrhu, která vede k předčasné degradaci obvodů čipů a jejich smrti. Tím dojde k znefunkčnění systémů. Jelikož se jedná o možná více než sto milionů kusů procesorů, může být tento problém hodnocen jako jeden z největších průšvihů Intelu za celou jeho existence.
V čem problém spočívá a jak se projevuje?
Celá kauza problémů s procesory Atom začala v závěru roku 2016. Právě tehdy se přišlo na to, že serverové / komunikační procesory Intel Atom C2000 (kódová označení Avoton a Rangeley) mají vyšší poruchovost, než jaká je běžná.
Kauza se provalila na veřejnost v lednu 2017, kdy Intel při komentování výroční zprávy oznámil, že musí vytvořit rezervu na pokrytí ztrát spojených s „problémem s kvalitou s jedním z produktů“.
„We were observing a product quality issue in the fourth quarter with slightly higher expected failure rates under certain use and time constraints, and we established a reserve to deal with that.
We think we have it relatively well-bounded with a minor design fix that we're working with our clients to resolve.“
Záznam komentáře k výroční zprávě je dostupný na stránkách Intelu v MP3 (odkaz Q4 2016 Intel Earnings Call Download in MP3). O problému se hovoří v čase 21:35.
Intel se snažil dlouhou dobu tajit, o který konkrétní produkt se jedná. Brzy se však přišlo na to, že problém se týká právě procesorů Atom C2000, kdy různí výrobci především komunikačních zařízení a serverů začali zveřejňovat příslušné instrukce pro postižené zákazníky. Namátkou např.:
- Cisco – Clock Signal Component Issue
- Synology – Synology® Announces New Product Status Update
- HP Enterprise – Advisory: HPE ProLiant m300 or m350 Server Cartridge – Intel C2000 Atom Processor Clock Signal Issue
To je velmi nepříjemná situace, jelikož tyto až osmijádrové procesory měly být především maximálně spolehlivé. Intel sám nikdy nepřiznal, že onen závažný problém se týká Atomů C2000 a jeho zákazníci jako Cisco nechtěli tento fakt přiznat také, údajně z důvodů tlaků ze strany Intelu (viz např. článek na ServeTheHome.com). Na tehdejší dotazy tisku se dostávalo odpovědí jako
Q: Who supplies the impacted component?
As a matter of policy, Cisco stands behind the reputation of our products. We do not intend to publicly name the supplier.
Kauza procesorů Atom C2000 spočívá v tom, co se později v oficiální veřejné dokumentaci Specification Update objevilo jako Errata AVR54 – „System May Experience Inability to Boot or May Cease Operation“
Za vším jsou obvody pro sběrnici LPC – Low pin count. Ty byly špatně navrženy a fyzicky degradovaly, až po delší době používání přestaly fungovat úplně. Sběrnice LPC slouží ke komunikaci s I/O zařízeními jako flash čip s BIOSem, Trusted Platform Module čip, Serial port atp. Znefunkčnění této sběrnice má tedy pro funkci systému jakožto celku fatální následky – nelze načíst BIOS, a tedy počítač nelze spustit.
Samotné Cisco uvádí, že k projevení chyby stačilo v některých případech i jen 18 měsíců provozu a že vyšší poruchovost byla zaznamenána po 36 měsících. Bavíme se samozřejmě o non-stop provozu.
Intel byl nucen řešit uvedenou situaci tím, že vydal pro Atom C2000 nový stepping C0, který nahradil původní B0 a který opravoval jen tento jediný problém. Od dob zavedení strategie Tick-Tock, tj. již cca deset let, je přitom pro Intel velmi neobvyklé, aby vydával nové revize – spíše vydává rovnou nové procesory. Pro procesory stepping B0 bylo nalezeno dočasné řešení, které spočívá v připojení pull-up odporů na existující základní desky, tj. v hardwarových změnách – viz tyto fotografie opravených desek. Intel sám toto řešení nazývá „platform level change“.
Co přesně se uvedenými hardwarovými úpravami mění, se mi z dostupných informací nepodařilo vyčíst – konkrétní detail patrně bude pod NDA. Nicméně přítomnost dodatečných pull-up odporů indikuje, že Intel v návrhu zapomněl na omezení velikosti proudu a prostým používáním byly transistory v čipu přetěžovány. Patrně ne tak, aby selhávaly okamžitě po vyrobení, ale dost na to, aby selhávaly v delším časovém horizontu.
Že rozsah problému není bagatelní, dokládají např. tyto diskuze o smrti home NAS populárních desek Asrock C2750D4I / C2550D4I.