Několik generací Intel Atomu předčasně umírá – které a proč?
i Zdroj: PCTuning.cz
Hardware Článek Několik generací Intel Atomu předčasně umírá – které a proč?

Několik generací Intel Atomu předčasně umírá – které a proč?

Petr Koc

Petr Koc

17. 4. 2018 03:00 46

Seznam kapitol

1. Co se děje a kdy se na problémy přišlo 2. Problémy se netýkají už jen Atomu C2000 3. Které procesory jsou postiženy a kolik jich je? 4. Jak se projevuje chyba a jaké jsou její následky? 5. Jaká jsou protiopatření?

Minulý týden se přišlo na to, že kauza předčasně umírajících serverových Atomů C2000 představuje jen pověstnou špičku ledovce problémů a že rozsah potíží je mnohem větší, než se původně myslelo. Pojďme se podívat, jak se věci mají ve skutečnosti a proč může být postižen skoro každý z vás.

Reklama

Co se děje?

Minulý týden bylo odhaleno, že produkce procesorů Intel Atom (a z něj odvozených Pentií a Celeronů) vyráběných mezi lety 2013 a 2017 trpí závažnou hardwarovou chybou v návrhu, která vede k předčasné degradaci obvodů čipů a jejich smrti. Tím dojde k znefunkčnění systémů. Jelikož se jedná o možná více než sto milionů kusů procesorů, může být tento problém hodnocen jako jeden z největších průšvihů Intelu za celou jeho existence.

V čem problém spočívá a jak se projevuje?

Celá kauza problémů s procesory Atom začala v závěru roku 2016. Právě tehdy se přišlo na to, že serverové / komunikační procesory Intel Atom C2000 (kódová označení Avoton  a Rangeley) mají vyšší poruchovost, než jaká je běžná.

Několik generací Intel Atomu předčasně umírá – které a proč?
i Zdroj: PCTuning.cz

Kauza se provalila na veřejnost v lednu 2017, kdy Intel při komentování výroční zprávy oznámil, že musí vytvořit rezervu na pokrytí ztrát spojených s „problémem s kvalitou s jedním z produktů“.

„We were observing a product quality issue in the fourth quarter with slightly higher expected failure rates under certain use and time constraints, and we established a reserve to deal with that.

We think we have it relatively well-bounded with a minor design fix that we're working with our clients to resolve.“

Záznam komentáře k výroční zprávě je dostupný na stránkách Intelu v MP3 (odkaz Q4 2016 Intel Earnings Call Download in MP3). O problému se hovoří v čase 21:35.

Intel se snažil dlouhou dobu tajit, o který konkrétní produkt se jedná. Brzy se však přišlo na to, že problém se týká právě procesorů Atom C2000, kdy různí výrobci především komunikačních zařízení a serverů začali zveřejňovat příslušné instrukce pro postižené zákazníky. Namátkou např.:

To je velmi nepříjemná situace, jelikož tyto až osmijádrové procesory měly být především maximálně spolehlivé. Intel sám nikdy nepřiznal, že onen závažný problém se týká Atomů C2000 a jeho zákazníci jako Cisco nechtěli tento fakt přiznat také, údajně z důvodů tlaků ze strany Intelu (viz např. článek na ServeTheHome.com). Na tehdejší dotazy tisku se dostávalo odpovědí jako

Q: Who supplies the impacted component?

As a matter of policy, Cisco stands behind the reputation of our products. We do not intend to publicly name the supplier.

Kauza procesorů Atom C2000 spočívá v tom, co se později v oficiální veřejné dokumentaci Specification Update objevilo jako Errata AVR54 – „System May Experience Inability to Boot or May Cease Operation“

Několik generací Intel Atomu předčasně umírá – které a proč?
i Zdroj: PCTuning.cz

Za vším jsou obvody pro sběrnici LPC – Low pin count. Ty byly špatně navrženy a fyzicky degradovaly, až po delší době používání přestaly fungovat úplně. Sběrnice LPC slouží ke komunikaci s I/O zařízeními jako flash čip s BIOSem, Trusted Platform Module čip, Serial port atp. Znefunkčnění této sběrnice má tedy pro funkci systému jakožto celku fatální následky – nelze načíst BIOS, a tedy počítač nelze spustit.

Samotné Cisco uvádí, že k projevení chyby stačilo v některých případech i jen 18 měsíců provozu a že vyšší poruchovost byla zaznamenána po 36 měsících. Bavíme se samozřejmě o non-stop provozu.

Intel byl nucen řešit uvedenou situaci tím, že vydal pro Atom C2000 nový stepping C0, který nahradil původní B0 a který opravoval jen tento jediný problém. Od dob zavedení strategie Tick-Tock, tj. již cca deset let, je přitom pro Intel velmi neobvyklé, aby vydával nové revize – spíše vydává rovnou nové procesory. Pro procesory stepping B0 bylo nalezeno dočasné řešení, které spočívá v připojení pull-up odporů na existující základní desky, tj. v hardwarových změnách – viz tyto fotografie opravených desek. Intel sám toto řešení nazývá „platform level change“.

Co přesně se uvedenými hardwarovými úpravami mění, se mi z dostupných informací nepodařilo vyčíst – konkrétní detail patrně bude pod NDA. Nicméně přítomnost dodatečných pull-up odporů indikuje, že Intel v návrhu zapomněl na omezení velikosti proudu a prostým používáním byly transistory v čipu přetěžovány. Patrně ne tak, aby selhávaly okamžitě po vyrobení, ale dost na to, aby selhávaly v delším časovém horizontu.

Že rozsah problému není bagatelní, dokládají např. tyto diskuze o smrti home NAS populárních desek Asrock C2750D4I / C2550D4I.

Asrock C2750D4I
i Zdroj: PCTuning.cz
Asrock C2750D4I

Předchozí
Další
Reklama
Reklama

Komentáře naleznete na konci poslední kapitoly.

Reklama
Reklama