Úvaha: Data nám můžete svěřit bez obav, drazí blázni
i Zdroj: PCTuning.cz
Hardware Článek Úvaha: Data nám můžete svěřit bez obav, drazí blázni

Úvaha: Data nám můžete svěřit bez obav, drazí blázni | Kapitola 6

Michal Rybka

Michal Rybka

20. 5. 2011 03:00 59

Seznam kapitol

1. Jen mezi Vámi a naším serverem 2. EULA s ďáblem 3. Orwell je nakonec žabař 4. O základních metodách
5. Databáze a vzorce chování 6. Data mining a komparace dat 7. Dávná přátelství odhalí celé skupiny  8. Ideální pro chytřejší diktátory

Facebook slouží pro naše šmírování, iPhone si pamatuje naši polohu, co někam napíšeme, to patří podle licenčních ujednání provozovateli služby. Kde je hranice mezi paranoiou a reálným ohrožením svobody? Po mrazivých zprávách z minulých dní přinášíme trochu temné zamyšlení nad současnou situací a blízkou budoucností.

Reklama

Ještě lepší analýzy nabízí různé algoritmy pro data mining. Zatímco běžně si filtry sestavujete sami, data mining dokáže nalézt skryté vztahy mezi daty – vezmete si dvě množiny, „normální“ a „zájmovou“ a necháte počítač najít rysy, kterými se obě skupiny odlišují. Pointa je v tom, že tyto rysy mohou být velice neintuitivní, „nepřišli byste na ně sami“, protože nejsou zjevné. Data mining vám často neřekne, co přesně se děje, nebo proč se to děje, ale upozorní vás na nějakou významnou odchylku, kterou potom můžete prozkoumat a vysvětlit.

Sledujete třeba, jak lidi chodí po centru města, mezi nimi jsou extrémisté – a vy se snažíte něco zajímavého objevit tím, že sledujete kudy chodí a jak rychle se pohybují. Při data miningu nemusíte sledovat konkrétní cíl, nějakou jasnou hypotézu, hledáte jenom „zvláštnost“, nebo „skrytou vlastnost“, která je v datech skryta.

Úvaha: Data nám můžete svěřit bez obav, drazí blázni
i Zdroj: PCTuning.cz

Data mining vám zanalyzuje horu dat a řekne třeba, že pokud osoba monitorovaná kamerovým systémem prochází nějakým úsekem pomaleji, než ostatní, je pravděpodobně extrémista. Vy potom onen úsek projdete a zjistíte, že tam je nenápadně umístěný podnik, kde se extrémisté schází, protože ví, že ho žádná kamera nezabírá, je v mrtvém úhlu. Přestože ten podnik nebyl sledován, vy jste ho objevili měřením času – normální lidé prochází úsek průměrným tempem s poměrně volným rozptylem, extrémisté tam zůstávají výrazně déle a jejich rozptyl se od náhodných chodců liší.

Data mining je o to lepší, čím bohatší informace mu můžete dát, na druhou stranu ale předpokládá, že „normální“ (referenční) skupina je vybraná ryze náhodně, že v ní samotné nejsou nějaké podobnosti. (Jednu dobu se o data miningu tvrdilo, že je zajímavý hlavně proto, že vám dokáže v datech najít, kde jste při sběru a zpracování dat udělali chybu a jak jste vybrali vzorek špatně, nenáhodně.)

Data mining je velice efektivní v případě, že ho zkombinujete s kvalitativní analýzou. Čistě teoreticky může fungovat na zcela libovolných datech, jenomže tam roste riziko, že najdete statisticky platné, ale v realitě nesmyslné (fantomové) pravidlo. Čím méně toho o analyzovaných datech víte, tím větší je pravděpodobnost, že jste nenašli skutečné pravidlo, ale je to jenom statistický artefakt. Pokud ale datům rozumíte, víte co znamenají, můžete data předtřídit nebo vyhledávací algoritmus doplnit o pravidla, která podstatně zefektivní vyhledávání.

Úvaha: Data nám můžete svěřit bez obav, drazí blázni
i Zdroj: PCTuning.cz

Můžete zařadit další faktory – kupříkladu sledujete frekvenci přístupů do diskusních fór a snažíte se identifikovat ta, která „frčí“. Sledujete, jestli se tam lidi nebaví o něčem podezřelém a pokud ano, uděláte si analýzu, kdo tam chodí, odkud, jak často. Z obsahu fór víte, která jsou „normální“ a ta z analýzy vyloučíte (i extrémista si rád pokecá o filmech nebo se podívá na porno, takže tato fóra vyloučíme) – a pak si pro rozšířenou skupinu podezřelých zkusíte najít jiná fóra, kam obvykle chodí. I kdybyste, nakrásně, neměli přístup do uzavřených fór a nevěděli, o čem se tam baví, tak ze struktury návštěvnosti můžete poznat, že to není v pořádku a že tam kují nějaké pikle. Zatímco data mining mechanicky vyhledává místa, kam zájmové osoby chodí, vy provedete „lidskou“ obsahovou analýzu a určíte algoritmu, co je relevantnější a co ne. To pomáhá zpřesnit finální výsledky.

Předchozí
Další
Reklama
Reklama

Komentáře naleznete na konci poslední kapitoly.

Reklama
Reklama