Plody data hackathonu

Jak jsem psal předevčírem, na hackathonu bylo spoustu výzev. Stručně rekapituluji ty, na jejichž řešení jsem se podílel.

Ještě v pátek jsem se pustil zprovoznění API na službu Semantria. Prý že uděláme analýzu textů pro 1188. Semantria sice nepodporuje češtinu, ale to prý nevadí „proženeme to translatorem“ říkali týmoví kolegové. Fajn.

Výběr_004

Co vám vrátí Semantria na text: „In Lake Louise – a guided walk for the family with Great Divide Nature Tours rent a canoe on Lake Louise or Moraine Lake go for a hike to the Lake Agnes Tea House. In between Lake Louise and Banff – visit Marble Canyon or Johnson Canyon or both for family friendly short walks. In Banff a picnic at Johnson Lake rent a boat at Lake Minnewanka hike up Tunnel Mountain walk to the Bow Falls and the Fairmont Banff Springs Hotel visit the Banff Park Museum. The ‚must-do‘ in Banff is a visit to the Banff Gondola and some time spent on Banff Avenue – think candy shops and ice cream.“

Semantrii jsem rozchodil, ukázalo se však že 1188 žádná textová data nemá (chyba!). Využil jsem aspoň nástroj k analýze sentimentu (nálady, celkového vyznění, „pozitivnosti“) k analýze interních chatů botanik vs. zákazník ve FlowerChecker. Koukal jsem, jestli sentiment chatu neovlivní neovlivní věrnost klienta, nebo zda někteří botanici nevyvolávají dusno ;). Ale o tom jindy.

Po noci z pátku na sobotu mě přešla chuť na klikací nástroje a strukturovaná data, zapojil jsem se tedy do Energomonitoru. Ti měli jediný dataset — hodnoty spotřeby elektřiny v čase u několika bytů/domů. Rozhodl jsem se vizualizovat charakteristiku spotřeby. Podívejte se na graf průběhu. Peaky jsou časy, kdy běžel nějaký spotřebič se specifickou spotřebou. Takový tvar má dva relevantní parametry — výšku (příkon) a délku (trvání zapnutí).

Výběr_002

Modrá čára je okamžitá spotřeba měřená v devadesátivteřinových intervalech.

Asi už jsou na detekci přechodových funkcí různé vytuněné nástroje, které si poradí s šumém lépe než moje narychlo spíchnuté řešení , víceméně však fungovalo. Zelená křivka znázorňuje detekované tvary. Vlastně tak čistím signál od šumu.

Víc jsem si vyhrál s vizualizací charakteristiky. Je jí dvourozměrná heatmapa na zmíněných rozměrech výška (příkon) a délka (trvání zapnutí). Trochu jsem doufal, že se mi na ní objeví („vyklastrují“) skvrny znázorňující jednotlivé spotřebiče.

Výběr_003

Srovnání výsledné charakteristiky obyčejného bytu a rodinného domku s kotlem.

Něco tam vidět je. Útvar na pravém obrázku je nejspíš způsobený spotřebičem o vysokém příkonu, který spíná na dlouhou dobu. Byt má na horizontální ose podobnou kumulaci v daném příkonu, ale jev v krátkých intervalech (rychlovarná konvice?).

Charakteristkiku jiného bytu jsem zas rozanimoval cca po měsících.

bzn-1.csvKdyž se ve čtyři hodiny ráno pozorně a dlouze do vizualizace zadíváte, objeví se vám před očima příběh rodiny, která tam bydlí. Kdy si koupili novou pračku, jak přestává těsnit lednička, nebo jak jim v zimě vypadlo plynové topení a musel chvíli používat přímotop.

Jinak tu byla ještě hromada přednášek a plno možností si šáhnout na věci typu Azure ML, BigML apod. GoodData tu třeba poskytla celou svoji platformu na hraní.

Hrozně rád bych tu popsal jaký to je poslouchat přednášky bez bullshitů, zabřednout s Patrikem Zandlem do rozhovoru o energetice, nebo analytikům z IBM ve tři hodiny ráno povídat po šestém cideru o Žít Brno, ve čtyři se s nimi ještě zvednout a jít dodělat histogramy. Neumím to však tak pěkně vizualizovat.

Comments are disabled