Zajímavé datasety z Enterprise Data Hackathon

Poslední dobou se u mě kumulují dotazy co je vlastně náplní práce datového analytika. S si při odpovědi beru do úst svoji práci ve FlowerChecker, kde mám na starost strategická rozhodnutí (do čeho investovat čas a peníze). Jako podklady pak programuji různé transformace dat do grafů a tabulek o které se můžu opřít.

Teď však sedím ve vlaku po cestě na Enterprise Data Hackathon a koukám do karet jiným firmám,. Co teda řeší ostatní?

Seznam.cz

Charateristika „internet jumpers“, aktuálních témat

zveřejnil přímo data z fulltextového hledáníIP adresu, session, vyhledávaný dotaz, čas a výsledek hledání (popis). Bohužel všechno je zahashované. Chápu, že zveřejňovat vyhledávací dotaz v kombinaci s IP by už bylo trochu moc, ale samotný text dotazu by klidně otevřený být mohl — kvůli analýze samotného textu.

Primárním cílem Seznamu je rozdělit dotazy do skupin podle toho, kdo je zadával, tedy např.: normální uživatel, paranoidní uživatel (který má prohlížeč v porno módu), boti atp. Tyto skupiny pak dále zkoumat.

CCS

je poskytovatel palivových karet. Poskytla data o tom na které čerpací stanici byla karta použita, kdy a jaký typ produktu si lidé koupili. Data vypadají jednoduše, pokud bych to uměl propojit s polohou čerpacích stanic, asi by to byla zajímavá analýza. Zadání je fakt podrobné, točí se okolo rozpoznávání preference určitých značek, produktových segmentů a vzorců chování jednotlivých uživatelů. Věnuje se také odhalování nekalé praktiky nadměrného obchodování.

Osobně však nevím, jestli chci mít něco společného se spalovacími motory. Škoda, že tady nemají data třeba Rekola.

Geewa

české herní vývojářské studio známe svými aplikacemi na Facebooku poskytlo dataset událostí, které generují jejich hráči, například připojení do hry, konec hry, nákup v e-shopu, klikání v menu atp. Trochu mě to připomíná surová data, která chrlí do Google Analytics mobilní aplikace.

Otázky, které chce Geewa naplnit jsou mi důvěrně známé z FlowerChecker. Proč si uživatelé zahrají jen pár her a zmizí? Co může být příčinou jejich sníženého zapojení? Které formy zpeněžení fungují líp než jiné? Atd.st

Avast

přišel s jednoduchou tabulkou: uživatel, zkušenost s podezřelým obsahem (ano/ne) a pole 7434 binárních parametrů o kterých neznáme jejich význam. Vypadá to jako úloha pro běžný klasifikátor, podle slov Avastu je dat fakt hodně, takže bude potřeba asi nějaká optimalizace (jinak by to stačilo třeba prohnat Rkem). Jde jim tedy primárně o snížení počtu dimenzí, feature selection a feature extraction, feature categorization.

Další

Už musím vystupovat z vlaku, takže další snad popíšu jindy.

  • Česká spořitelna
  • FlowReader
  • Energomonitor
  • 1188

 

 

 

 

 

 

 

 

 

Comments are disabled