Datachallenge, nějaká čísla

Asi před měsícem jsme v Kiwi.com vyhlásili experimentální (první v řadě) datovou soutěž. Myšlenka za ní byla prostá: mám hromadu zajímavých dat (charakteristika cen letenek, změny v letových řádech, všechna vyhledávání letenek, …) a chtěli jsme nějaký subset hodit mezi lidi co si rádi hrajou s daty.

Pro začátek jsme vybrali dataset ve kterém je necelého půl roku skoro každé zpoždění letadla ke kterému na světě dojde. Tedy nějakých 264 milionů záznamů ~ 2.2 GB dat. Cílem bylo predikovat zpoždění letů které se ohraje v budoucnosti, tedy data, která teprve dostaname.

Toužili jsme vidět i jak který tým bude úlohu řešit, proto jsme každému týmu dali přístup na slabý „virtuál“ (ve skutečnosti docker container) kde měl každý tým svůj predikční skript rozchodit. Skripty jsme pak v určitý čas spustili a vyhodnotili: „projdeme všechny záznamy a spočítáme sumu rozdílů mezi predikovaným atributem actual_departure a skutečným actual_departure, ta bude sloužit jako jediné hodnotící kritérium“.

A jaké byly výsledky?

  • 80 přihlášených týmů, z toho 64 správně vyplnilo ssh klíč
  • 19 týmů umístilo svůj predikční program do zadaného adresáře
  • 9 programů vyprodukovalo nějaký výstup (upravily CSVčko)
  • 3 programy vygenerovaly výstup lepší než náš referenční model (referenční model predikuje nulové zpoždění)

Jednalo se o tyto týmy. Číslo v první sloupci je port na kterém běželo SSH, druhý sloupec udává kolik celkem sekund se týmy vzdálily od idálního řešení.

umístění  tým skóre technologie
1. 12222 1659584059 java
2. 13922 2501331739 php
3. 13722 2969917338 R

Referenční skóre je 3053964863 a průměrné zpoždění (z těch co zpoždění měli) bylo 28.4 minut.

Pro týmy, které chtějí zkoumat co jejich program vypsal na konzoli po spuštění, viz zde.

Použité technologie

Pro každý projekt, který obsahoval /kiwi/delay_prediction soubor jsme tímto příkazem vygenerovali první tři nejpoužívanější programovací jazyky

docker exec -ti "$i" cloc kiwi --csv | sed 1,5d | head -n 3

Sjednocení jsme pak seskupili podle programovacího jazyku

screen-shot-2016-10-26-at-14-13-17

Binárky a javovské .jar ve statistice nejsou.

Závěr pro nás

Testovací běh ukázal, že některá ze vstupních bariér, ať už jde o nutnout používání ssh nebo linuxového serveru je příliš velká. Příští běh (na větších a bohatších datech) tak nejspíš zjednodušíme: podobně jako v soutěží Kaggle budou účastníci odevzdávat jen dataset. Na samotné analýzy pak budou moct používat hardware a software který jim vyhovuje nejvíc.

 

 

 

 

 

Comments are disabled