Jaký byl Data Restart 2019
očima Honzy Kudělky?
V pondělí 8. 4. 2019 proběhl další „Restart“, tentokrát se jednalo o již třetí datový. Letos jsme se stali partnerem celé akce a pro návštěvníky jsme si připravili odpočinkovou zónu pro vstřebávání všech nových informací. Lidi z Taste.cz si v letošním roce vybrali krásné prostory pražského Divadla pod Palmovkou.
Celá konference se nesla v duchu hesla „Čistě jen analytika a data samotná vše nevyřeší.“ a nabídla tak spoustu zajímavých pohledů na datovou problematiku. Každá přednáška trvala 20-25 minut. Účastníci měli možnost klást otázky přes sli.do všem řečníkům. Ti potom na ty nejžádanější odpovídali, což jsem vítal jako velmi dobrý formát.
Jediná kaňka celého dne byla absence wi-fi, která pro lidi, jako jsem já, kteří nezlevňují služby českých operátorů využíváním dat, znamenala bariéru v pokládání otázek. Nicméně i tak byl obsah dotazů, i díky dobré práci moderátora, kvalitní a k věci.
Účastníky konference (tedy opět ty bojující za levnější mobilní data jejich používáním) čekaly v průběhu dne 2 soutěže o lístky na další restarty. Hra využívala pozornosti a ptala se na otázky související s přednáškami. Soutěžící odpovídali pomocí mobilní aplikace. Vítězem se měl stát ten, kdo bude nejrychlejší a bude mít všechny odpovědi správně. Bylo to pro mě velmi zajímavé zpestření. Ale teď již k přednáškám.
Keynote
Úvodní keynote se nesla v duchu pozměněného hesla „Without opinion you are just another person with data.“ Při práci s daty, musíme pamatovat na to, že nemusíme měřit úplně všechno. Musíme se smířit s tím, že ani nemůžeme.
Zkusme neměnit věci, které dobře fungují, jen proto, aby se daly měřit. Data jsou, jako spousta jiných věcí, dobrý sluha, ale zlý pán a neměla by nás tak nikdy ovládat. U práce se na ně taky nespoléhejme a nepřestávejme díky nim přemýšlet.
Jak pomocí machine learningu vytěžovat data z RTB i v CRM?
Eliška Králová z České spořitelny a Jakub Štěch z DataSentics ve své prezentaci popsali, jakým problémům ještě poměrně nedávno čelili v České spořitelně. Ukázali nám, jakým způsobem je identifikovali a hledali řešení spolu s DataSentics.
Největším zádrhelem, který museli vyřešit, bylo propojení online a offline světa. U pojišťovnictví si můžeme představit online jako data z reklamy, webu a internetového bankovnictví, v offline to jsou pak data z poboček, transakcí a například callcenter. Detailně nám popsali, jak optimalizovali nákup online reklamy. Výsledkem byl dvojnásobek angažovaných návštěv za stejnou cenu. Jejich offline klientský profil se obohatil o online signály, které pomáhají identifikovat, co klient vlastně řeší.
Nejčastější neduhy v datech Google Analytics
Jan Kadleček se podíval na zub GA a nejčastějším chybám. Máme pro vás seznam nejčastějších chyb.
- Pozor na duplicitní data!
- Pokud ještě nepoužíváte Google Tag Manager, tak rychle napravit!
- Defaultní Google Analytics alerty jsou k ničemu, monitorujte GA v čase efektivněji, například pomocí skriptu přímo od Honzy (v prezentaci).
- Pozor na parametry v obsahovém reportu!
Celá přednáška obsahovala spoustu praktických návodů a odkazů na různé nástroje. Rozhodně si projděte Honzovu prezentaci.
Využití neuronových sítí pro detekci podvodů v různých fázích života pojistného produktu
Boril Šopov využil neuronové sítě pro detekci podvodů v pojišťovnictví. Boril nám na konkrétním příkladu ukázal, jak automatizace zrychluje celý proces a pomáhá s odškodněními rychleji. Odebírá tak spoustu manuální práce. Manuálně trvá vyhodnocení jednoho případu přibližně 30 minut. Při použití automatizace lze stihnout vyhodnotit za stejný čas 57 600 případů.
V druhém příkladu se podíval na zoubek falšovaným lékařským zprávám během vyhodnocování pojistných událostí Jedná se o jeden z nejčastějších zdrojů podvodů. Zfalšovaná lékařská zpráva lze totiž těžce odhalit a do nedávna nebylo možné kontrolovat tyto materiály strojově. Díky neuronovým sítím lze současně upozornit na podezřelé případy a díky tomu se jim pracovníci mohou více věnovat.
Očekávám, že podobným trendem jdou i další podobné oblasti.
MetaData – kde je hodnota v datech
Giuliano Giannetti ve své přednášce ukázal, jaká vypadá situace s Amazonem. Ukázal nám také několik globálních informací o datech, například kolik % firem využívá big data a kolik social data.
Společně jsme si připomněli, jakým způsobem řešit data při naší práci. Vždy musíme vědět, co, jakým způsobem a proč děláme. Nezaměřujme se na data, která máme, ale na data, která potřebujeme. Musíme se soustředit na to, abychom špatně nevyhodnocovali výsledky, které máme k dispozici. Nedívejme se pouze na to, co je teď, ale koukejme i na to, co se mění. Dávejme pozor, ať neděláme chyby, ať už v predikcích, datech či obecně. Neztrácejme čas věcmi, které se dají automatizovat.
Bylo určitě dobré si tyto věci připomenout, člověk snadno sklouzává k tomu, že spoustu věcí „již ví“ a „přece on to nedělá“. Z přednášky si odnáším praktický nástroj h2o.ai
Automatizace dat u publishera v praxi
Přemýšlíte nad automatizací dat do PowerBI? Jonáš Rákosník nám ukázal, jak vypadala postupná automatizace dat (přechod z Excelu do PowerBI) v Czech News Center, a to na prezentaci plné zajímavých, byť anonymních, grafů. Ukázal nám také případovou studii na optimalizaci Open RTB dle automatizovaných dat a podívali jsme se do budoucnosti na to, co budou automatizovat dále.
Užitečné koncepty k řešení problémů na datových projektech
S Hanou Kalivodovou jsme se podívali na to, jak filozoficky řešit problémy na datových projektech. Zaujala mě především část o hledání „společné hry“ mezi námi a klientem, definování různých problémů a jejich řešení. Hanka poukázala také na to, jak je důležité pokládat správně otázky. Ty jsou pro stanovování hypotéz klíčové, i když ne vždy je jejich pokládání lehké. Situaci, kdy máme otázky, ale nemáme odpovědi se dají řešit o poznání jednodušeji, než kdy sice odpovědi máme, ale nevíme, co jimi chceme zjistit. Taková data jsou nám na nic.
U poslední části prezentace jsme se podívali na odhady. Musel jsem se ztotožnit a pousmát nad tím, jak složité je vlastně věci odhadovat, především pak strávený čas či vzdálenost.
Hledání témat pro homepage Seznamu na základě segmentace publika a obsahu
Následná přednáška od Vojty Matouška o segmentaci publika a obsahu byla velmi zajímavá a připomněla mi opět clusterizaci a teoretické možnosti. Podívali jsme se na praktické příklady i možnosti, jak je můžeme zase jednou implementovat sami.
V případě Seznamu šlo o Exploraci nových témat. Sám Vojta přiznal, že asi nikdy nepokryjí kompletní spektrum zájmů, segmentaci (kategorie, vztahy). Ukázal nám jejich identifikaci cest při rozšiřování obsahu (na exploraci, expanzi a konexe) a následnou clusterizaci.
Na praktickém příkladu jsme mohli vidět, jaká témata u uživatelů Seznam.cz společně rezonují, jak relevantní v celkovém měřítku jsou a kam dané věci na stránce umístit. Podívali jsme se, jaké to mělo výsledky a kterým novým otázkám a dalším tématům se mohou věnovat.
Ta pravá data pro správná rozhodnutí
Velmi vtipnou formou následovala předposlední přednáška od Romana Appeltauera a André Hellera o datech a rozhodnutích, těch pravých a správných. Hlavní myšlenkou celé přednášky bylo to, abychom analyzovali ne pro data samotná, ale pro řešení, rozhodnutí či nasměrování. Data jsou prostředek, analýza řeší problém. Díky ní hledáme vysvětlení, příležitosti nebo argumenty. Po analýze musí následovat akce, jinak byl celý proces k ničemu.
Důležité je pamatovat na to, že záleží na celkovém zlepšení. Pokud uděláte jakoukoliv změnu, může se stát, že se nějaká dílčí věc zhorší. Důležité je odhadnout míru případného rizika, aby změna byla na konci pozitivní. Kluci nám ukázali, jak na to pomocí praktických ukázek.
Optimalizace cenotvorby v e-commerce
Blok přednášek uzavíral náš Honza s přednáškou o optimalizaci cenotvorby od projektu k produktu.
Honza nám ukázal, jak cenu produktu a její samotné nastavení vnímají obchodníci. Jakým způsobem je třeba jednotlivá data integrovat a na co se soustředit. Dnes už e-shop nemusí být úspěšný jen kvůli tomu, že má nejlevnější zboží.
Celý proces nestačí pouze nastavit a spustit, ale je třeba i testovat, a hodně. Pro simulace jsme připravili kalkulačku, která se snaží ukázat, jak velký dopad na nárůst obratu musí mít konkrétní změna, abychom mohli věřit, že růst byl způsoben danou změnou a ne náhodou.
S Honzou jsme se podívali i na to, jaký je rozdíl mezi ML a AI a co je největším prediktorem počtu prodejů produktu.
Co z toho?
- Optimalizací na zisk je možné vytáhnout 20% nárůst zisku.
- Je potřeba zintegrovat úplně všechno.
- Pokud se rozhodneme nasadit dynamic pricing, musíme se připravit na boj s obchodním oddělením.
- PPCčkaři nevymřou! Místo optimalizace cen PPC mohou optimalizovat ceny v e-shopech. 🙂
Dle reakce publika a frekvence dotazů se jim tato přednáška hodně líbila a subjektivně byla jedna z nejlepších – naše třešnička na dortu.
Mohu říct, že většina přednášek byla přínosných a vhodných přímo pro mě. Už se těším, jak některé z nich v brzké době vyzkouším i pro svou práci.
Skoro z každé přednášky jsem si tak odnesl něco pro svou práci a projekty, kterými se zabývám. Padly také tipy na několik možností řešení či přímo software, které jsem zatím neznal a které mi přišly velmi zajímavé a v brzké době je určitě vyzkouším.
A perlička na závěr – na našem stánku si účastníci mohli užívat i relaxace v podobě masáže. Tu, přes počáteční ostych, využil nejeden účastník.
Děkuji pořadatelům za možnost se zúčastnit a už se těším zase na příští ročník a spoustu nových informací a trendů ze světa dat.
Jan Kudělka,
Azor Data Analyst & Client Support at DATAWEPS