Az big data adatgyűjtő megoldásoknak köszönhetően ma már egy kamion fogyasztását is több száz paraméter mentén vizsgálhatjuk, nem csak a jármű típusára, a sebesség- és a súlyadatokra támaszkodhatunk. Vajon hogyan alakítja az adatelemzés világunkat? Többek között erről is kérdeztük Gáspár Csabát, a Dmlab ügyvezetőjét, aki egy olyan vállalkozás vezetője, amelyik évek óta dolgozik az adatelemzés, az adatbányászat, a data science piacán és tevékenyen vesz részt az e területen folyó innovációs fejlesztésekben is.
Hegedűs Sándor: Mielőtt az adatelemzői, adatbányászati piacot körbejárnánk, arra kérlek – felvezetésként –, mondj egy amolyan igazi „data-s” példát a praxisotokból.
Gáspár Csaba: Egy futó projektünkben percenként adatokat gyűjtöttünk kamionokról, például arról, hogy mennyit fogyasztott, mikor, mekkora távolságot tett meg, stb.. Vizsgálatunk célja ebben az esetben nem az volt, hogy felderítsük, mikor járt „maszekban” a sofőr, az egy teljesen más történet és más elemzési technika.
A mi esetünkben a kialakult és bevezetett üzemanyag fogyasztási normák továbbfejlesztése volt a cél.
Míg hagyományos esetben csupán a jármű típusát és a szállított teher súlyát veszik figyelembe, addig a mi megoldásunkban a hőmérsékletet, az útviszonyokat, a szélirányt és még számtalan más paramétert mérünk és építünk be a modellünkbe.
Ebben a folyamatban lévő projektünk részeredményei alapján látjuk, hogy sok korábbi dogma dől meg, amelyek megkérdőjelezhetetlenek voltak azelőtt (kedvencünk a többlet rakomány = többet fog fogyasztani „törvénye”). A mért értékek – a bejárt út emelkedése, lejtése, gyorsítások, lassítások száma és mértéke, a sofőr vezetési sajátosságai, stb. – alapján látjuk, hogy az ilyen „törvények” korántsem számítanak evidenciának.
Talán ez a példa is jól mutatja, hogy az adatok mélyebb elemzése sokkal pontosabban modellezi a valóságot, mint amit korábban el tudtunk képzelni, vagy amit döntéseinkhez eddig felhasználtunk.
H.S.: Mennyire fogadják el a megbízók, a néha tabudöntögető eredményeket?
G.Cs.: Fontos kérdés, hogyan tudjuk hitelesen bemutatni a vezetőknek a kapott eredményeket. Gyakran előfordul, hogy a megbízói oldalon ülő vezetők személyes meggyőződése, tapasztalata egészen eltér attól, amit mi a mérések alapján elé tárunk. Bennük gyakran az fogalmazódik meg, hogy szabad-e támaszkodni egy ilyen, legtöbbjük számára fekete dobozként látszó rendszerre? Éppen ezért nagyon fontos az eredmények interpretálása.
Ha csak olyan eredményeket prezentálunk, amelyek az eddigi hiedelmekkel ellentétben állnak, akkor nagy valószínűséggel elutasítják a javasolt adat alapú megoldásunkat. Az ökölszabály általában az, hogy egy megdöbbentő, új összefüggéseket mutató diagramra jusson kettő olyan, ami alátámasztja a már ismert összefüggéseket.
H.S.: E példa után az merült fel bennem, hogy bizonyára rátok töri a piac az ajtót, hogy segítsetek. Így van ez valóban? Mi a jellemzője a mai adatelemzési piacnak?
G.Cs.: A mai piacon nagyon kevés független tanácsadó cég maradt talpon. Ennek alapvetően két oka van.
A 2000-es évek elején valóban az volt a helyzet, hogy ezt a kompetenciát a megrendelők megvették a piacról.
A bankválság betörésével a legjelentősebb keresleti szegmensben alapvető változások következtek be, a kereslet drasztikusan lecsökkent – a bankszektorban a múltbéli adatokra támaszkodó elemzések hosszú évekre „talajukat vesztették”. Az idő múltával a keresleti oldalon azt figyeltük meg, hogy kevésbé a tanácsadó cégekre támaszkodtak, hanem belső kompetenciákat építettek fel. Ma tanácsadókkal az adatelemzéssel most ismerkedő szektorok dolgoznak inkább.
A másik ok az, hogy Budapesten – ahol a kereslet nagy része koncentrálódik – komoly „data” kompetencia és referencia halmozódott fel. A korábbi szereplők mellett külföldi tulajdonú, nagy adatelemző központok is települtek a fővárosba, amely a hozzáértő munkaerő egy jelentős részét is felszívja. Mivel ezek a központok a nemzetközi piacon aktívak, a hazai adatelemzési tanácsadó cégek a munkaerő piacon keresztül a náluk jóval erősebb piaci szereplőkkel is versenyeznek.
A kereslet összetétele is változik. Éppen az igen divatossá tett adatbányászati szakma okán sok, eltérő tudásszintű szakember dolgozik a megrendelői oldalon is, akik még most szerzik meg az adatelemzés területén a tapasztalataikat, így a megrendelések között megjelentek az adatelemzési folyamatok átnézéséhez, külső szakértői validálásához kapcsolódó feladatok.
H.S.: Vannak-e különleges szektorokból megkeresések?
G.Cs.: Van erre is több példa.
Ilyen a mi gyakorlatunkban például egy kardiológiai témájú megkeresés, ahol a trombózisos betegből kioperált vérrög összetevőinek és más mért paraméterek elemzésével arra keresnek választ az orvosok, hogy mi vezetett ennek kialakulásához. Itt nem az adott esemény előrejelzése, hanem az oda vezető utak, okok megtalálása a lényeges.
A másik érdekes vizsgálatunk kőolaj feldolgozási technológiához kapcsolódik. Itt a technológiai lánc egy elemében következtek be olyan káros rezgések, amelyek az egyébként méregdrága berendezéseket veszélyeztették.
A technológia megismerését, megannyi paraméter mérését és a modell felépítését követően megtaláltuk, hogy az egyik összetevő minőségének változása okozta a problémát. Ebben az esetben az az érdekes és szép, hogy a megoldást az IT és adatelemzési körön kívül találtuk meg, a technológia változtatásával lehetett a problémát orvosolni.
A harmadik példám más szempontból izgalmas.
Az egyik hazai banknak nyújtott megoldásunk során el kellett magyaráznunk az alkalmazott algoritmusok mibenlétét, le kellett vezetnünk, hogy azok miként működnek.
Nyilván vannak olyan területek a megrendelői piacon, ahol a megbízó nem engedheti meg magának, hogy a megoldást ne ismerje elég mélyen és megelégedjen azzal, hogy az adott valami fekete dobozként tegye a dolgát. Úgy gondoljuk, hogy ez teljesen természetes hozzáállás ezekben az esetekben, ilyen szituációkban célzott oktatással tudjuk segíteni a partnereket.
Gáspár Csaba (fent) szenvedélyes adatelemző, a Dmlab nevű független adatelemzési tanácsadó cég társalapítója és ügyvezetője, a Műegyetem oktató-kutatója. Az a típus, akitől lelkesedésével, személyes tapasztalataival, szakmából származó anekdotáival gyorsan beindítja a big data iránt érdeklődők fantáziáját. Ismeretterjesztő illetve lelkesítő előadásokon túl a legfontosabb hazai üzleti és akadémiai oktatási programokban is gyakran meghívott előadó, akinek nem kell a szomszédba menni a való életből származó példákért. Sikeres projekteket vezetett pénzügyi, távközlési, logisztikai és ipari cégeknél is, de nem állnak tőle messze az innovatív megoldások sem: az általa vezetett Dmlab szakmai csapatából több sikeres startup is indult, mint a big data szoftver-megoldásokat szállító Radoop, vagy az online reklámcsalásokat leleplező Enbritely. Hisz abban, hogy a hazai gazdaság egyik kitörési pontja pont a magyarokra jellemző csavaros észjárás és adatvezérelt eljárások összekapcsolásából álló újszerű megközelítésekben van.
H.S.: Mennyire értik a cégek a már bevezetett modellek szükségszerű továbbfejlesztésének igényét? A múltbéli adatokon tanult algoritmusok előbb-utóbb olyan bemeneti adatokkal is találkoznak, amelyek már tartalmazhatják saját korábbi működésük eredményeit. Nem kell ilyen esetekben újra tanulni az adatokban rejlő összefüggéseket?
G.Cs.: De bizony. Egy hitelképesség vizsgálat során hozott döntések eredményeképpen a történeti adatok közé egyre több olyan mért és rögzített ügyféladat kerül be, amely esetek így vagy úgy, de a futó algoritmusok korábbi kimenetétől függhetnek. Az érintett ügyfelek eredménye – jó adós lett belőle vagy sem – nem független a modellünktől. Ezen hatások kezelése olyan technikákat igényelnek, melyek a ma divatos webes tutorialokban nem jelennek meg.
H.S.: Van még néhány kérdéskör, amelyekről nem beszéltünk. Mennyire tartod relevánsnak például az adatelemzési kultúra terjesztését, az ehhez kapcsolódó hazai oktatás gyakorlatát, a különböző verseny oldalak nyújtotta lehetőségeket?
G.Cs.: Ezek olyan kérdések, amelyekről órákat lehetne beszélgetni…
Folytatjuk.
Hegedüs Sándor
KSB’98 senior elemzője
MLBKT operatív és marketing vezetője