Programavimas

4 priežastys, kodėl didelių duomenų projektai žlunga, ir 4 būdai, kaip pasisekti

Didelių duomenų projektai yra didelės apimties ir apimties, dažnai labai ambicingi ir pernelyg dažnai - visiškos nesėkmės. 2016 m. „Gartner“ apskaičiavo, kad 60 proc. Didžiųjų duomenų projektų žlugo. Po metų „Gartner“ analitikas Nickas Heudeckeris teigė, kad jo įmonė yra „per daug konservatyvi“, vertindama 60 proc., O žlugimo rodiklis priartėjo prie 85 proc. Šiandien jis sako, kad niekas nepasikeitė.

Gartneris nėra vienas vertinant. Ilgametis „Microsoft“ vadovas ir (dar neseniai) „Snowflake Computing“ generalinis direktorius Bobas Muglia analizės svetainei „Datanami“ sakė: „Negaliu rasti laimingo„ Hadoop “kliento. Tai kažkaip paprasta. … Klientų, kurie iš tikrųjų sėkmingai prisijaukino „Hadoop“, tikriausiai yra mažiau nei 20 ir gali būti mažiau nei dešimt. Tai tik riešutai, turint omenyje, kiek laiko tas produktas, ta technologija buvo rinkoje ir kiek bendros pramonės energijos į jį įdėta “. Hadoopas, žinoma, yra variklis, paleidęs didžiųjų duomenų maniją.

Kiti žmonės, susipažinę su dideliais duomenimis, taip pat teigia, kad problema išlieka reali, rimta ir nėra visiškai technologinė. Tiesą sakant, technologijos yra nedidelė nesėkmių priežastis, palyginti su tikraisiais kaltininkais. Čia pateikiamos keturios pagrindinės didžiųjų duomenų projektų žlugimo priežastys ir keturi pagrindiniai būdai, kaip galite pasisekti.

Didelių duomenų problema Nr. 1: prasta integracija

Heudeckeris teigė, kad už didelių duomenų gedimų slypi viena pagrindinė technologinė problema - tai yra nutylėtų duomenų iš kelių šaltinių integravimas, kad gautų įžvalgas, kurių nori įmonės. Užmegzti ryšį su nutildytomis senomis sistemomis paprasčiausiai nėra lengva. Integracijos išlaidos yra penkis ar dešimt kartų didesnės už programinės įrangos kainą, sakė jis. „Didžiausia problema yra paprasta integracija: kaip susieti kelis duomenų šaltinius, kad gautumėte kažkokį rezultatą? Daug kas eina duomenų ežero keliu ir galvoja, ar viską susiesiu su kažkuo stebuklingu. Taip nėra “, - sakė jis.

Nutildyti duomenys yra problemos dalis. Klientai jam pasakė, kad jie iš įrašų sistemų ištraukė duomenis į bendrą aplinką, pavyzdžiui, duomenų ežerą, ir negalėjo suprasti, ką reiškia reikšmės. „Kai traukiate duomenis į duomenų ežerą, kaip sužinoti, ką reiškia tas skaičius 3?“ - paklausė Heudeckeris.

Kadangi jie dirba silosuose arba kuria duomenų ežerus, kurie yra tik duomenų pelkės, jie tiesiog subraižo tai, ką galėtų nuveikti, sakė Alanas Morrisonas, „PwC“ vyresnysis mokslinis bendradarbis. „Jie nesupranta visų duomenų sąsajų, kurias reikia išminuoti arba padaryti išvadą ir aiškiai išdėstyti, kad mašinos galėtų tinkamai interpretuoti tuos duomenis. Jie turi sukurti žinių diagramos sluoksnį, kad mašinos galėtų interpretuoti visus egzempliorių duomenis, kurie yra susieti žemiau. Priešingu atveju jūs ką tik gavote duomenų ežerą, kuris yra duomenų pelkė “, - sakė jis.

Didžiųjų duomenų problema Nr. 2: neapibrėžti tikslai

Jūs manote, kad dauguma žmonių, vykdančių didelių duomenų projektą, iš tikrųjų turi tikslą, tačiau stebėtinai daug žmonių to nedaro. Jie tiesiog pradeda projektą, siekdami tikslo.

„Jūs turite gerai aprėpti problemą. Žmonės mano, kad gali susieti struktūruotus ir nestruktūruotus duomenis ir gauti reikalingą įžvalgą. Jūs turite tiksliai apibrėžti problemą iš anksto. Kokią įžvalgą norite gauti? Tai turi aiškų problemos apibrėžimą ir jos apibrėžimą iš anksto “, - sakė duomenų integravimo programinės įrangos bendrovės„ Talend “produktų rinkodaros vadovas Rayas Christopheris.

Joshua Greenbaumas, pagrindinis „Enterprise Application Consulting“ analitikas, teigė, kad dalis didžiųjų duomenų ir duomenų sandėliavimo projektų pakenkė pagrindiniams pagrindiniams kriterijams - tai didelio duomenų kiekio kaupimas, o ne atskirų verslo problemų sprendimas.

„Jei surinksite didelius duomenų kiekius, gausite duomenų sąvartyną. Aš tai vadinu sanitariniu sąvartynu. Sąvartynai nėra tinkama vieta ieškoti sprendimų “, - sakė Greenbaumas. "Aš visada sakau klientams nuspręsti, kokią atskirą verslo problemą reikia išspręsti pirmiausia, ir einu su tuo, tada žvelgiu į turimų duomenų kokybę ir išsprendžiu duomenų problemą, kai tik bus nustatyta verslo problema."

„Kodėl dauguma didžiųjų duomenų projektų žlunga? Pradžiai daugeliui didžiųjų duomenų projektų vadovų trūksta vizijos “, - sakė PwC Morrisonas. „Įmonės yra sutrikusios dėl didelių duomenų. Dauguma tiesiog pagalvoja apie skaitmeninius duomenis arba juodosios dėžės NLP ir atpažinimo variklius, kurie paprastai naudoja tekstą ir kitus modelius. “

Didžiųjų duomenų problema Nr. 3: įgūdžių spraga

Pernelyg dažnai įmonės mano, kad vidaus įgūdžiai, kuriuos jie turi sukūrę duomenų sandėliavimui, taps dideliais duomenimis, kai to akivaizdžiai nėra. Pradedantiesiems duomenų saugykla ir didieji duomenys tvarko duomenis visiškai priešingai: Duomenų sandėliavimo schema rašo, o tai reiškia, kad duomenys išvalomi, apdorojami, struktūrizuojami ir sutvarkomi, kol jie niekada nepatenka į duomenų saugyklą.

Dideliuose duomenyse duomenys kaupiami ir taikoma skaitymo schema, kur duomenys apdorojami, kai jie skaitomi. Taigi, jei duomenų apdorojimas grįžta nuo vienos metodikos prie kitos, galite lažintis, kad įgūdžiai ir priemonės taip pat yra. Ir tai tik vienas pavyzdys.

„Įgūdžiai visada bus iššūkis. Jei mes kalbėsime apie didelius duomenis po 30 metų, vis tiek bus iššūkis “, - sakė Heudeckeris. „Daugybė žmonių kepurę pakabina ant Hadoopo. Mano klientams sunku rasti „Hadoop“ išteklius. Kibirkštis yra šiek tiek geresnė, nes ši kamina yra mažesnė ir ją lengviau treniruoti. „Hadoop“ yra dešimtys programinės įrangos komponentų “.

Didžiųjų duomenų problema Nr. 4: technologijų generavimo atotrūkis

Didžiųjų duomenų projektai dažnai paima iš senesnių duomenų saugyklų ir bando juos sujungti su naujais duomenų šaltiniais, pvz., Jutikliais, žiniatinklio srautu ar socialine medija. Tai nėra visiškai įmonės kaltė, kuri rinko tuos duomenis anksčiau nei buvo numatyta didžiųjų duomenų analizės idėja, tačiau vis dėlto tai yra problema.

"Beveik didžiausias įgūdžių trūkumas yra įgūdis suprasti, kaip sujungti šias dvi suinteresuotąsias šalis, kad jos kartu dirbtų sprendžiant sudėtingas problemas", - sakė konsultantas Greenbaumas. „Duomenų silosai gali būti kliūtis didelių duomenų projektams, nes nėra standartinio nieko. Taigi pradėję žiūrėti į planavimą jie pastebi, kad šios sistemos nebuvo įdiegtos jokiu būdu, kad šie duomenys būtų pakartotinai naudojami “, - sakė jis.

"Su skirtingomis architektūromis reikia apdoroti skirtingai", - sakė Talendo Christopheris. „Techniniai įgūdžiai ir architektūros skirtumai buvo dažna priežastis, kodėl negalima imtis dabartinių įrankių vietoje esančiam duomenų sandėliui ir integruoti jį su didelių duomenų projektu, nes šios technologijos taps per brangios naujiems duomenims apdoroti. Taigi jums reikia „Hadoopand Spark“ ir reikia išmokti naujų kalbų “.

Didžiųjų duomenų sprendimas Nr. 1: planuokite iš anksto

Tai sena klišė, bet čia pritaikoma: jei nepavyksta planuoti, planuok nesėkmę. "Sėkmingos įmonės yra tos, kurios turi rezultatą", - sakė Gartnerio Heudeckeris. „Pasirinkite ką nors mažo ir pasiekiamo bei naujo. Nepriimkite seno naudojimo atvejo, nes jums yra apribojimų “.

"Jie pirmiausia turi galvoti apie duomenis ir modeliuoti savo organizacijas mašininiu būdu nuskaitomu būdu, kad duomenys tarnautų tai organizacijai", - sakė PwC Morrisonas.

Didžiųjų duomenų sprendimas Nr. 2: dirbti kartu

Labai dažnai suinteresuotieji subjektai nėra įtraukti į didelių duomenų projektus - būtent tuos žmones, kurie naudotų rezultatus. Jei visos suinteresuotosios šalys bendradarbiauja, jos gali įveikti daugybę kliūčių, sakė Heudeckeris. „Jei kvalifikuoti žmonės dirba kartu ir dirba su verslu, kad pasiektų veiksmingų rezultatų, tai gali padėti“, - sakė jis.

Heudeckeris pažymėjo, kad įmonės, kurioms pavyko pasiekti didelių duomenų, daug investuoja į būtinus įgūdžius. Jis tai labiausiai mato duomenų valdomose įmonėse, tokiose kaip finansinės paslaugos, „Uber“, „Lyft“ ir „Netflix“, kur įmonės likimas pagrįstas gerų, naudingų duomenų turėjimu.

„Padarykite tai komandiniu sportu, kuris padės kuruoti ir rinkti duomenis bei juos išvalyti. Tai padarius, taip pat gali padidėti duomenų vientisumas “, - sakė Talendo Christopheris.

Didžiųjų duomenų sprendimas Nr. 3: sutelkti dėmesį

Panašu, kad žmonės mąsto, jog didelių duomenų projektas turi būti masiškas ir ambicingas. Kaip ir viskas, ko mokotės pirmą kartą, geriausias būdas pasiekti sėkmę yra pradėti nuo mažo, tada palaipsniui plėsti ambicijas ir apimtį.

"Jie turėtų labai siaurai apibrėžti, ką daro", - sakė Heudeckeris. „Jie turėtų pasirinkti probleminę sritį ir jai priklausyti, pvz., Sukčiavimo aptikimas, mikrosegmentai klientams ar išsiaiškinimas, kokį naują produktą pristatyti tūkstantmečio rinkoje.“

„Dienos pabaigoje turite paklausti norimos įžvalgos ar verslo proceso skaitmeninimo“, - sakė Christopheris. „Jūs ne tik meskite technologijas į verslo problemą; jūs turite tai apibrėžti iš anksto. Duomenų ežeras yra būtinybė, tačiau nenorite rinkti duomenų, jei jais niekas nesinaudos versle “.

Daugeliu atvejų tai taip pat reiškia, kad nereikia per daug išpūsti savo įmonės. „Kiekvienoje įmonėje, kurią kada nors studijavau, yra tik keli šimtai pagrindinių sąvokų ir santykių, kuriais vadovaujasi visas verslas. Tai supratę suprantate, kad visi šie milijonai skirtumų yra tik nedideli tų kelių šimtų svarbių dalykų variantai “, - sakė PwC Morrisonas. „Tiesą sakant, jūs pastebite, kad daugelis nedidelių variantų visai nėra variacijos. Tai tikrai tie patys dalykai su skirtingais pavadinimais, skirtinga struktūra ar skirtingomis etiketėmis “, - pridūrė jis.

Didžiųjų duomenų sprendimas Nr. 4: palikimas „Jettison“

Nors galbūt norėsite naudoti tuos terabaitus duomenų, surinktų ir saugomų jūsų duomenų sandėlyje, faktas yra tas, kad jums gali būti geriau aptarnauti tik sutelkiant dėmesį į naujai surinktus duomenis saugyklos sistemose, skirtose dideliems duomenims ir suprojektuotoms pašalinti.

"Aš tikrai patarčiau nebūtinai atkreipti dėmesį į esamą technologijų infrastruktūrą vien dėl to, kad jūsų įmonė yra jai licencija", - sakė konsultantas Greenbaumas. „Dažnai naujoms sudėtingoms problemoms gali prireikti naujų kompleksinių sprendimų. Dešimtmetį visoje korporacijoje atsisakyti senų įrankių nėra tinkamas kelias. Daugelis įmonių naudoja senus įrankius, ir tai užmuša projektą “.

Morrison o = pažymėjo: „Įmonės turi nustoti susipainioti kojose su savo apatiniais rūbais ir tiesiog išmesti paveldėtą architektūrą, sukuriančią daugiau silosų“. Jis taip pat teigė, kad jie turi nustoti tikėtis, kad pardavėjai išspręs jiems sudėtingas sistemos problemas. „Dešimtmečius, atrodo, daugelis mano, kad gali nusipirkti kelią į didelių duomenų problemą. Bet kuri didelių duomenų problema yra sisteminė problema. Kalbant apie bet kokius sudėtingus sistemų pokyčius, turite kurti savo išeitį “, - sakė jis.

$config[zx-auto] not found$config[zx-overlay] not found