Programavimas

Kas yra didžiųjų duomenų analizė? Greiti atsakymai iš įvairių duomenų rinkinių

Yra duomenų, o tada yra didelių duomenų. Taigi, koks skirtumas?

Apibrėžti dideli duomenys

Aiškią didelių duomenų apibrėžtį gali būti sunku nustatyti, nes didieji duomenys gali apimti daugybę naudojimo atvejų. Bet apskritai šis terminas reiškia duomenų rinkinius, kurių apimtis yra tokia didelė ir tokie sudėtingi, kad tradiciniai duomenų apdorojimo programinės įrangos produktai negali per pagrįstą laiką užfiksuoti, tvarkyti ir apdoroti duomenų.

Šiuose didžiuosiuose duomenų rinkiniuose gali būti struktūrizuoti, nestruktūrizuoti ir pusiau struktūrizuoti duomenys, kuriuos kiekvieną galima išgauti įžvalgoms.

Kiek duomenų iš tikrųjų yra „didelis“, galima diskutuoti, tačiau paprastai tai gali būti daugybė petabaitų - ir didžiausiems projektams, esantiems eksabaitų diapazone.

Dažnai didiesiems duomenims būdingi trys Vs:

  • kraštutinumas apimtis duomenų
  • platus įvairovė duomenų tipų
  • greitis kurioje reikia apdoroti ir išanalizuoti duomenis

Duomenys, kurie sudaro dideles duomenų saugyklas, gali būti gaunami iš šaltinių, apimančių internetines svetaines, socialinę žiniasklaidą, darbalaukio ir mobiliąsias programas, mokslinius eksperimentus ir daiktų internete vis dažniau naudojamus jutiklius ir kitus įrenginius.

Didžiųjų duomenų sąvoka pateikiama kartu su tam tikrais komponentais, kurie leidžia organizacijoms praktiškai naudoti duomenis ir išspręsti daugybę verslo problemų. Tai apima didelių duomenų technologijoms palaikyti reikalingą IT infrastruktūrą, duomenims pritaikytą analizę; projektams reikalingų didžiųjų duomenų platformų, susijusių įgūdžių rinkinių ir faktinių naudojimo atvejų, kurie yra prasmingi didiesiems duomenims.

Kas yra duomenų analizė?

Kas iš tikrųjų teikia naudos iš visų didžiųjų duomenų organizacijų, kurias renka, yra duomenims taikoma analizė. Neturint analizės, kuri apima duomenų tyrimą, siekiant atrasti modelius, koreliacijas, įžvalgas ir tendencijas, duomenys yra tik daugybė nulių ir riboto verslo naudojimo.

Taikydamos analizę dideliems duomenims, įmonės gali įžvelgti tokius pranašumus kaip padidėję pardavimai, pagerėjęs klientų aptarnavimas, didesnis efektyvumas ir bendras konkurencingumo padidėjimas.

Duomenų analizė apima duomenų rinkinių tyrimą, kad gautumėte įžvalgų ar padarytumėte išvadas apie tai, kas juose yra, pvz., Apie būsimos veiklos tendencijas ir prognozes.

Analizuodami informaciją naudodamiesi didžiųjų duomenų analizės įrankiais, organizacijos gali priimti labiau pagrįstus verslo sprendimus, pavyzdžiui, kada ir kur vykdyti rinkodaros kampaniją ar pristatyti naują produktą ar paslaugą.

„Analytics“ gali remtis pagrindinėmis verslo žvalgybos programomis arba pažangesnėmis, nuspėjamosiomis analizėmis, tokiomis, kurias naudoja mokslo organizacijos. Tarp pažangiausių duomenų analizės tipų yra duomenų gavyba, kai analitikai vertina didelius duomenų rinkinius, kad nustatytų ryšius, modelius ir tendencijas.

Duomenų analizė gali apimti tiriamąją duomenų analizę (siekiant nustatyti duomenų modelius ir sąsajas) ir patvirtinamąją duomenų analizę (taikant statistinius metodus, siekiant išsiaiškinti, ar prielaida apie konkretų duomenų rinkinį yra teisinga.

Kitas skirtumas yra kiekybinė duomenų analizė (arba skaitinių duomenų, turinčių kiekybiškai įvertinamų kintamųjų, kuriuos galima palyginti statistiškai, analizė) ir kokybinė duomenų analizė (kurios pagrindinis dėmesys skiriamas ne skaitmeniniams duomenims, tokiems kaip vaizdo įrašai, vaizdai ir tekstas).

IT infrastruktūra dideliems duomenims palaikyti

Kad didžiųjų duomenų koncepcija veiktų, organizacijos turi turėti infrastruktūrą duomenims rinkti ir talpinti, suteikti prieigą prie jų ir apsaugoti informaciją, kol ji saugoma ir gabenama. Tam reikia įdiegti didelių duomenų analizės įrankius.

Aukštu lygiu tai apima duomenų saugojimo sistemas ir serverius, duomenų valdymo ir integravimo programinę įrangą, verslo žvalgybos ir duomenų analizės programinę įrangą bei didžiųjų duomenų programas.

Didžioji šios infrastruktūros dalis greičiausiai bus vietoje, nes įmonės siekia ir toliau pritraukti savo duomenų centro investicijas. Tačiau vis daugiau organizacijų pasikliauja debesų kompiuterijos paslaugomis, kad patenkintų didelių duomenų poreikį.

Duomenims rinkti reikia turėti šaltinius duomenims rinkti. Daugelis jų, pvz., Žiniatinklio programos, socialinės žiniasklaidos kanalai, programos mobiliesiems ir el. Pašto archyvai, jau veikia. Tačiau įsigalėjus daiktų internetui, įmonėms gali tekti įdiegti jutiklius visuose įrenginiuose, transporto priemonėse ir produktuose duomenims rinkti, taip pat naujoms programoms, kurios generuoja vartotojo duomenis. (Į IoT orientuota didžiųjų duomenų analizė turi savo specializuotus metodus ir įrankius.)

Organizacijos, norėdamos saugoti visus gaunamus duomenis, turi tinkamai saugoti duomenis. Tarp saugojimo galimybių yra tradiciniai duomenų sandėliai, duomenų ežerai ir debesų saugykla.

Saugumo infrastruktūros priemonės gali apimti duomenų šifravimą, vartotojo autentifikavimą ir kitas prieigos kontroles, stebėjimo sistemas, užkardas, įmonės mobilumo valdymą ir kitus produktus, apsaugančius sistemas ir duomenis,

Didžiųjų duomenų technologijos

Be pirmiau nurodytos IT infrastruktūros, naudojamos duomenims apskritai. Yra keletas dideliems duomenims būdingų technologijų, kurias turėtų palaikyti jūsų IT infrastruktūra.

Hadoopo ekosistema

„Hadoop“ yra viena iš technologijų, labiausiai susijusių su didžiaisiais duomenimis. „Apache Hadoop“ projektas kuria atviro kodo programinę įrangą, skirtą keičiamam, paskirstytam skaičiavimui.

„Hadoop“ programinės įrangos biblioteka yra sistema, leidžianti paskirstytus didelius duomenų rinkinius apdoroti kompiuterių grupėse naudojant paprastus programavimo modelius. Jis sukurtas išplėsti nuo vieno serverio iki tūkstančių, kiekvienas iš jų siūlo vietinį skaičiavimą ir saugojimą.

Projektą sudaro keli moduliai:

  • „Hadoop Common“, bendrosios programos, palaikančios kitus „Hadoop“ modulius
  • „Hadoop“ paskirstyta failų sistema, suteikianti prieigą prie programos duomenų su dideliu pralaidumu
  • „Hadoop YARN“ - darbo planavimo ir grupių išteklių valdymo sistema
  • „Hadoop MapReduce“, YARN pagrindu sukurta sistema, skirta lygiagrečiai apdoroti didelius duomenų rinkinius.

„Apache Spark“

„Hache“ ekosistemos dalis, „Apache Spark“ yra atvirojo kodo klasterių skaičiavimo sistema, naudojama kaip variklis didelių duomenų apdorojimui „Hadoop“. „Spark“ tapo viena iš pagrindinių didžiųjų duomenų paskirstyto apdorojimo sistemų ir gali būti įdiegta įvairiais būdais. Tai suteikia natūralius „Java“, „Scala“, „Python“ (ypač „Anaconda Python“ distro) ir R programavimo kalbų susiejimus (R ypač tinka didiesiems duomenims), palaiko SQL, duomenų srautą, mašininį mokymąsi ir grafikų apdorojimą.

Duomenų ežerai

Duomenų ežerai yra saugyklos saugyklos, kuriose laikomi itin dideli neapdorotų duomenų kiekiai pirminiu formatu, kol duomenų prireiks verslo vartotojams. Duomenų ežerų augimą skatina skaitmeninės transformacijos iniciatyvos ir DI augimas. Duomenų ežerai sukurti tam, kad vartotojams būtų lengviau pasiekti didžiulį duomenų kiekį, kai to reikia.

NoSQL duomenų bazės

Įprastos SQL duomenų bazės yra skirtos patikimoms operacijoms ir ad hoc užklausoms, tačiau joms taikomi tokie apribojimai kaip griežta schema, dėl kurios jie tampa mažiau tinkami kai kurių tipų programoms. „NoSQL“ duomenų bazės pašalina tuos apribojimus ir saugo bei tvarko duomenis taip, kad būtų užtikrintas didelis darbo greitis ir didelis lankstumas. Daugelį jų sukūrė kompanijos, kurios ieškojo geresnių būdų masinio tinklalapio turiniui saugoti ar apdoroti. Skirtingai nuo SQL duomenų bazių, daugelį NoSQL duomenų bazių galima horizontaliai keisti šimtais ar tūkstančiais serverių.

Atminties duomenų bazės

Duomenų bazė atmintyje (IMDB) yra duomenų bazių valdymo sistema, kuri duomenų saugojimui pirmiausia remiasi pagrindine atmintimi, o ne disku. Duomenų bazės atmintyje yra greitesnės nei diske optimizuotos duomenų bazės, todėl svarbu atsižvelgti į didžiųjų duomenų analizės naudojimą ir duomenų saugyklų bei duomenų žemėlapių kūrimą.

Didelių duomenų įgūdžiai

Didelių duomenų ir didelių duomenų analizės pastangoms reikalingi specifiniai įgūdžiai, nesvarbu, ar jie yra organizacijos viduje, ar per išorės ekspertus.

Daugelis šių įgūdžių yra susiję su pagrindiniais didžiųjų duomenų technologijų komponentais, tokiais kaip „Hadoop“, „Spark“, „NoSQL“ duomenų bazės, atmintyje esančios duomenų bazės ir analizės programinė įranga.

Kiti būdingi tokioms disciplinoms kaip duomenų mokslas, duomenų gavyba, statistinė ir kiekybinė analizė, duomenų vizualizavimas, bendros paskirties programavimas, duomenų struktūra ir algoritmai. Taip pat reikia, kad žmonės, turintys bendrus valdymo įgūdžius, matytų didelių duomenų projektus iki jų pabaigos.

Atsižvelgiant į tai, kaip paplito didžiųjų duomenų analizės projektai, ir žmonių, turinčių tokio pobūdžio įgūdžių, trūkumą, patyrusių specialistų paieška gali būti vienas didžiausių iššūkių organizacijoms.

Didžiųjų duomenų analizės naudojimo atvejai

Didieji duomenys ir analizė gali būti pritaikyti daugeliui verslo problemų ir naudojimo atvejų. Štai keli pavyzdžiai:

  • Klientų analizė. Įmonės gali išnagrinėti klientų duomenis, kad pagerintų klientų patirtį, pagerintų konversijų rodiklius ir padidintų jų išlaikymą.
  • Veiklos analizė. Gerinti veiklos rezultatus ir geriau išnaudoti įmonės turtą yra daugelio įmonių tikslai. Didžiųjų duomenų analizės įrankiai gali padėti įmonėms rasti būdų, kaip efektyviau veikti ir pagerinti našumą.
  • Sukčiavimo prevencija. Didžiųjų duomenų įrankiai ir analizė gali padėti organizacijoms nustatyti įtartiną veiklą ir modelius, kurie gali rodyti apgaulingą elgesį ir sumažinti riziką.
  • Kainų optimizavimas. Įmonės gali naudoti didelių duomenų analizę, kad optimizuotų kainas ir produktus ir paslaugas, taip padidindamos pajamas.