Programavimas

Kaip pasirinkti duomenų analizės platformą

Nesvarbu, ar esate atsakingas už programinės įrangos kūrimą, „Devops“, sistemas, debesis, bandymų automatizavimą, svetainės patikimumą, vadovavimą „Scum“ komandoms, „Infosec“ ar kitose informacinių technologijų srityse, turėsite vis daugiau galimybių ir reikalavimų dirbti su duomenimis, analitika ir mašininiu mokymusi .

„Tech Spotlight“: „Analytics“

  • Kaip pasirinkti duomenų analizės platformą ()
  • 6 geriausios verslo duomenų vizualizavimo praktikos („Computerworld“)
  • Sveikatos analizė: 4 sėkmės istorijos (CIO)
  • SD-WAN ir analizė: santuoka sukurta naujam normaliam (tinklo pasauliui)
  • Kaip apsaugoti algoritmus kaip intelektinę nuosavybę (CSO)

Jūsų analizė gali atsirasti naudojant IT duomenis, pvz., Rengiant metriką ir įžvalgas iš judrių, „devops“ ar svetainės metrikų. Nėra geresnio būdo išmokti pagrindinių duomenų, analizės ir mašininio mokymosi įgūdžių ir įrankių, nei pritaikyti juos žinomiems duomenims, kuriuos galite panaudoti įžvalgoms, kad paskatintumėte veiksmus.

Viskas tampa šiek tiek sudėtingesnė, kai išsišakojate iš IT duomenų pasaulio ir teikiate paslaugas duomenų mokslininkų komandoms, piliečių duomenų mokslininkams ir kitiems verslo analitikams, atliekantiems duomenų vizualizaciją, analizę ir mašininį mokymąsi.

Pirmiausia reikia įkelti ir išvalyti duomenis. Tada, priklausomai nuo duomenų apimties, įvairovės ir greičio, greičiausiai susidursite su keliomis back-end duomenų bazėmis ir debesų duomenų technologijomis. Galiausiai per pastaruosius kelerius metus tai, kas anksčiau buvo pasirinkimas tarp verslo žvalgybos ir duomenų vizualizavimo priemonių, tapo sudėtinga viso gyvenimo ciklo analizės ir mašininio mokymosi platformų matrica.

Analitikos ir mašininio mokymosi svarba padidina IT atsakomybę keliose srityse. Pavyzdžiui:

  • IT dažnai teikia paslaugas visoms duomenų integracijoms, vidinėms duomenų bazėms ir analizės platformoms.
  • „Devops“ komandos dažnai diegia ir keičia duomenų infrastruktūrą, kad būtų galima eksperimentuoti su mašininio mokymosi modeliais ir tada palaikyti gamybos duomenų apdorojimą.
  • Tinklo operacijų komandos užmezga saugius ryšius tarp „SaaS“ analizės įrankių, kelių debesų ir duomenų centrų.
  • IT paslaugų valdymo komandos reaguoja į duomenų ir analizės paslaugų užklausas ir įvykius.
  • „Infosec“ prižiūri duomenų saugumo valdymą ir įgyvendinimą.
  • Kūrėjai integruoja analizės ir mašininio mokymosi modelius į programas.

Atsižvelgiant į analizės, debesijos duomenų platformų ir mašininio mokymosi galimybių sprogimą, čia yra pagrindas geriau suprasti analizės gyvavimo ciklą, pradedant duomenų integravimu ir valymu, baigiant duomenų rinkiniais ir modeliais, baigiant pačiomis duomenų bazėmis, duomenų platformomis ir analizės pasiūlymais.

„Analytics“ prasideda nuo duomenų integravimo ir duomenų valymo

Kad analitikai, piliečių duomenų mokslininkai ar duomenų mokslo komandos galėtų atlikti analizę, reikalingi duomenų šaltiniai turi būti jiems prieinami savo duomenų vizualizavimo ir analizės platformose.

Norėdami pradėti, gali reikėti verslo reikalavimų integruoti duomenis iš kelių įmonės sistemų, išgauti duomenis iš „SaaS“ programų arba perduoti duomenis iš IoT jutiklių ir kitų realaus laiko duomenų šaltinių.

Tai visi veiksmai, skirti rinkti, įkelti ir integruoti duomenis analizės ir mašininio mokymosi tikslais. Atsižvelgiant į duomenų sudėtingumą ir duomenų kokybės klausimus, yra galimybių įsitraukti į duomenų saugyklas, duomenų katalogavimą, pagrindinių duomenų valdymą ir kitas duomenų valdymo iniciatyvas.

Mes visi žinome frazę: „šiukšlių, šiukšlių išvežimas“. Analitikai turi susirūpinti savo duomenų kokybe, o duomenų mokslininkai - dėl mašininio mokymosi modelių šališkumo. Be to, naujų duomenų integravimo savalaikiškumas yra labai svarbus įmonėms, norinčioms labiau orientuotis į duomenis realiuoju laiku. Dėl šių priežasčių duomenys, įkeliantys ir apdorojantys duomenis, yra labai svarbūs atliekant analizę ir mašininį mokymąsi.

Duomenų bazės ir duomenų platformos visų tipų duomenų valdymo uždaviniams spręsti

Duomenų įkėlimas ir apdorojimas yra būtinas pirmasis žingsnis, bet tada viskas tampa sudėtingiau renkantis optimalias duomenų bazes. Šiandienos pasirinkimai apima įmonės duomenų saugyklas, duomenų ežerus, didelių duomenų apdorojimo platformas ir specializuotas NoSQL, diagramas, raktų reikšmes, dokumentų ir stulpelių duomenų bazes. Norint palaikyti didelio masto duomenų saugojimą ir analizę, yra tokios platformos kaip „Snowflake“, „Redshift“, „BigQuery“, „Vertica“ ir „Greenplum“. Galiausiai yra didelės duomenų platformos, įskaitant „Spark“ ir „Hadoop“.

Didelės įmonės gali turėti kelias duomenų saugyklas ir naudoti debesų duomenų platformas, tokias kaip „Cloudera Data Platform“ arba „MapR Data Platform“, arba duomenų organizavimo platformas, pvz., „InfoWorks DataFoundy“, kad visos šios saugyklos būtų prieinamos analizei.

Pagrindiniai viešieji debesys, įskaitant AWS, GCP ir „Azure“, turi duomenų valdymo platformas ir paslaugas, kurias galima persiųsti. Pavyzdžiui, „Azure Synapse Analytics“ yra „Microsoft“ SQL duomenų saugykla debesyje, o „Azure Cosmos DB“ teikia sąsajas su daugeliu „NoSQL“ duomenų saugyklų, įskaitant „Cassandra“ (stulpeliniai duomenys), „MongoDB“ (raktų vertės ir dokumentų duomenys) ir „Gremlin“ (diagramos duomenys). .

Duomenų ežerai yra populiarūs pakrovimo dokai, skirti centralizuoti nestruktūruotus duomenis, kad būtų galima greitai juos analizuoti. Tam tikslui galima pasirinkti iš „Azure Data Lake“, „Amazon S3“ ar „Google Cloud Storage“. Dideliems duomenims apdoroti AWS, GCP ir Azure debesys taip pat turi „Spark“ ir „Hadoop“ pasiūlymus.

„Analytics“ platformos nukreiptos į mašinų mokymąsi ir bendradarbiavimą

Įkėlę, išvalę ir saugodami duomenis, duomenų mokslininkai ir analitikai gali pradėti atlikti analizę ir mokytis mašinoje. Organizacijos turi daug galimybių, priklausomai nuo analizės tipo, darbą atliekančios analizės komandos įgūdžių ir pagrindinių duomenų struktūros.

„Analytics“ galima atlikti naudojant savitarnos duomenų vizualizavimo įrankius, tokius kaip „Tableau“ ir „Microsoft Power BI“. Abi šios priemonės yra skirtos piliečių duomenų mokslininkams ir atskleidžia vizualizacijas, skaičiavimus ir pagrindinę analizę. Šie įrankiai palaiko pagrindinį duomenų integravimą ir duomenų restruktūrizavimą, tačiau sudėtingesni duomenys dažnai vyksta prieš atliekant analizės veiksmus. „Tableau Data Prep“ ir „Azure Data Factory“ yra papildomi įrankiai, padedantys integruoti ir transformuoti duomenis.

„Analytics“ komandos, norinčios automatizuoti ne tik duomenų integravimą ir paruošimą, gali ieškoti tokių platformų kaip „Alteryx Analytics Process Process Automation“. Ši visapusiška bendradarbiavimo platforma sujungia kūrėjus, analitikus, piliečių duomenų mokslininkus ir duomenų mokslininkus su darbo eigos automatizavimo ir savitarnos duomenų apdorojimo, analizės ir mašininio mokymosi apdorojimo galimybėmis.

„Alteryx“ vyriausiasis analitikos ir duomenų pareigūnas Alanas Jacobsonas paaiškina: „Analitinių procesų automatizavimo (APA), kaip kategorijos, atsiradimas pabrėžia naują lūkestį kiekvienam organizacijos darbuotojui būti duomenų darbuotoju. IT kūrėjai nėra išimtis, o „Alteryx APA Platform“ išplėtimas yra ypač naudingas šiems žinių darbuotojams “.

Yra keletas duomenų mokslininkams skirtų įrankių ir platformų, kurių tikslas - padaryti juos produktyvesnius naudojant tokias technologijas kaip „Python“ ir „R“, tuo pačiu supaprastinant daugelį operacinių ir infrastruktūros žingsnių. Pavyzdžiui, „Databricks“ yra duomenų mokslo operacinė platforma, leidžianti diegti algoritmus „Apache Spark“ ir „TensorFlow“, o pati valdyti skaičiavimo grupes AWS arba „Azure“ debesyje.

Dabar kai kurios platformos, tokios kaip „SAS Viya“, sujungia duomenų rengimą, analizę, prognozavimą, mašininį mokymąsi, teksto analizę ir mašininio mokymosi modelio valdymą į vieną modelops platformą. SAS vykdo analizę ir nukreipia duomenų mokslininkus, verslo analitikus, kūrėjus ir vadovus naudodamas „end-to-end“ bendradarbiavimo platformą.

SAS sprendimų valdymo tyrimų ir plėtros direktorius Davidas Dulingas sako: „Mes modelius vertiname kaip praktiką sukurti pakartotiną ir patikrinamą operacijų liniją, kad visa analizė, įskaitant AI ir ML modelius, būtų įdiegta operacinėse sistemose. Kaip „modelops“ dalį mes galime naudoti šiuolaikines „devops“ praktikas kodų valdymui, testavimui ir stebėjimui. Tai padeda pagerinti modelių diegimo dažnumą ir patikimumą, o tai savo ruožtu padidina verslo modelių, pagrįstų šiais modeliais, lankstumą “.

„Dataiku“ yra dar viena platforma, kuri siekia paruošti duomenis, atlikti analizę ir mašininį mokymąsi augančioms duomenų mokslo komandoms ir jų bendradarbiams. „Dataiku“ turi vizualaus programavimo modelį, leidžiantį bendradarbiauti ir koduoti sąsiuvinius pažangesniems „SQL“ ir „Python“ kūrėjams.

Kitos pirmaujančių įmonės programinės įrangos tiekėjų analizės ir mašininio mokymosi platformos siekia suteikti analizės galimybes duomenų centrų ir debesų duomenų šaltiniams. Pavyzdžiui, „Oracle Analytics Cloud“ ir „SAP Analytics Cloud“ siekia centralizuoti intelektą ir automatizuoti įžvalgas, kad būtų galima priimti sprendimus nuo galo iki galo.

Duomenų analizės platformos pasirinkimas

Duomenų integravimo, sandėliavimo ir analizės įrankių pasirinkimas buvo paprastesnis prieš didėjant didiesiems duomenims, mašininiam mokymuisi ir duomenų valdymui. Šiandien susilieja terminologija, platformos galimybės, veiklos reikalavimai, valdymo poreikiai ir tikslinės vartotojų asmenybės, dėl kurių platformų pasirinkimas tampa sudėtingesnis, ypač todėl, kad daugelis pardavėjų palaiko kelias naudojimo paradigmas.

Verslas skiriasi analizės reikalavimais ir poreikiais, tačiau turėtų ieškoti naujų platformų iš to, kas jau veikia. Pavyzdžiui:

  • Bendrovės, kurioms pavyko įgyvendinti piliečių duomenų mokslo programas ir kurios jau turi duomenų vizualizavimo įrankius, gali norėti išplėsti šią programą analizės procesų automatizavimo ar duomenų paruošimo technologijomis.
  • Įmonės, norinčios įrankių grandinės, leidžiančios duomenų mokslininkams, dirbantiems skirtingose ​​verslo dalyse, gali apsvarstyti visapusiškas analizės platformas, turinčias „modelops“ galimybes.
  • Organizacijoms, turinčioms daug skirtingų duomenų platformų, gali būti naudinga, jei debesų duomenų platformos jas kataloguos ir valdys centralizuotai.
  • Bendrovės, standartizuojančios visas ar daugumą duomenų galimybių viename viešajame debesų tiekėjoje, turėtų ištirti siūlomas duomenų integravimo, duomenų valdymo ir duomenų analizės platformas.

Kai analizė ir mašininis mokymasis tampa svarbia kompetencija, technologai turėtų apsvarstyti galimybę gilinti supratimą apie turimas platformas ir jų galimybes. Analitikos platformų galia ir vertė tik didės, kaip ir jų įtaka visoje įmonėje.

$config[zx-auto] not found$config[zx-overlay] not found