Programavimas

„Apache Eagle“ stebi didelių duomenų naudojimą

Iš pradžių „eBay“ sukurtas „Apache Eagle“, paaukotas „Apache Software Foundation“, užpildo didelių duomenų saugumo nišą, kuri lieka negausiai apgyvendinta, jei ne plika: ji užuodžia galimas saugumo ir našumo problemas naudodama didelių duomenų sistemas.

Norėdami tai padaryti, „Eagle“ naudoja kitus „Apache“ atvirojo kodo komponentus, tokius kaip „Kafka“, „Spark“ ir „Storm“, kad generuotų ir analizuotų mašininio mokymosi modelius iš didelių duomenų grupių elgsenos duomenų.

Pažvelgus į vidų

„Eagle“ duomenys gali būti gaunami iš įvairių duomenų šaltinių (HDFS, „Hive“, „MapR FS“, „Cassandra“) veiklos žurnalų arba iš našumo metrikos, surinktos tiesiogiai iš tokių sistemų kaip „Spark“. Tada „Kafka“ srautinio perdavimo sistema duomenis gali perduoti į realaus laiko aptikimo sistemą, sukurtą naudojant „Apache Storm“, arba į modelio mokymo sistemą, sukurtą ant „Apache Spark“. Pirmieji skirti įspėjimams ir ataskaitoms generuoti, remiantis esama politika; pastarasis yra skirtas mašininio mokymosi modelių kūrimui, siekiant paskatinti naują politiką.

Tai, kad elgsena realiuoju laiku akcentuojama, yra „pagrindinių savybių“ sąrašas „Eagle“ dokumentacijoje. Po jo eina „mastelis“, „valdomi metaduomenys“ (tai reiškia, kad politikos pakeitimai diegiami automatiškai, kai keičiami jų metaduomenys) ir „išplėtimas“. Tai reiškia, kad duomenų šaltinius, perspėjimo sistemas ir politikos variklius, kuriuos naudoja „Eagle“, teikia papildiniai ir jie neapsiriboja tuo, kas pateikiama dėžutėje.

Kadangi Erelis buvo sudarytas iš esamų Hadoopo pasaulio dalių, jis turi du teorinius pranašumus. Viena - mažiau išradinėjamas ratas. Antra, tie, kurie jau turi patirties su nagrinėjamais kūriniais, turės koją į viršų.

Ką mano žmonės sugalvojo?

Be aukščiau paminėtų naudojimo atvejų, tokių kaip darbo rezultatų analizė ir nenormalaus elgesio stebėjimas, „Eagle“ taip pat gali analizuoti vartotojo elgesį. Tai nėra, tarkime, duomenų analizė iš žiniatinklio programos, kad sužinotumėte apie viešuosius programos vartotojus, o patys didžiųjų duomenų sistemos vartotojai - žmonės kuria ir valdo „Hadoop“ arba „Spark“ galinę dalį. Pridedamas pavyzdys, kaip atlikti tokią analizę, ir ji gali būti įdiegta tokia, kokia yra, arba modifikuota.

„Eagle“ taip pat leidžia prieigą prie programos duomenų klasifikuoti pagal jautrumo lygius. Šiuo metu šia funkcija gali naudotis tik HDFS, „Hive“ ir „HBase“ programos, tačiau jos sąveika su jomis suteikia modelį, kaip būtų galima klasifikuoti kitus duomenų šaltinius.

Laikykime tai kontroliuodami

Kadangi didelių duomenų sistemos yra greitai kintantys kūriniai, buvo sunku sukurti patikimą saugumą aplink juos. „Eagle“ prielaida yra ta, kad ji gali pateikti politiką pagrįstą analizę ir perspėjimą kaip galimą kitų projektų, tokių kaip „Apache Ranger“, papildymą. „Ranger“ teikia autentifikavimą ir prieigos kontrolę visoje „Hadoop“ ir su ja susijusiose technologijose; Erelis suteikia jums šiek tiek idėjos, ką daro žmonės, kai tik jie įleidžiami į vidų.

Didžiausias klausimas, sklindantis virš „Eagle“ ateities - taip, net ir anksti - yra tai, kokiu laipsniu „Hadoop“ pardavėjai elegantiškai įsitrauks į savo esamus platinimus ar naudosis savo pačių siūlomais saugumais. Duomenų saugumas ir valdymas jau seniai yra vienas iš trūkstamų elementų, dėl kurio komerciniai pasiūlymai galėtų konkuruoti.