Programavimas

Greiti duomenys: kitas žingsnis po didelių duomenų

Didieji duomenys tampa dideli per nuolatinį gaunamų duomenų srautą. Didelės apimties aplinkoje šie duomenys gaunami neįtikėtinais greičiais, tačiau juos vis tiek reikia analizuoti ir saugoti.

Johnas Huggas, „VoltDB“ programinės įrangos architektas, siūlo užuot paprasčiausiai saugoję tuos duomenis, kurie bus analizuojami vėliau, galbūt jau pasiekėme tašką, kai juos galima analizuoti, nes jie yra suvartojami, tačiau vis tiek išlaikome ypač aukštą suvartojimo lygį naudojant tokius įrankius kaip „Apache Kafka“.

- Paulius Venezia

Mažiau nei prieš keliolika metų buvo beveik neįmanoma įsivaizduoti, kaip analizuoti petabaitus istorinių duomenų naudojant prekių aparatūrą. Šiandien iš tūkstančių mazgų pastatyti „Hadoop“ klasteriai yra beveik įprasti. Atvirojo kodo technologijos, tokios kaip „Hadoop“, permąstė, kaip efektyviai apdoroti petabaitus po petabaitų duomenų naudojant prekių ir virtualizuotą aparatūrą, kad kūrėjai galėtų pigiai naudotis šia galimybe visur. Todėl atsirado didžiųjų duomenų laukas.

Panaši revoliucija vyksta ir su vadinamaisiais greitais duomenimis. Pirmiausia apibrėžkime greitus duomenis. Didelius duomenis dažnai sukuria duomenys, kurie sugeneruojami neįtikėtinu greičiu, pvz., Paspaudimų srauto duomenys, finansinės žymos duomenys, žurnalo kaupimas ar jutiklių duomenys. Dažnai šie įvykiai įvyksta tūkstančius iki dešimčių tūkstančių kartų per sekundę. Nenuostabu, kad tokio tipo duomenys paprastai vadinami „gaisro žarna“.

Kalbėdami apie gaisro žarnas dideliuose duomenyse, mes nematuojame duomenų sandėliams žinomų tipinių gigabaitų, terabaitų ir petabaitų tūrio. Mes matuojame tūrį pagal laiką: megabaitų per sekundę, gigabaitų per valandą ar terabaitų per dieną skaičių. Mes kalbame apie greitį ir apimtį, kurie yra pagrindiniai skirtumai tarp didžiųjų duomenų ir duomenų sandėlio. Dideli duomenys yra ne tik dideli; tai taip pat greitai.

Didelių duomenų nauda prarandama, jei nauji, greitai judantys duomenys iš gaisro žarnos išmetami į HDFS, analitinius RDBMS ar net plokščius failus, nes galimybė veikti ar perspėti dabar, kai viskas vyksta, Pamesta. Priešgaisrinė žarna atspindi aktyvius duomenis, neatidėliotiną būseną arba nuolatinio tikslo duomenis. Duomenų saugykla, priešingai, yra būdas ieškoti istorinių duomenų, kad suprastume praeitį ir nuspėtume ateitį.

Manoma, kad veikti pagal gaunamus duomenis yra brangu ir nepraktiška, o gal net neįmanoma, ypač dėl prekių įrangos. Kaip ir didžiųjų duomenų vertė, taip ir sparčių duomenų vertė atrakinama iš naujo įsivaizduojant pranešimų eiles ir srautines sistemas, tokias kaip atviro kodo „Kafka“ ir „Storm“, ir iš naujo įsivaizduojant duomenų bazių diegimą, įvedant atvirojo kodo „NoSQL“ ir „NewSQL“ pasiūlymus. .

Greitais duomenimis užfiksuojama vertė

Norėdami apdoroti duomenis, pasiekiančius nuo dešimčių tūkstančių iki milijonų įvykių per sekundę, jums reikės dviejų technologijų: Pirma, srautinio perdavimo sistema, galinti įvykius pristatyti taip greitai, kaip jie ateina; ir, antra, duomenų saugykla, galinti apdoroti kiekvieną daiktą taip greitai, kaip jis gauna.

Pateikti greitus duomenis

„Kafka“ buvo sukurta taip, kad būtų pranešimų eilė ir išspręstos suvokiamos esamų technologijų problemos. Tai tarsi über eilė, turinti neribotą mastelį, paskirstytą diegimą, daugialypiškumą ir tvirtą atkaklumą. Organizacija galėtų dislokuoti vieną „Kafka“ klasterį, kad patenkintų visus savo pranešimų eilės poreikius. Vis dėlto savo esme „Kafka“ teikia pranešimus. Tai nepalaiko bet kokio apdorojimo ar užklausų.

Copyright lt.verticalshadows.com 2024

$config[zx-auto] not found$config[zx-overlay] not found