Pamokos, gautos iš neseniai įvykusio AWS S3 veikimo nutraukimo

„Amazon S3“ yra daugelio AWS paslaugų pagrindas, įskaitant „AWS Lambda“, „Elastic BeanStalk“ ir pačios „Amazon Health Service Dashboard“. Tai taip pat yra objektų ir laikmenų parduotuvė daugeliui kitų interneto paslaugų, kurios ja pasitiki kiekvieną dieną.

2017 m. Vasario 28 d. AWS kelias valandas nutraukė „Amazon S3“ tarnybos veiklą JAV-EAST – 1 regione. Tai sukėlė kaskadinį prastovų efektą didelėje interneto dalyje, įskaitant tokias paslaugas kaip „Dockerhub“.

Paaiškėjo, kad žmogaus klaida yra pagrindinė priežastis:

9:37 PST, įgaliotas S3 komandos narys, naudodamas nustatytą grojaraštį, įvykdė komandą, skirtą pašalinti nedidelį serverių skaičių vienam iš S3 posistemių, kuriuos naudoja S3 atsiskaitymo procesas. Deja, vienas iš komandos įvedimų buvo įvestas neteisingai, o didesnis serverių rinkinys buvo pašalintas nei numatyta.

Kaip paaiškėjo, yra įprasta klaidinga nuomonė apie skirtumą tarp patvarumo ir prieinamumo. Patvarumas matuoja saugyklos patikimumą ir atsako į klausimą „Ar aš prarasiu savo duomenis?“ Kita vertus, prieinamumas vertina duomenų prieinamumą, t. Y. „Ar aš galėsiu gauti savo duomenis?“

„AWS S3“ siūlo 99,99999999999% ilgaamžiškumą viename regione. Jei panagrinėsime „Amazon“ pavyzdį, tai reiškia, kad jei S3 laikote 10 000 objektų, vidutiniškai vienas objektas gali pasimesti kartą per 10 milijonų metų. „Amazon S3“ tai pasiekia pakartodama daugelio regiono objektų duomenis.

Kita vertus, standartinis S3 objektų prieinamumas regione yra 99,99% per metus. Tai reiškia, kad per bet kurį 12 mėnesių laikotarpį turėtumėte tikėtis, kad iš viso 52 minutės ir 33 sekundės negalėsite pasiekti savo duomenų.

AWS siūlo tiek „IaaS“, tiek „PaaS“ paslaugas. IaaS lygiu AWS klientai visiškai kontroliuoja virtualius serverius ir tinklus. Jie gali sukonfigūruoti bet kokią norimą programinę įrangą ir paslaugą ir patys ją valdyti. Už bet kokį nutrūkimą atsako klientas.

„PaaS“ lygiu AWS siūlo visiškai valdomas platformos paslaugas, tokias kaip objektų saugojimas, duomenų bazės, eilės ir pan. Atsakomybę už šių paslaugų prieinamumą ir ilgaamžiškumą klientas perduoda valdomam paslaugų teikėjui - AWS šiuo atveju. AWS platformos paslaugos, kurios naudojamos per jų nuosavą API, yra ypač pažeidžiamos dėl regioninio nutrūkimo dėl AWS padarytos žmogiškos klaidos.

Žmogiška klaida gali sukelti pristabdymą bet kurioje vietoje - vietoje, debesyje, valdomoje ar savarankiškoje patalpoje. Apsvarstykite pastarąjį „Delta“ kompiuterio gedimą kaip pavyzdį, kai visa savaime priglobta sistema sugenda. Atsakomybės už platformos paslaugos valdymą perdavimas debesies paslaugų teikėjui nepakeičia fakto, kad žmogaus klaidos gali ją sumažinti, tačiau padidina poveikį. Nors „Delta“ veikimo nutraukimas paveikė tik „Delta“, „AWS S3“ veikimo sutrikimas paveikė nemažą interneto dalį.

Laimei, „AWS S3“ siūlo daugybę įrankių, padedančių sumažinti prastovos poveikį. Panagrinėkime tik keletą.

S3 kryžminio regiono replikacija

Duomenys, saugomi tam tikrame S3 regione, yra pakartojami visose prieinamumo zonose ir gali palaikyti prastovą bet kurioje zonoje. Tačiau ji negali išgyventi visos regiono, pavyzdžiui, įvykusio vasario 28 d., Veiklos sutrikimo. S3 objektų atkartojimas geografiniuose regionuose padeda patenkinti padidėjusius pertekliaus reikalavimus.

Atsarginės kopijos

Kelių regionų replikacija gali padėti padidinti prieinamumą. AWS ledyno atsarginės kopijos gali padėti padidinti ilgaamžiškumą. Patogu, kad AWS siūlo automatinį mechanizmą, kad atsarginės kopijos objektai būtų S3 į ledyną.

Apsvarstykite turinio platinimą naudodami „CloudFront“

Jei jūsų S3 objektai dažnai pasiekiami, gali būti tikslinga sukonfigūruoti „AWS CloudFront“, kad aptarnautų objektus iš S3. „CloudFront“ atkartos duomenis ten, kur vartotojams jų labiausiai reikia, ir kai kuriais naudojimo atvejais gali padėti sušvelninti S3 veikimo sutrikimus.

Paskutinės mintys

Valdomos platformos paslaugos yra debesų paslaugų kertinis akmuo. Tokio kaip S3 naudojimas gali sumažinti „DevOps“ išlaidas ir padėti greičiau pateikti programas į rinką. Nors AWS buvo nepaprastai patikima per daugelį metų, „Amazon“ praeityje patyrė pačių padarytų sutrikimų. Neseniai įvykęs S3 veikimas nėra išimtis. Tam tikras tarpregioninio replikavimo, atsarginių kopijų kūrimo ir turinio platinimo derinys turėtų sumažinti tokių nutraukimų poveikį.

S3 kryžminio regiono replikacija

Atsarginės kopijos

Apsvarstykite turinio platinimą naudodami „CloudFront“

Paskutinės mintys

tau taip pat gali patikti