Apžvalga: „Amazon SageMaker“ žaidžia pasivyti

Kai peržiūrėjau „Amazon SageMaker“ 2018 m., Pastebėjau, kad tai buvo labai keičiamo mašininio mokymosi ir gilaus mokymosi paslauga, palaikanti 11 savo algoritmų ir visus kitus jūsų teikiamus algoritmus. Hiperparametrų optimizavimas vis dar buvo peržiūrimas, todėl jums reikėjo atlikti savo ETL ir funkcijų inžineriją.

Nuo to laiko „SageMaker“ sritis išsiplėtė, išplėtusi pagrindinius bloknotus su IDE („SageMaker Studio“) ir automatizuotu mašininiu mokymusi („SageMaker Autopilot“) ir įtraukdama daugybę svarbių paslaugų į bendrą ekosistemą, kaip parodyta toliau pateiktoje diagramoje. Ši ekosistema palaiko mašininį mokymąsi nuo pasirengimo iki modelio kūrimo, mokymo ir derinimo iki diegimo ir valdymo - kitaip tariant, nuo galo iki galo.

Kas naujo „SageMaker“?

Kas naujo? Atsižvelgiant į tai, kad paskutinį kartą į „SageMaker“ žiūrėjau iškart po jo išleidimo, sąrašas yra gana ilgas, tačiau pradėkime nuo labiausiai matomų paslaugų.

„SageMaker Studio“, IDE, paremta „JupyterLab“
„SageMaker Autopilot“, kuris automatiškai sukuria ir treniruoja iki 50 funkcijų sukurtų modelių, kuriuos galima ištirti „SageMaker Studio“
„SageMaker Ground Truth“, kuri padeda kurti ir valdyti mokymo duomenų rinkinius
„SageMaker“ nešiojamieji kompiuteriai dabar siūlo elastingą skaičiavimą ir paspaudimą vienu paspaudimu
„SageMaker Experiments“, kuri padeda kūrėjams vizualizuoti ir palyginti mašininio mokymosi modelių kartojimus, mokymo parametrus ir rezultatus
„SageMaker Debugger“, teikianti mašininio mokymosi modelių stebėjimą realiuoju laiku, siekiant pagerinti numatomąjį tikslumą, sutrumpinti treniruočių laiką ir palengvinti didesnį paaiškinamumą
„SageMaker“ modelio monitorius, kuris nustato koncepcijos pasislinkimą, kad sužinotų, kada gamyboje naudojamo modelio veikimas pradeda skirtis nuo originalaus apmokyto modelio

Kiti pastebimi patobulinimai apima pasirinktinį nešiojamųjų kompiuterių egzempliorių naudojimą siekiant sumažinti išlaidas; naujas P3dn.24xl egzemplioriaus tipas, apimantis aštuonis V100 GPU; AWS optimizuota „TensorFlow“ sistema, kuri pasiekia artimą tiesiniam masteliui mokant kelių tipų neuroninius tinklus; „Amazon Elastic Inference“, kuris gali dramatiškai sumažinti išvadų išlaidas; „AWS Inferentia“, kuri yra didelio našumo mašininio mokymosi išvadų lustas; ir nauji algoritmai, tiek įmontuoti į „SageMaker“, tiek prieinami AWS Marketplace. Be to, „SageMaker Neo“ renka giluminius mokymosi modelius, kad jie veiktų krašto skaičiavimo įrenginiuose, o „SageMaker RL“ (nenurodyta diagramoje) teikia valdomą mokymosi sustiprinimo paslaugą.

„SageMaker“ studija

„JupyterLab“ yra naujos kartos internetinė „Project Jupyter“ vartotojo sąsaja. „SageMaker Studio“ naudoja „JupyterLab“ kaip pagrindą IDE, kuri yra vieninga internetinė mašininio mokymosi ir gilaus mokymosi darbo vieta su bendradarbiavimo funkcijomis, eksperimentų valdymu, „Git“ integravimu ir automatiniu modelių generavimu.

Žemiau pateiktoje ekrano kopijoje rodoma, kaip įdiegti „SageMaker“ pavyzdžius į „SageMaker Studio“ egzempliorių, naudojant terminalo skirtuką ir komandinę eilutę „Git“. Nurodymai, kaip tai padaryti, yra šio pavyzdžio „README“, kuris yra „Catch-22“. Juos galite perskaityti naršydami „GitHub“ pavyzdį „Pradėti“ arba klonuodami saugyklą savo kompiuteryje ir ją perskaitydami.

„Amazon“ darbo pradžios pavyzdyje yra užrašų knygelė, vadinama xgboost_customer_churn_studio.ipynb, kuri buvo pritaikyta iš tinklaraščio įrašo apie klientų pokyčių prognozavimą. Kaip „Jupyter“ nešiojamieji kompiuteriai turi daug paaiškinimų, kaip matote toliau pateiktose ekrano kopijose.

Toliau pateiktame pavyzdyje vykdomas papildomas mokymas su išoriniu XGBoost algoritmu, modifikuotu siekiant išsaugoti derinimo informaciją „Amazon S3“ ir pasinaudoti trimis derinimo taisyklėmis. Tai yra tai, kas vadinama sistema režimas, tai reiškia, kad tai nėra įmontuotas algoritmas.

Kai visi mokymai bus baigti, rezultatus galite palyginti skirtuke „Eksperimentai“.

Tada pavyzdyje pateikiamas modelis naudojant jį dislokuoti metodą ir išbando įdiegtą galutinį tašką naudodamasis juo numatyti metodas. Galiausiai sukuria pagrindinį darbą su mokymo duomenų rinkiniu ir suplanuotą stebėjimo užduotį, kuri praneša apie visus suvaržymų pažeidimus.

Beje, „XGBoost“ yra tik vienas iš daugelio algoritmų, įdiegtų „SageMaker“. Visas sąrašas pateiktas žemiau esančioje lentelėje - ir jūs visada galite sukurti savo modelį.

„SageMaker“ autopilotas

Tarkime, kad nežinote, kaip atlikti funkcijų inžineriją, ir nesate gerai susipažinę su įvairiais algoritmais, galimais atlikti įvairias mašininio mokymosi užduotis. Vis tiek galite naudoti „SageMaker“ - tiesiog leiskite jam veikti autopilotu. „SageMaker Autopilot“ gali valdyti duomenų rinkinius iki 5 GB.

Žemiau pateiktoje ekrano kopijoje vykdome tiesioginės rinkodaros pavyzdį su „Amazon SageMaker Autopilot“. Pradedama atsisiųsdami duomenis, juos išklijuodami, įkeldami į S3 kibirą ir paleidę „Autopilot“ užduotį paskambinę „create_auto_ml_job“ API. Tada mes stebime darbo eigą, kai jis analizuoja duomenis, atlieka inžinerijos funkcijas ir modelio derinimą, kaip parodyta žemiau.

Tada pavyzdys parenka geriausią modelį, naudoja jį kuriant ir talpinant galinį tašką ir vykdo transformavimo užduotį, kad pridėtų modelio prognozes prie bandymo duomenų kopijos. Galiausiai, jame randami du „Autopiloto“ darbo sukurti užrašų knygeliai.

„Autopiloto“ rezultatams yra vartotojo sąsaja, nors tai nėra akivaizdu. Dešiniuoju pelės mygtuku spustelėję automl eksperimentą, galite pamatyti visus bandymus su jų objektyviomis vertėmis, kaip parodyta žemiau.

„SageMaker“ pagrindinė tiesa

Jei jums pasisekė, visi jūsų duomenys bus pažymėti etiketėmis arba kitaip pažymėti ir paruošti naudoti kaip mokymo duomenų rinkinį. Jei ne, galite anotuoti duomenis rankiniu būdu (įprastas pokštas yra tai, kad užduotį suteikiate savo gradų mokiniams), arba galite naudoti pusiau prižiūrimą mokymosi procesą, kuris sujungia žmogaus anotacijas su automatinėmis anotacijomis. „SageMaker Ground Truth“ yra toks ženklinimo procesas.

Kaip matote toliau pateiktoje diagramoje, „Ground Truth“ gali būti taikoma daugybei skirtingų užduočių. Naudodamiesi „Ground Truth“, galite naudoti darbuotojus iš „Amazon Mechanical Turk“ arba pasirinktos pardavėjų įmonės, arba vidinę, privačią darbo jėgą kartu su mašininiu mokymusi, kad galėtumėte sukurti paženklintą duomenų rinkinį.

„Amazon“ pateikia septynis žingsnius, kurie parodo įvairius „SageMaker Ground Truth“ naudojimo būdus.

„SageMaker Neo“

Visai neseniai buvo sunku įdiegti apmokytus modelius pažangiuose įrenginiuose - pavyzdžiui, išmaniuosiuose telefonuose ir daiktų interneto įrenginiuose. Buvo specialių sprendimų, tokių kaip „TensorFlow Lite“ „TensorFlow“ modeliams ir „TensorRT“ „Nvidia“ įrenginiams, tačiau „SageMaker Neo“ kompiliuoja ir automatiškai optimizuoja „TensorFlow“, „Apache MXNet“, „PyTorch“, ONNX ir „XGBoost“ modelius, kad juos būtų galima įdiegti ARM, „Intel“ ir „Nvidia“ procesoriuose. kaip „Qualcomm“, „Cadence“ ir „Xilinx“ įrenginius.

Anot AWS, „Neo“ gali padvigubinti modelių našumą ir juos pakankamai sumažinti, kad veiktų krašto įtaisuose su ribotu atminties kiekiu.

„SageMaker“ išvadų diegimo parinktys

Kalbant apie skaičiavimą, saugojimą, tinklo perdavimą ir pan., Gamybos išvadų modelių diegimas dažnai sudaro 90 procentų gilaus mokymosi išlaidų, o mokymas - tik 10 procentų išlaidų. AWS siūlo daug būdų, kaip sumažinti išvadų kainą.

Vienas iš jų yra „Elastinė išvada“. AWS teigia, kad „Elastinė išvada“ gali pagreitinti pralaidumą ir sumažinti realiojo laiko išvadų gavimo iš jūsų gilaus mokymosi modelių, kurie yra įdiegti kaip „Amazon SageMaker“ priglobti modeliai, vėlavimą, tačiau tik už dalį GPU egzemplioriaus naudojimo jūsų galutiniame taške išlaidų. Elastinė išvada pagreitina išvadą, leisdama jums pridėti dalinius GPU prie bet kurio „Amazon SageMaker“ egzemplioriaus.

„Elastic Inference“ palaikoma „TensorFlow“, „Apache MXNet“ ir „PyTorch“ versijose, kuriose įgalinta elastinga išvada. Jei norite naudoti bet kurią kitą giluminio mokymosi sistemą, eksportuokite modelį naudodami ONNX, tada importuokite modelį į „MXNet“.

Jei jums reikia daugiau nei 32 TFLOPS greitintuvui, kurį galite gauti iš „Elastic Inference“, galite naudoti EC2 G4 egzempliorius, turinčius „Nvidia T4“ GPU, arba „EC2 Inf1“ egzempliorius, turinčius „AWS Inferentia“ pritaikytus greitintuvo lustus. Jei jums reikia „Inferentia“ lustų greičio, galite naudoti „AWS Neuron SDK“, kad sukompiluotumėte giluminio mokymosi modelį į „Neuron“ vykdomojo failo formatą (NEFF), kurį savo ruožtu įkrauna „Neuron“ vykdymo metu tvarkyklė vykdydama išvadų įvesties užklausas „Inferentia“ traškučiai.

Šiuo metu „Amazon SageMaker Studio“ peržiūra yra pakankamai gera, kad ją būtų galima naudoti mokantis nuo galo iki galo ir gilinantis mokymams: rengiant duomenis, mokant modelius, diegiant modelius ir stebint modelius. Nors vartotojo patirtis vis dar palieka keletą dalykų, tokių kaip geresnis funkcionalumo atradimas, „Amazon SageMaker“ dabar konkuruoja su mašininio mokymosi aplinka, esančia kituose debesyse.

—

Kaina: Nuo 0,0464 iki 34,272 USD už egzemplioriaus valandą skaičiuojant, priklausomai nuo procesorių ir GPU skaičiaus; SSD saugykla: 0,14 USD už GB mėnesį; Duomenų perdavimas: 0,016 USD už GB arba iš jo.

Platforma: Patalpinta „Amazon Web Services“.