MLops: mašininio mokymosi operacijų augimas

Kad ir kaip sunku duomenų mokslininkams žymėti duomenis ir sukurti tikslius mašininio mokymosi modelius, valdyti modelius gamyboje gali būti dar baisiau. Modelių dreifo pripažinimas, modelių perkvalifikavimas atnaujinant duomenų rinkinius, našumo gerinimas ir pagrindinių technologijų platformų palaikymas yra visa svarbi duomenų mokslo praktika. Be šių disciplinų modeliai gali duoti klaidingų rezultatų, kurie reikšmingai veikia verslą.

Kurti gamybai tinkamus modelius nėra lengva. Remiantis vienu mašininio mokymosi tyrimu, 55 procentai įmonių nebuvo įdiegę modelių gamyboje, o 40 ar daugiau procentų vienam modeliui įdiegti reikia daugiau nei 30 dienų. Sėkmė kelia naujų iššūkių, ir 41 proc. Respondentų pripažįsta mašininio mokymosi modelių versijų kūrimo sunkumus ir atkuriamumą.

Pamoka yra ta, kad įdiegus mašininio mokymosi modelius į gamybą ir naudojant verslo procesus, atsiranda naujų kliūčių.

Modelių valdymas ir operacijos kažkada buvo iššūkiai pažangesnėms duomenų mokslo komandoms. Dabar užduotys apima gamybos mašinų mokymosi modelių stebėjimą dreifui, modelių perkvalifikavimo automatizavimą, įspėjimą, kai dreifas yra reikšmingas, ir atpažįstant, kai modelius reikia atnaujinti. Kai daugiau organizacijų investuoja į mašininį mokymąsi, reikia labiau informuoti apie modelių valdymą ir operacijas.

Geros naujienos yra tokios platformos ir bibliotekos, kaip atviro kodo „MLFlow“ ir DVC, ir „Alteryx“, „Databricks“, „Dataiku“, SAS, „DataRobot“, „ModelOp“ ir kitų komerciniai įrankiai palengvina modelių valdymą ir operacijas duomenų mokslo komandoms. Viešieji debesų tiekėjai taip pat dalijasi praktika, pvz., „MLops“ diegimu su „Azure Machine Learning“.

Yra keletas modelio valdymo ir „devops“ panašumų. Daugelis modelių valdymą ir operacijas vadina MLops ir apibrėžia kaip kultūrą, praktiką ir technologijas, reikalingas mašininio mokymosi modeliams sukurti ir palaikyti.

Suprasti modelio valdymą ir operacijas

Norėdami geriau suprasti modelio valdymą ir operacijas, apsvarstykite programinės įrangos kūrimo praktikos ir mokslinių metodų sujungimą.

Kaip programinės įrangos kūrėjas žinote, kad programos versijos pildymas ir diegimas gamybai nėra trivialus dalykas. Tačiau dar didesnis iššūkis prasideda, kai programa pasiekia gamybą. Galutiniai vartotojai tikisi nuolatinių patobulinimų, o pagrindinę infrastruktūrą, platformas ir bibliotekas reikia pataisyti ir prižiūrėti.

Dabar pereikime prie mokslo pasaulio, kur dėl klausimų kyla kelios hipotezės ir pasikartojantys eksperimentai. Gamtos mokslų klasėje išmokote tvarkyti šių eksperimentų žurnalą ir sekti skirtingų kintamųjų keitimo iš vieno eksperimento į kitą kelionę. Eksperimentuojant gaunami geresni rezultatai, o kelionės dokumentavimas padeda įtikinti bendraamžius, kad ištyrėte visus kintamuosius ir kad rezultatus galima pakartoti.

Duomenų mokslininkai, eksperimentuodami su mašininio mokymosi modeliais, turi įtraukti tiek programinės įrangos kūrimo, tiek mokslinių tyrimų disciplinas. Mašininio mokymosi modeliai yra programinės įrangos kodas, sukurtas tokiomis kalbomis kaip „Python“ ir „R“, sukurtas naudojant „TensorFlow“, „PyTorch“ ar kitas mašininio mokymosi bibliotekas, veikiantis tokiose platformose kaip „Apache Spark“ ir pritaikytas debesų infrastruktūrai. Mašinų mokymosi modelių kūrimas ir palaikymas reikalauja daug eksperimentų ir optimizavimo, o duomenų mokslininkai turi įrodyti savo modelių tikslumą.

Kaip ir programinės įrangos kūrimą, mašininio mokymosi modelius reikia nuolat prižiūrėti ir tobulinti. Dalis to atsiranda išlaikant kodą, bibliotekas, platformas ir infrastruktūrą, tačiau duomenų mokslininkai taip pat turi susirūpinti modelio dreifu. Paprasčiau tariant, modelio nukrypimas įvyksta, kai gaunami nauji duomenys, o mašininio mokymosi modelių teikiamos prognozės, grupės, segmentai ir rekomendacijos skiriasi nuo laukiamų rezultatų.

Sėkmingas modelių valdymas prasideda nuo optimalių modelių kūrimo

Kalbėjau su „Alteryx“ vyriausiuoju duomenų ir analitikos pareigūnu Alanu Jacobsonu apie tai, kaip organizacijoms sekasi ir išplėsti mašininio mokymosi modelio kūrimą. „Siekiant supaprastinti modelių kūrimą, daugumai duomenų mokslininkų pirmasis iššūkis yra užtikrinti tvirtą problemų formulavimą. Daugelis sudėtingų verslo problemų gali būti išspręstos naudojant labai paprastą analizę, tačiau tam pirmiausia reikia susisteminti problemą taip, kad duomenys ir analizė galėtų padėti atsakyti į klausimą. Net kai naudojami sudėtingi modeliai, sudėtingiausia proceso dalis paprastai yra duomenų struktūrizavimas ir tinkamų įvesties kokybės užtikrinimas. “

Sutinku su Džeikobsonu. Per daug duomenų ir technologijų diegimas prasideda nuo prastų problemų pateikimo arba jų nėra, taip pat trūksta laiko, įrankių ir dalykinių žinių, kad būtų užtikrinta tinkama duomenų kokybė. Organizacijos pirmiausia turi užduoti protingus klausimus apie didžiuosius duomenis, investuoti į duomenų saugyklas ir naudoti paslankias duomenų mokslo metodikas, kad pereitų prie sprendimų.

Mašinų mokymosi modelių stebėjimas modelio dreifui

Norint tiksliai valdyti ir stebėti gamybos modelius, labai svarbu tiksliai apibrėžti problemą. Jacobsonas toliau aiškino: „Stebėjimo modeliai yra svarbus procesas, tačiau norint tai padaryti teisingai, reikia gerai suprasti tikslus ir galimą neigiamą poveikį, kurį reikia stebėti. Nors dauguma diskutuoja apie modelio našumo ir pokyčių stebėjimą laikui bėgant, šioje erdvėje svarbiau ir sudėtingiau yra nenumatytų pasekmių analizė “.

Vienas paprastų būdų suprasti modelio nukrypimą ir nenumatytas pasekmes yra apsvarstyti COVID-19 poveikį mašininio mokymosi modeliams, kurie buvo sukurti naudojant mokymo duomenis, buvusius prieš pandemiją. Mašinų mokymosi modeliai, pagrįsti žmogaus elgesiu, natūraliu kalbos apdorojimu, vartotojų paklausos modeliais ar sukčiavimo modeliais, turėjo įtakos pandemijos metu besikeičiančiam elgesiui, kuris klaidina dirbtinio intelekto modelius.

Technologijų tiekėjai išleidžia naujas „MLops“ galimybes, nes daugiau organizacijų įgyja naudos ir brandina savo duomenų mokslo programas. Pavyzdžiui, SAS pristatė funkcijų indėlio indeksą, kuris padeda duomenų mokslininkams įvertinti modelius be tikslinio kintamojo. „Cloudera“ neseniai paskelbė „ML“ stebėjimo paslaugą, kuri fiksuoja techninės veiklos metriką ir stebėjimo modelio prognozes.

„MLops“ taip pat nagrinėja automatizavimą ir bendradarbiavimą

Tarp mašininio mokymosi modelio sukūrimo ir jo stebėjimo gamyboje yra papildomos priemonės, procesai, bendradarbiavimas ir galimybės, leidžiančios išplėsti duomenų mokslo praktiką. Kai kurios automatizavimo ir infrastruktūros praktikos yra analogiškos „devops“ ir apima infrastruktūrą kaip kodą ir CI / CD (nuolatinė integracija / nuolatinis diegimas) mašininio mokymosi modeliams. Kiti apima kūrėjo galimybes, tokias kaip modelių versijos su pagrindiniais mokymo duomenimis ir modelio talpyklos paieška.

Įdomesni MLops aspektai atneša mokslinę metodiką ir bendradarbiavimą duomenų mokslo komandoms. Pvz., „DataRobot“ įgalina čempionų ir varžovų modelį, kuris gali vienu metu paleisti kelis eksperimentinius modelius, kad būtų iššūkis gamybinės versijos tikslumui. SAS nori padėti duomenų mokslininkams pagerinti rinkų spartą ir duomenų kokybę. „Alteryx“ neseniai pristatė „Analytics Hub“, kad padėtų bendradarbiauti ir dalytis duomenų mokslo komandomis.

Visa tai rodo, kad mašininio mokymosi valdymas ir mastelio keitimas reikalauja daug daugiau disciplinos ir praktikos, nei paprasčiausias duomenų mokslininko prašymas užkoduoti ir išbandyti atsitiktinį mišką, k-vidurkį ar konvoliucinį neuroninį tinklą „Python“.

Suprasti modelio valdymą ir operacijas

Sėkmingas modelių valdymas prasideda nuo optimalių modelių kūrimo

Mašinų mokymosi modelių stebėjimas modelio dreifui

„MLops“ taip pat nagrinėja automatizavimą ir bendradarbiavimą

tau taip pat gali patikti