Programavimas

„Oxford“ projektas: „Microsoft“ teikia API intelektualioms programoms

Praėjusį pavasarį „Microsoft“ paskelbė „Project Oxford“ - SDK ir API rinkinį, leidžiantį kūrėjams kurti „intelektualias“ programas, nemokant mašininio mokymosi. Naudodamiesi Oksfordo veido, kalbos ir regėjimo API, kūrėjai gali sukurti programas, atpažįstančias veido bruožus, analizuojančius vaizdus arba atlikančius kalbos į tekstą ar iš kalbos į kalbą vertimus.

Interviu su „Large“ redaktoriumi Paulu Krilliu „Microsoft“ Ryanas Galgonas, vyresnysis programų vadovas, atsakingas už „Project Oxford“ platformą ir technologijas, kalbėjo apie Oksfordo tikslus, pabrėždamas jo potencialą daiktų internete.

: Kas kuria Oksfordo programas? Kam skirtas Oksfordas?

Galgonas: Turėjome daugybę žmonių, kurie prisijungė prie API paslaugų. Tikslius skaičius [nėra], į kuriuos galiu patekti, bet mes sukūrėme daug „Azure“ paskyrų, daug prisiregistravome per „Microsoft Azure Marketplace“. Žmonės spardo paslaugų padangas, taip pat siekia pasiekti daugiau paslaugų. Šiuo metu jie visi kas mėnesį siūlomi kaip ribota nemokama pakopa, ir mes stengiamės tai atverti, nes gavome atsiliepimų apie tai, kokius pokyčius kūrėjai nori atlikti API ir modeliuose.

Visa tai yra keli platformos ta prasme, kad tai yra interneto paslaugų rinkinys, prie kurio pirmiausia galima prisijungti per REST API sąsają. Viskas, kas gali susisiekti su svetaine, gali paskambinti į šias papildomas paslaugas. Mes teikiame SDK rinkinį, kuris apima tuos REST skambučius ir palengvina jų naudojimą klientams, tokiems kaip „Android“ ir „Windows“ bei „iOS“. Viskas, kas gali atlikti HTTP žiniatinklio skambutį, gali paskambinti į tarnybas.

: Ar numatote, kad Oksfordas pirmiausia naudojamas mobiliuosiuose įrenginiuose ar „Windows“ darbalaukiuose?

Galgonas: Tai visų pirma bus tikriausiai mobiliųjų ir daiktų interneto įrenginių derinys. Ta prasme, kad kai žmonės naudojasi staliniais kompiuteriais, matau, kad didžioji dauguma naudojimo atvejų jūs sėdite ten, turite klaviatūrą ir pelę ir tokio tipo įvestį. Bet kai turite mobilųjį telefoną, fiksuojate nuotraukas, vaizdo įrašus ir garsą. Tai yra daug lengviau ir natūralu tai užfiksuoti mažu prietaisu. [Bus naudojama „Oxford“ technologija], kai vyraujantis įvesties atvejis bus natūralūs duomenys, ne tik skaičiai, bet ir tam tikri vaizdiniai ar garso duomenys.

: Papasakokite mums daugiau apie šias API. Ką gali padaryti kūrėjai?

Galgonas: Kadangi norime pasiekti kuo daugiau kūrėjų, iš tiesų įdėjome daug darbo, kad juos būtų labai lengva naudoti, pavyzdžiui, dėl veido aptikimo ar kompiuterio matymo, vaizdų kategorizavimo. Šiuos dalykus moko ir modeliavo žmonės, turintys ilgametę mokslinių tyrimų patirtį tose vietose, ir mes nenorime, kad kūrėjai turėtų tapti kompiuterinės vizijos ekspertais. Mes iš tikrųjų bandėme pasakyti: „Pažvelkime, sukursime geriausią modelį, kurį galime sukurti, padarysime jį jums prieinamą ir padarysime prieinamą per tris kodo eilutes.“

Negaliu kalbėti apie tai, kaip išoriniai partneriai žiūri į Oksfordo API naudojimą, tačiau pagrindiniai, prie kurių dirbo „Microsoft“, kuriuos galbūt matėte, pirmoji buvo „How-old.net“ svetainė, skirta prognozuoti amžių ir lyčių. Tada mes turėjome „TwinsorNot.net“, kuriai buvo duotos dvi nuotraukos, kuo panašūs šie žmonės? Tai buvo geri „Face“ API pavyzdžiai. Paskutinis, kuriame buvo naudojama „Face API“ ir kai kurios „Speech“ API, buvo „Windows 10“ IoT projektas, kuriame buvo parašyta keletas tinklaraščio įrašų apie tai, kur galėjai atrakinti duris veidu ir kalbėtis su durimis - arba spyna, tuo atveju. Manau, kad tai yra trys pavyzdžiai, kuriuos „Microsoft“ dirbo, norėdama parodyti, kad čia yra tam tikros rūšies programa, kurią galima sukurti ir bendrinti su kitais žmonėmis.

: Kas verčia Oksfordą naudoti šias REST API?

Galgonas: Pagrindas yra mašinoje išmokti modeliai, kuriuos sukūrėme tokiems dalykams, kaip kalbos į tekstą. Nesvarbu, ar prieigą pasiekiate per „REST“ API, ar naudodamiesi kalbomis į tekstą, galite prieiti ir per interneto lizdo jungtį - magija ar galingas dalykas yra šis modelis, galintis priimti garsų kalbą ir kalbą kad tai yra ir išversti tai į teksto formatą. Tai yra pagrindinis dalykas, dėl kurio Oksfordas pažymi visumą.

: Kodėl „Oxford“ projektas yra atskiras nuo „Azure Machine Learning“ projekto?

Galgonas: „Azure Machine Learning“ sistemoje vienas pagrindinių komponentų yra „Azure Machine Learning Studio“, kur žmonės gali ateiti su savo duomenimis, sukurti eksperimentą, mokyti savo modelį ir tada priglobti tą modelį. Su „Oxford“ tai yra iš anksto sukurtas „Microsoft“ modelis, kurį mes tobulinsime ateityje, ir leidome žmonėms naudotis šiuo modeliu per šias REST sąsajas.

: Kokio tipo įmonės verslą naudojate „Oxford Project“? Koks yra Oksfordo programų verslo atvejis?

Galgonas: Šiuo metu nėra jokių konkrečių partnerių, apie kuriuos tikrai galėčiau kalbėti, bet manau, kad vienas iš atvejų, kai matėme daug susidomėjimo, kai asmeniškai matau daug naudojimo atvejų, yra dalykas, susijęs su daiktų internetu. prijungtus prietaisus. Kai žiūriu, kaip žmonės žiūri į daiktų interneto įrenginių kūrimą, jūs neturite klaviatūros ir pelės ir dažnai net tikro monitoriaus, susieto su visais šiais įrenginiais, tačiau ten lengva priklijuoti mikrofoną ir gana lengva taip pat ten priklijuoti fotoaparatą. Jei sujungsite kažką panašaus į kalbos API ir LUIS („Language Understanding Intelligent Service“), tada įrenginį, kuriame yra tik mikrofonas ir nėra jokio kito įvesties būdo, dabar galite su juo kalbėtis, pasakyti, ką norite daryti, išversti į struktūrizuotų veiksmų rinkinį ir pasinaudokite tuo galinėje dalyje. Manau, kad čia pamatysime daugybę Oksfordo API naudojimo atvejų.

: Paminėjote „iOS“ ir „Android“. Koks buvo tų platformų įsisavinimas?

Galgonas: Padarydami RESTful API ir suteikdami jiems šias pakuotes, mes tikrai matėme, kaip žmonės atsisiunčia tuos įvyniojimus ir jais naudojasi. Bet dienos pabaigoje pasitaiko: „Čia yra„ Java “kalbos įvyniojimas aplink žiniatinklio skambintoją“, „Čia yra„ Objective-C “apgaubimas aplink interneto skambutį“. Mes neturime daug žinių apie tai, koks yra tikslus prietaisas, paskambinantis.

: Ar Oksfordas bus atviro kodo?

Galgonas: Mes neplanuojame pagrindinių modelių atviro šaltinio, ir neturiu apie ką pasidalinti, nes laikui bėgant modelius nuolat atnaujiname. Pateikiamus SDK, nes jie yra tų REST skambučių paketai, yra tas šaltinio kodas, kurį šiandien galima atsisiųsti visiems iš svetainės. Bet vėlgi, tai yra paslėptas daiktų paketas ir mes iš tikrųjų matėme žmonių MSDN forumuose, kurie aplink jį pateikė kodo fragmentus įvairiomis kalbomis.

: Kaip „Microsoft“ planuoja užsidirbti pinigų iš Oksfordo?

Galgonas: „Marketplace“ esančios API šiandien yra nemokamos ribotam naudojimui, todėl jūs gaunate 5000 API operacijų per mėnesį. Tai vienintelis planas, kurį turime dabar. Ateityje pateiksime mokamus planus, pagrįstus API naudojimu.

: Kas bus toliau Oksforde?

Galgonas: Iš kur einame, iš tikrųjų yra trys sritys. Pirmoji sritis yra apie esamų modelių atnaujinimą ir tobulinimą. Gavome kūrėjų atsiliepimų [apie tai, kaip] viena iš API gali puikiai neveikti naudojant tam tikrų tipų vaizdus. Ten patobulinsime pagrindinį modelį.

Vienas iš kitų dalykų, kuriuos mes padarysime, bus vis išplėsti iš modelių grąžintų funkcijų skaičių. Šiandien „Face API“ suteikia jums numatomą amžių ir numatomą lytį. Mes matėme daug prašymų atpažinti kitą vaizdų turinį.

Trečia sritis - išplėsime turimų API portfelį. Šiandien turime keturis, bet tikrai nebaigėme. Mes nemanome, kad visa erdvė, kurią norime suteikti, ar įrankiai, kuriuos norime suteikti, dar nėra pilna. Mes nuolat papildysime naujas API, kurios gali apdoroti skirtingus duomenų tipus arba gali suteikti labai skirtingų natūralių duomenų supratimo būdų nei tai, ką mes suteikiame šiandien.

$config[zx-auto] not found$config[zx-overlay] not found