„Apache Spark 3.0“ prideda „Nvidia“ GPU palaikymą mašininiam mokymuisi

„Apache Spark“, atmintyje esanti didelių duomenų apdorojimo sistema, taps visiškai pagreitinta, netrukus pasirodysiančiame 3.0 įsikūnijime. Geriausia, kad šiandienos „Spark“ programos gali modifikuoti GPU greitį; esamos „Spark“ API veikia kaip yra.

GPU pagreičio komponentai, kuriuos teikia „Nvidia“, yra skirti papildyti visus „Spark“ programų etapus, įskaitant ETL operacijas, mašininio mokymo mokymą ir išvadų aptarnavimą.

„Nvidia“ „Spark“ indėlis remiasi GPU pagreitintų duomenų mokslo bibliotekų RAPIDS rinkiniu. Daugelis RAPIDS vidinių duomenų struktūrų, pvz., Duomenų rėmeliai, papildo pačią „Spark“, tačiau norint, kad „Spark“ natūraliai naudotų RAPIDS, prireikė beveik ketverių metų darbo.

„Spark 3.0“ spartinimas vyksta ne tik iš GPU pagreičio. „Spark 3.0“ taip pat pelno našumą, nes sumažina duomenų judėjimą į GPU ir iš jo. Kai duomenis reikia perkelti į grupę, „Unified Communication X“ sistema juos perkelia tiesiai iš vieno GPU atminties bloko į kitą su minimaliomis pridėtinėmis sąnaudomis.

Anot „Nvidia“, naudojant „Databricks“ platformoje veikiančią „Spark 3.0“ peržiūros versiją, naudojant GPU pagreitį, septynis kartus pagerėjo našumas, nors išsamios informacijos apie darbo krūvį ir jo duomenų rinkinį nebuvo.

Nepateikta tiksli data, kada bus galima naudotis „Spark 3.0“. Peržiūros leidimus galite atsisiųsti iš „Apache Spark“ projekto svetainės.

tau taip pat gali patikti