2018年10月15日月曜日

NVIDIA、大規模データ分析や機械学習向けGPUアクセラレーションプラットフォーム「RAPIDS」を公開

 NVIDIA20181010日(現地時間)、ドイツで開催された「GPU Technology Conference Europe 2018」において、データサイエンスや機械学習向けのオープンソースソフトウェア(OSS)のGPUアクセラレーションプラットフォーム「RAPIDS」を公開した。

 RAPIDSは、GPUアクセラレーションを用いるアナリティクスや機械学習向けに一連のOSSソースライブラリを提供するもの。今後はデータ可視化もサポートするという。NVIDIAのエンジニアと主要なOSSコントリビューターがこの2年間、密接に協力して開発してきた成果だ。

 RAPIDSにより、企業は高速に膨大なデータを分析し、ビジネスに関する的確な予測を行えるという。データサイエンティストは、クレジットカード詐欺の予想や小売り在庫の予測、顧客の購入行動の理解など、複雑なビジネス課題への取り組みにおいて、パフォーマンスを高めることができるとした。

 既にさまざまな業種の先進的なIT活用企業が、NVIDIAGPUアクセラレーションプラットフォームとRAPIDSのアーリーアダプターとなっているという。さらに世界の主要なIT企業が、新しいシステム、データサイエンスプラットフォーム、ソフトウェアソリューションを通じてRAPIDSをサポートしている。その中にはHewlett Packard EnterpriseHPE)、IBMOracleCisco SystemsDell EMCLenovoNERSCNetAppPure StorageSAPSAS Instituteなどが含まれる。データアナリティクスにおけるGPUの重要性に関するコンセンサスが広がりつつあることを反映したものだという。

機械学習を50倍に加速すると主張

 NVIDIAは、アナリストの推計として、データサイエンスや機械学習向けのサーバ市場規模を年間200億ドル、科学的解析やディープラーニングと合わせたハイパフォーマンスコンピューティング(HPC)の市場規模を約360億ドルと説明している。

 NVIDIAの創業者兼CEOのジェンスン・フアン氏は、次のように述べている。

 「データアナリティクスと機械学習は、これまでHPC市場でアクセラレーションの対象となっていなかった最大の分野だ。だが、今後は世界の巨大産業で、機械学習で作成されたアルゴリズムが膨大なサーバで実行され、市場や環境の複雑なパターンを検知して、そこからはじき出される迅速かつ正確な予測が収益に直接影響するようになる」

 「GPUアクセラレーションプラットフォームであるRAPIDSは、GPU向け並列処理ライブラリ群『CUDA』とそのグローバルエコシステムをベースに、OSSコミュニティーとの密接な協力によって生み出された。最も一般的なデータサイエンスライブラリとワークフローとのシームレスな統合により、RAPIDSは機械学習をスピードアップする。われわれはこれまでディープラーニングで行ってきたように、機械学習を加速させていく」

 RAPIDSは、データサイエンティストがGPUでデータ分析パイプライン全体を実行する際に必要なツールを初めて提供するという。

 RAPIDSの初期ベンチマークでは、「NVIDIA DGX-2」システムで機械学習アルゴリズム「XGBoost」を用いてトレーニングを行い、CPUのみのシステムと比べて50倍の速度を記録した。データサイエンティストは、データセットのサイズによって一般に数時間から数日間かかっていたトレーニング時間を、数分間から数時間に短縮できることになる。

OSSコミュニティーとの連携をうたう

 RAPIDSは、「Apache Arrow」「pandas」「scikit-learn」といった一般的なOSSプロジェクトをベースに、最も一般的なPythonのデータ分析ツールチェーンにGPUアクセラレーションを加えることで実現したもの。

 
RAPIDSがうたうGPUを用いたデータサイエンスの加速(出典:RAPIDS

 NVIDIARAPIDSへ機械学習ライブラリや機能を追加するために、「naconda」「BlazingDB」「Databricks」「Quansight」「scikit-learn」といったOSSエコシステムのコントリビューターの他、Ursa Labsの代表で、Apache Arrowpandas、さらには急速に拡充が進むPythonのデータサイエンスライブラリを生んだウェス・マッキニー氏の協力を得ている。

 「GPUアクセラレーションに基づいたデータサイエンスプラットフォームであるRAPIDSは、Apache Arrowで強化された次世代コンピュテーショナルエコシステムだ。NVIDIAUrsa Labsの協力により、コアとなるArrowライブラリのイノベーションが加速し、アナリティクスと機能エンジニアリングワークロードのパフォーマンスに大きな飛躍をもたらすだろう」(マッキニー氏)

 RAPIDSOSSライブラリスイートは、専用サイトからすぐに利用できる。コードはApacheライセンスで公開されている。RAPIDSのコンテナバージョンは、「NVIDIA GPU Cloud」のコンテナレジストリで2018108日週から提供を開始する予定だ。

 

0 件のコメント:

コメントを投稿