2018年7月13日金曜日

少ない学習データでも機械学習の効果を高める、NECが機械学習向け技術を開発

 NEC2018710日、学習用のデータ量が十分に得られていない段階からでも機械学習を活用可能とする技術を開発したと発表した。これらの一部は、NEC-産総研 人工知能連携研究室、国立情報学研究所、科学技術振興機構、統計数理研究所、Max Planck Institute for Intelligent Systemsとのオープンイノベーションによって得られた成果である。

 最近はディープラーニングをはじめとする機械学習技術の利用が進んでいる。ただこれまでの機械学習技術では、その効果を十分に得るには多くの学習データが必要だった。NECが開発した技術は、学習データが少ない場合の機械学習効果を高めるもので、データ収集の初期段階やデータ収集コストが高い環境のように、十分な学習データが得られない状況でも、機械学習技術を活用できるという。

 NECが開発した技術は、大きく分けて次の3つ。

 
各技術の特徴

専門知識を持つ人のノウハウを取り入れて、学習効率の高いデータを能動的に収集して学習する技術

 1つ目は、専門知識を持つ人の物事の因果関係に関するノウハウを数値化して活用する技術。例えば、肥料の成分と植物育成の関係など。これによって学習効率の高いデータを能動的に収集して学習するため、収集データが少なくても十分に学習させられるという。

収集したデータと、実世界で起きている事象の複数シミュレーション結果の類似度に基づいて、パラメーターを自動的に繰り返し修正して正しいパラメーターを推定する技術

 2つ目は、パラメーター値の異なる複数のシミュレーション結果の類似度に基づいてパラメーター値を繰り返し修正し、正しいパラメーター値を推定する技術。複雑なシミュレーションを行うには多数のパラメーターが必要で、実データに合わせてパラメーターを正しく調整する必要がある。だが、実データが少なく、初期パラメーターをどのような値に設定したらよいか見当がつかないと、従来の技術では実データに合うようなパラメーターを推定できず、正確なシミュレーションは難しかった。

機械学習の分析結果に基づく意思決定時に、収集データを学習用と効果評価用に分割した複数パターンで効果を見積もり、少数データの偏りに影響されにくい意思決定を可能にする技術

 3つ目は、収集したデータを学習用と効果評価用に分ける際に、データが偏りにくくする技術。一般に機械学習技術では、収集したデータの一部を効果評価用にし、残りのデータで学習させる。収集したデータが少ないと、学習用と効果評価用に分ける際に偏りが生じてしまい、学習効率が落ちることがあった。NECは、収集したデータを学習用と効果評価用に複数の分割パターンを準備し、それぞれの効果評価結果を平均して、より正確に効果を見積もれるようにした。

 

0 件のコメント:

コメントを投稿