2018年10月18日木曜日

「インターネット」で勝てなかった日本が、「深層学習」で勝つには 東大・松尾豊氏

 NVIDIA201891314日に「GTC Japan 2018」を開催した。本稿では、東京大学の松尾豊氏の講演「人工知能をビジネスに実装するとき、今やるべきこと」の内容を要約してお伝えする。

あらためて学ぶ、深層学習の原理とは

 
東京大学 特任准教授、日本ディープラーニング協会 理事長の松尾豊氏

 東京大学 特任准教授で、日本ディープラーニング協会理事長の松尾豊氏は、深層学習をビジネスで活用する際、「深層学習がどのような仕組みなのか理解しないと、深層学習を利用したビジネスを前に進めるのは難しい」と述べ、深層学習の原理を「深い関数を利用した最小二乗法だ」と説明する。

 最小二乗法は、統計学で用いられる「回帰分析」などにおいて、係数を推定する方法だ。「例えばMicrosoft Excelでは、xを気温、yを冷たい飲料の売り上げとしたときの散布図に近似直線(y=ax+b)を引ける。近似直線を引くための位置(係数a,b)を決定付けるアプローチが、最小二乗法だ」

 松尾氏は、「深層学習とは、最小二乗法の巨大なお化けのようなものだ」と紹介し、画像の各画素xから「猫(y1)」か「猫でないか(y0)」を出力する猫関数を例として取り上げた。「100x100の画像で猫関数を作成する場合は、1万個もの変数が必要になる。深層学習の場合は、中間的な関数を介して、これを3層、4層と深くする。こうすることで、少ないパラメーターで表現力を高め、効率的に学習できる」

猫関数について説明するスライド(左、右)

 この深さが重要な理由については、料理に例えて説明する。「料理の素材が一層だとして、1回しか手を加えない場合は、単純な料理しかできない。しかし、複数の階層で手を加えることができれば、料理にバリエーションが生まれる。深層学習にも同じことがいえる」

 
深層学習の階層構造を料理に例えた

 深層学習の原理を説明した松尾氏は、深層学習をビジネスに活用しようとする際には、「散布図のように、xyを定義する必要がある」と考察する。

 「最近、『人工知能で政治を』という話を耳にしたが、『xyが定義できますか』と問いたい。xyが定義できなければ、データを集めてもプロジェクトはうまくいかない。画像をxとしてyを犬や猫にすれば画像認識、xを英語の文としてyを日本語の文とすれば翻訳、というように、xyを何にするかを考えるべきだ」

 
xyを簡単に定義できるものほど「深層学習で成果を上げやすい」という

松尾氏が現在注目する2つの研究

 2012年、Googleが深層学習を用いた猫画像認識に関する論文を発表してから、6年間で深層学習に関する研究が「急激に進んだ」と松尾氏は振り返る。2018年現在は、画像認識におけるエラー率は3%台で、「人間のスコアを大きく上回り、画像認識による物体検出ができやすい環境になった」と深層学習の現状を分析する。

 「深層学習の精度向上で、画像認識や、映像からの行動認識を実現することが可能になった。一方、人間が脳で無意識に行う運動や行動のための予測は実現できていない」

 松尾氏によれば、2018年現在、深層学習を用いて現実世界を理解、予測できるような手法はないという。しかし、「研究が進めば、深層学習が現実世界を理解、予測できるようになるのではないか」と予測し、その実現に向けた研究として「World Models」や「Generative Query NetworkGQN)」に注目しているそうだ。

 World Modelsは、外界から受け取った運動や行動などの刺激を基に、将来の外界世界の構造をシミュレートするという研究だ。GQNは、複数の視点における画像のペアを基に、別の視点の画像を生成する。この2つの研究が発展することで、「ボールを投げればどうなるか、土を掘ればどうなるか、といった現実空間の情報を、深層学習で予測できるようになる」と松尾氏は考察する。

「深層学習は汎用目的技術(GPT)の仲間入りを果たす」

 「現在、ロボットと深層学習を組み合わせた事例が増えている」と言う松尾氏は、その事例の一つとしてAI(人工知能)を研究する非営利団体「OpenAI」の腕型ロボット「Dactyl」を紹介した。

 Dactylは、指が動く速度やキューブの重さなど、さまざまなパラメーターをランダム化したシミュレーター環境において、強化学習アルゴリズムを用いた学習でモデルを生成する。その結果、人間のような指の動きを実現させているという。松尾氏は、こうした事例を「眼を持った機械の登場」と表現する。

 加えて、20183月にMicrosoftが中国語から英語への翻訳精度を人間と変わらないレベルにまで高めたという記事や、特定の人物の表情や目の動きを深層学習で再現する「Deep Video Portraits」を取り上げ、深層学習の研究の発展について予測する。

 

 「深層学習とロボットが融合し、『眼を持った機械』が登場してきている。今後は、深層学習による翻訳が実用レベルに達する可能性も出てきた。日本の労働市場が、現在の欧州と米国のような環境になれば、単純な事務職からクリエイティブな職業までも深層学習が使われる時代がやってくる」

 松尾氏はこの予測を基に、「深層学習が人類の汎用目的技術(GPT)の一つになる」と考察する。汎用目的技術とは、インターネットやトランジスタ、車軸の発明といった、社会全体に影響を及ぼした技術のことだ。

 松尾氏は「現在の企業の時価総額ランキング上位企業には、『インターネット』を利用したビジネスを展開した企業が多い。20年後、『深層学習』が汎用目的技術の一つになっていれば、『深層学習事業』を展開する企業がランキング上位に入っていてもおかしくない」と予想。講演最後には、ものづくりに強い日本企業に対する思いを述べて講演を終えた。

 
世界の時価総額上位企業ランキング

 「日本はインターネットというGPTには不向きだった。しかし、深層学習においては『機械を持った眼』のように、ものづくりと深層学習を組み合わせることで、日本のものづくりの強みを生かせられる。今から20年後に深層学習がどうなっているのか、先を読んで考えたプレイヤーが勝つので、深層学習を学ぶと同時に、深層学習が社会をどう変えるのか、死ぬほど考え抜いていってほしい」

 

0 件のコメント:

コメントを投稿