2018年1月5日金曜日

囲碁AIのすさまじい進化をプロ棋士が解説、人間の棋譜はもう不要?

米グーグルの囲碁AI「アルファ碁」が人類最強棋士に勝利してから約半年。さらに二つの成果が発表された。人間のデータを学習に使わない「アルファ碁ゼロ」と、碁以外にも汎用化した「アルファゼロ」だ。AIが急速に進化していく中で、人類とAIはどう向き合っていくべきなのか。囲碁AIの現状を、大橋拓文六段が描く。

二つの衝撃的な論文で分かったアルファ碁の急速な進化
 米グーグル傘下のディープマインドが開発した囲碁AI「アルファ碁」の進歩には、心の準備をしていても驚かされる。10月と12月には、衝撃的な二つの論文が立て続けに発表された。

 まず10月に発表されたのは、アルファ碁の新バージョン「アルファ碁ゼロ」である。最初に囲碁のルールをプログラムした後は、人間の棋譜を与えずに、自分自身との対戦による強化学習だけで、従来版のアルファ碁の強さを超えたのだ。

 そして12月に発表された「アルファゼロ」。アルファ碁ゼロに改良を加え、汎用化された。名前から「碁」の文字がなくなったことからも察せられるように、囲碁だけでなく他のゲームもプレイできるようになった。そして2時間の学習で最強の将棋AIに、4時間で最強のチェスAIに、そして8時間で2016年版のアルファ碁に勝つまでになった。

自己対戦で学習する囲碁AI 人間の"お手本"はもはや不要か
 アルファゼロとアルファ碁ゼロの仕組みは似ている。ここでは大きな飛躍となったアルファ碁ゼロと、今までの囲碁AIとの最大の違いを説明しよう。従来の囲碁AIは、まず始めに人間の棋譜データを使って学習していた。人間のデータで囲碁の基礎を学んだ後に、自分自身との対戦による強化学習によって強くなるという流れだ。

 ところがアルファ碁ゼロは、人間の"お手本"を使わない。何も知らないAIが、ひたすらランダムに石を打ち合う自己対局を繰り返し、そこで生成されたデータだけで自ら学んでいくのだ。

 碁盤は19×19=361の着点があり、その変化の数は宇宙に存在する原子の数よりも多いと言われている。初めからランダムな自己対戦だけでは、この膨大な変化の数から有益な手を見つけ出すのは難しいと思われていた。そのため、これまでは学習を軌道に乗せるまでは人間のデータを使っていた。

 しかしアルファ碁ゼロは、メチャクチャな自己対戦からも次第に勝つ手を学び、強くなり続けることができる。教師となる人間のデータを必要とせず、自己生成できることを示し、AIの可能性は大きく広がったといえる。

 では、この流れを真似すれば、誰しもアルファ碁ゼロのような強力な囲碁AIを作れるのだろうか。

 実は、ここに一つの問題がある。アルファ碁ゼロは、学習開始からたった3日で人間の世界トップレベルを上回った。この学習には、グーグルが開発した機械学習に特化した超高性能の半導体「TPU」が2000個使われている。

 複数の囲碁AI開発者によれば、この計算量を市販のコンピュータを使って個人ベースで実行しようとすると数百年、小規模の研究室レベルでも数十年かかると試算されている。ディープマインドの技術力と、グーグルの莫大なリソースが合わさってこその成果と見ることもできる。誰でも簡単に、同じ規模の開発をできるわけではないのだ。

 ところが、世界にはこれを対抗できる猛者がいる。それが、中国のIT大手・テンセントが開発する囲碁AI「絶芸」だ。

 テンセントは、11月に時価総額が米フェイスブックを上回る5230億ドル(約59兆円)に達し、中国のIT企業で初めて時価総額世界ランキングでトップ5入りした。近年の成長は著しく、AIにも巨額の投資をしている。アルファ碁ゼロの論文発表からわずか1ヵ月。テンセントが開発した絶芸の新しいバージョンは、3ヵ月前の絶芸に100%勝つようになった。AIの進歩は"秒針月歩"なのだ。

同じサイズの脳ならば人間の棋譜も学んだアルファ碁の方が強い
 アルファ碁ゼロが、既存のアルファ碁のどのバージョンよりも強くなったことで、「人間のデータが、実は無駄だったのではないか」という議論が登場している。しかし今のところ、それが無駄だったという証拠はない。

 人間の棋譜を使ったアルファ碁の最強バージョンが、アルファ碁マスター(以下マスター)だ。マスターは2017年の正月に世界トップ棋士に60連勝し、一躍有名となった。ディープマインドは対局の勝敗数から強さを数字化する「Eroレーティング」を使い、強さを比較しているのでそれを見てみよう(レーティングの数が大きい程強い)。

 ここでのポイントは、アルファ碁ゼロには二種類あるということだ。初期の20ブロック版と、最終的にマスターを超えた40ブロック版だ。このブロック数とは、人の脳を模した学習用のニューラルネットワークのサイズを示す。ブロックが多い方が、脳みそが大きいとイメージすればいい。

 となると、気になるのはマスターのブロック数だ。アルファ碁の開発者によれば、マスターは20ブロックだと明かされている。つまり、同じ20ブロックという頭脳の条件で比べれば、アルファ碁ゼロよりも、人間のデータを学習初期に使ったマスターの方が強いのである。なお、アルファ碁のニューラルネットワークは最新の「ResNet」を使っており、1ブロックは2層である。より詳しく知りたい方は、拙著『よくわかる囲碁AI大全』(日本棋院)を参照されたい。

世界大会で飛び出した新星囲碁AIの驚愕の3手目
 囲碁AIの性能が急速に上がっていく中、12月9、10日に囲碁AIの世界大会「AI竜星戦」が東京・秋葉原で行われた。参加したのは世界から20チーム。アルファ碁は不参加だったが、多数の囲碁AIが熾烈な戦いを繰り広げた。上位の順位は次のようになった。

 優勝は先ほども紹介した、中国テンセントが開発するFineArt(絶芸)だった。トーナメント形式の本大会の上位陣最終戦は"日中決戦"の様相を呈し、今回は中国勢が全て勝った。特に絶芸は、アルファ碁ゼロの論文から1ヵ月という短期間でそのシステムを取り入れ、大会直前までにさらに実力を向上させた。ただし、絶芸は人間のデータを大量に使って学習している。やはり強い囲碁AIを早く作りたい場合は、人間のデータは有効なのだ。

 一方で、筆者が注目した囲碁AIは、初参加で3位に入賞し、新人賞を獲得した中国の新星、Tianrangだ。なぜ注目したかというと、独特な手で異彩を放ち、そしてその手がアルファ碁ゼロとよく似ていたからだ。

 Tianrangの独特の手を理解するために、まずは、囲碁の基本戦略を簡単に説明することにしよう。図1を見てほしい。

 囲碁は陣地を取り合うゲームだ。黒石の■で囲まれた▲が、黒の陣地である。隅、中央のどちらも16目(▲の陣地の数)である。だが、16目を取るために費やした、外側の黒石を数えてみよう。

 隅の■は8手だが、中央の■は2倍の16手だ。隅の方が、陣地を取るために効率が良いのがお分かりいただけるだろう。囲碁の基本戦略は、まずお互いに四つの隅を占め合うところからはじまるのだ。

 この隅から打ち合うことは"人間の"定石なのだが、Tianrangの序盤は異彩を放っていた。準決勝のDeepZenGo戦のTianrang の驚きの3手目を紹介しよう。

 これまでの常識ならば、通常の黒の3手目と白の4手目では、それぞれAやB近辺のどちらかに打つ。陣地を確保するために効率のよい四隅を優先するためだ。ところがTianrangは、白2の揚げ足をとるように黒3といきなり内側に侵入したのだ。

 盤面の端から数えて3・3の地点に打つ「三々入り」は、以前の記事(「囲碁AIにも『個性』があった!プロ棋士が対局して発見」)でも紹介したようにアルファ碁が序盤に好むことで有名になった手である。ただそれでも、アルファ碁が三々入りを決行するのは、AやBなど隅を打った後だった。

 ところが、アルファ碁ゼロの学習過程では、黒3と即三々入りする傾向が見られた。AやBと隅を打たずに、白が先着した隅に早速侵入する黒3は、よりがめつい戦略と言える。この手順は、自己対戦だけで学習した囲碁AIに顕著な特徴である。

人間らしいAIと人間離れしたAI
 Tianrangの開発者に聞いてみると、予想通り、人間のデータを使わないで学習していた。Tianrangは中国のAIベンチャー企業で、他分野への応用を視野に入れて囲碁AIを開発しているとのことだった。

 それにしても、アルファ碁ゼロがグーグルの巨大なマシンパワーを使って学習したことは、すでに述べたとおりである。論文発表から1ヵ月余りの短期間で、今大会3位に入るまで強くしたTianrangの存在は注目に値するだろう。

 三々入りなど、囲碁AIの打ち方の個性については、前回の記事でも詳しく書いた。筆者は、AI同士の自己対局を重ねて強くなった囲碁AIはこの三々入りを好むのではないかと考えていたが、今回、アルファ碁ゼロの方法を模倣したTianrangがこの三々入りを多用したことで、この仮説を裏付ける例が一つ加わった。一方で、AI竜星戦で優勝・準優勝した絶芸やDeepZenGoなど、人間のデータの比重が大きい囲碁AIでは、早期の三々入りは見られない。

 このように、囲碁AI界では、人間のデータを使い効率よく強くなった、ある程度"人間らしい"棋風の強い囲碁AIと、他への応用ありきで作られた"人間離れした"棋風の囲碁AIが入り乱れ、面白いことが起きている。

 指数関数的に進歩していくAIの世界で、これまでの人間の知識がどの程度有効なのかを見極める、格好の実験になっているとも言えるだろう。人間とは違う棋風の囲碁AIの登場にワクワクしながらも、人間のデータが有効であってほしいという気持ちが筆者には強い。AIの進歩と人間の知恵が合わさることで、さらなるイノベーションが起きることを期待している。

0 件のコメント:

コメントを投稿