2018年2月28日水曜日

誤差逆伝播法のノート

はじめに

誤差逆伝播法(以下,Backprop)は多層パーセプトロンを使う人にとってお馴染みのアルゴリズムですよね.

いや,これだけ有名なアルゴリズムなのでちょっとネットで探してみれば沢山解説を見つけることが出来るのですが,Backpropを予測誤差の最小化に適用する場合の説明しかみつからないんです.(とはいえ,PRMLをちゃんと読めば全部載ってるんですが)Backpropでできることは何なのか? ということがあまり明らかではありませんでした.

大学の講義や教科書でのBackpropの説明はほとんど,「教師あり学習の文脈で多層パーセプトロンを識別器あるいは関数近似器として訓練する」という文脈でなされます.そのため,初学者はBackpropは教師あり学習のためのアルゴリズムであると誤解してしまうケースが多々あるのではないかと思います.しかし後で説明する通り,Backpropは単に損失関数の微分を効率的に計算する手法の1つであって教師あり学習とか教師なし学習とかは関係ありません

こういう誤解が時にいらぬ時間を使ってしまう場合があります.自分の場合あるとき,多層パーセプトロンでちょっと特殊な関数を目的関数中に正則化項として入れてみようかとか考えた時がありました(最終的に,それは良いパフォーマンスとならなかったのでお蔵入りとなったのですが).

このとき,なにか適当な関数を目的関数に付加して,それが果たしてBackpropで勾配が計算できるの?ということが判断できなかったのです.最終的な目的関数はこれまで知ってた,2乗誤差やクロスエントロピーではありませんでした.これは明らかに,Backpropに対する理解が浅かったためです.

そこで,ここはいっちょう,理解の中途半端だったBackpropをまとめて勉強すっかということでノートをまとめたので,ここにも書くことにしました.少なくとも,勾配を計算したい関数に対してBackpropが適用できるかどうかの判断なんてことに悩むような人が減ることを願います.

最近は自動微分に目的関数を放り込んだら勾配なんかすぐでてくるし,Backpropに慣れ親しんだ人なら当たり前の事実ばかりですが,知識を固定化するため,自分のためと思って書くことにします(意識高い系ということでアウトプット力を重視することにする).

ところで,webだとちゃんと先哲がいてまとめて書いてくれてます.

ニューラルネットワークと深層学習:第二章(Michael Nielsen 著)
http://nnadl-ja.github.io/nnadl_site_ja/chap2.html

実装の話も含めて考えるということであれば,こっちのほうがnotationとかもよく考えられている感じがします.じつは,Backpropで勾配が計算できる場合ってのはここにもちゃんと書いてあります.

勾配を計算できるかどうかって話だけだと同じような話を書いて終わりなので,もうちょっと例とか勾配消失の問題(Vanishing Gradient)とか書くことにしました.

誤りがありましたら,お知らせください.

多層パーセプトロン

多層パーセプトロンの基本構造

まず今回考えるニューラルネットワーク,多層パーセプトロンを導入することから始めます.

多層パーセプトロンの概要は次の図に表されるような形になっています.

黒い四角で囲んだのは,層(layer)と呼ばれる多層パーセプトロンの構成要素を表しています.「多層」という名前の通り,多層パーセプトロンはいくつもの層が重なった形になっています.ここで iijjkk はそれぞれの層内の細胞(オレンジの丸)の番号を表します.以下,それぞれの層を ii 層,jj 層などと呼びます.

ここではネットワークの最終的な出力(図では kk 層)を出力層,データが入力される最初の層(図では ii 層)を入力層,そして入力と出力の間の層(図では jj 層)を隠れ層と呼ぶことにします.図の例では隠れ層が1層だけですが,隠れ層の数を増やしてもそれらは全て隠れ層と呼びます.

各細胞は,自分以外ならどの細胞にもつなげることができます.この例では,ii 層の細胞は jj 層の細胞のみとつながっています.このつながりの強さは重み(weight)と呼ばれる数で決められ,たとえば細胞 ii と細胞 jj との間の重みは wijwij というように表されます.

ところで,図のなかで細胞は常に自らの所属する層とは異なる層に属する細胞とつながっていますが,これは説明の便宜上によるものですBackprop自体は最終的に細胞のネットワークがループのない有向グラフ(Directed Acyclic Graph; DAG)を構成していれば勾配を計算できるので,例えば ii 層の細胞が jj 層の細胞に加え,直接 kk 層の細胞につながっていたりしていてもokです.

ただ,この「層」という均一なまとまりで考えることで行列演算が導入できるので,実装上,より高速にBackpropで勾配計算を行うことが可能となるのです.

細胞の中身と順伝播則

各細胞の中身は以下の図のようになっています

jj 層の細胞を1つ使って内容を説明しましょう.細胞はまず,つながっている矢印の根本にある細胞(ii 層の細胞)のそれぞれから信号 yiyi を受け取り,それぞれの重みをかけてすべて足します.これを vjvj で表しましょう.

vj=iwijyivj=∑iwijyi

これが細胞の左半分の ΣΣ 記号です.つぎに,この vjvj を入力として細胞 jj の出力 yjyjを計算します.

yj=ϕj(vj)yj=ϕj(vj)

ここで ϕ(v)ϕ(v) は活性化関数(activation function)と呼ばれる関数で,各細胞ごとに定義されます(ϕϕ のフォントが図と違うのはご容赦ください).この活性化関数は層ごとに同じ関数を使うのが一般的な定義のされ方です(異なる活性化関数を使う細胞は別の層を構成していると考えればいい).

多層パーセプトロンでは以上の2つの式をつかって,入力から出力を計算します.
かんたんな例題として,最初に示した多層パーセプトロンの図の出力 ykyk を計算してみましょう.

まず,ii 層に与えられる入力を yiyi と表します.
くりかえしになりますが,jj 層それぞれの vjvj  yjyj 

vj=iwijyiyj=ϕj(vj)vj=∑iwijyiyj=ϕj(vj)

で得ます.続く kk 層の出力 ykyk の計算も全く同様です.

vk=jwjkyjyk=ϕk(vk)vk=∑jwjkyjyk=ϕk(vk)

層が増えても,層同士のつながり方が変わっても,出力の計算は同様に「入力側の細胞出力の重み付き和をとって,活性化関数につっこむ」を繰り返す作業に違いはありません.

今の作業をまとめて書くと,こんな形になります.

yk=ϕk(∑jwjkϕj(iwijyi))yk=ϕk(∑jwjkϕj(∑iwijyi))

活性化関数あれこれ

活性化関数は用途に応じていろいろあります.よく使われるものをpickupします.

まずはlogistic関数

ϕ(v)=11+evϕ(v)=11+e−v

またsoftmax関数

ϕ(vi)=evijevjϕ(vi)=evi∑jevj

などもよく使われます.softmax関数は分母に同じ層細胞の活性(v)についての和が入っているため,出力が相互作用します.

つぎにhyperbolic tangent関数

ϕ(v)=tanh(v)ϕ(v)=tanh⁡(v)

深層学習では vv が正のときだけ vv の値自体を返すRectifier Linear Unit (ReLU)

ϕ(v)=max(0,v)ϕ(v)=max(0,v)

がよく用いられます.以上の活性化関数は非線形関数ですが,出力層で

ϕ(v)=vϕ(v)=v

とした恒等関数も活性化関数の定義として考えられます.

まあ,vvで微分できればなんでもいいんですけどね.ただしこういう単純なことはまず先哲に学ぶことが大切です.

logistic関数とsoftmax関数は常に出力が (0,1)(0,1) の領域に入るので,確率と関係させて物事を考えることができます.そのオバケがdeep belief netだったりdeep Boltzmann machineです.

hyperbolic tangent関数や恒等関数は連続値の出力を考えるときに出力層によく用いられます.ReLUは,その関数自体の表現能力は貧弱なので出力層には使われず,隠れ層に用いられます(最近はどうなのか把握していませんが).

有名な話ですが,3層(以上)の細胞層を持つ多層パーセプトロンは隠れ層の細胞が十分おおきな数だけあり,かつ隠れ層の活性化関数が非線形関数であれば任意の関数を近似することが出来る万能近似器です.

誤差逆伝播法:基礎編

前章の多層パーセプトロンの枠組みをもとに,基礎編では誤差逆伝播法(Backprop)の導出と理解を目指します.

損失関数の前提

まず,Backpropで勾配を計算したい関数をここでは 損失関数Loss Function)と呼び,EE で表すことにします.  損失関数を導入することで,実際にBackpropを使用する時とBackpropの自体の理解との間の溝を狭めることができます.

Backpropで勾配が計算できるのは,以下の形の損失関数です.

E=E(y1,...,yK)E=E(y1,...,yK)

ここで KK は出力ユニットの総数を表し,ykyk  kk 番目のユニットの出力を表します.つまり EE はネットワークの出力に対して定義される関数であることが前提となります.

もう少し具体的な例を挙げると,各出力に対する教師信号を tktk として2乗誤差を考えれば E(y1,...,yK)=Kk(tkyk)2/2E(y1,...,yK)=∑kK(tk−yk)2/2 という形になります.各教師信号 tktk  EE のパラメータとみなせます.2乗誤差以外の関数の例は,応用編でいろいろ紹介します.

さて,この損失関数と,Backpropを使って最終的に最小化(最大化)したい目的関数(Objective Function)との関係を説明しておかなくてはなりません.機械学習では,まず何らかの目的関数を考えることからすべての話が始まります.

たいてい,Backpropで最小化しようとする目的関数は損失関数 EE を学習に使うデータの数 NN だけ足して平均した

Etotal=1Nn=1NEnEtotal=1N∑n=1NEn

で表されます(このようにするのは裏で確率の話があるのですが,省略します.PRML1章にこれに当たる内容が書かれています).EnEn  nn 番目のデータに対する損失関数の値を示しています.

nn 番目のデータとして各出力に対する教師信号を tnktkn,ネットワークの入力を xnxn とおいて,EnEn にさっきの2乗誤差 k(tnkyk(xn))2/2∑k(tkn−yk(xn))2/2 を具体的に入れてみると,はっきり見覚えのあるものが出て来ると思います.

この目的関数に対する最適化に勾配法を使い,勾配法でバッチ(NN 個分全部計算してからパラメータを更新する)でやるかミニバッチ(NN′  (N<NN′<N) 分だけ計算して更新する)でやるかといろいろあるわけですが,なんにせよ各データ nn に関してパラメータに関する勾配 En/w∂En/∂w Backpropで得なければならないことには違いありません

そのため,目的関数の勾配を計算すると呼ばずに あくまでBackpropで勾配を計算する目標の関数として損失関数 EE を導入したわけです.

連鎖律(Chain Rule

誤差逆伝播法の前に,微分の連鎖律(chain rule).みなさん覚えていますでしょうか.

たしか,自分も遠き昔に解析学かなんかの講義でやった記憶があります.というか,一変数の話なら高校でもしますよね.でも多変数関数とかのはもう記憶が曖昧だったりします.

そういうことで,Backpropに必要な連鎖律を簡単に書いておきましょう.関数が f(y)f(y)y(w)y(w) で表される一変数関数の場合,この ff  ww に関する微分は

fw=fyyw∂f∂w=∂f∂y∂y∂w

で得られます.次に関数が f(y1,y2,…,yK)f(y1,y2,…,yK) yk(w)yk(w) (k1,2,…,Kk1,2,…,K)で表される多変数関数になっている場合は

fw=k=1Kfykykw∂f∂w=∑k=1K∂f∂yk∂yk∂w

で表されます.今は「なぜこのようになるか?」を考えずに,「とにかく,こういうルールがある」と思って使っていくことに集中しましょう.Backpropはこれら連鎖律をモリモリ使って,損失関数の勾配を全てのパラメータに関して計算します.

それでは以下,多層パーセプトロンでこの損失関数 EE の微分 E/w∂E/∂w がこの連鎖律をもとに,実際にどのようにBackpropで効率的な形で計算されるかを見て行きましょう.

出力層-隠れ層の間の重みに関する損失関数の勾配

多層パーセプトロンの出力を入力層から順に出力層まで計算していったのとは逆に,Backpropでは出力層から入力層に向かって順に勾配を計算していきます.

まず最初に,出力層とそれにつながる隠れ層との間の重みに関する損失関数の微分を計算します.今考えているのは,最初のネットワークの図のうち,以下の図のように表される部分です.

ではさっそく,損失関数 EE  wjkwjk で微分してみましょう.これは

Ewjk=Eykykvkvkwjk∂E∂wjk=∂E∂yk∂yk∂vk∂vk∂wjk

で得られます.wjkwjk につながっている細胞は kk だけなので,一変数関数の微分で表されます.

ここで順伝播の式を思い出してください.出力は

vk=iwjkyjyk=ϕk(vk)vk=∑iwjkyjyk=ϕk(vk)

で計算されるのでした.なので,さっきの微分の2つめと3つめの要素は

ykvk=ϕk(v)v|v=vk =ϕk(vk)vkwjk=yj∂yk∂vk=∂ϕk(v)∂v|v=vk =ϕ′k(vk)∂vk∂wjk=yj

となります.これらを先ほどの微分に代入すると,

Ewjk=Eykϕk(vk)yj∂E∂wjk=∂E∂ykϕ′k(vk)yj

で表されます.

後で理解しやすくするため,δoutkδkout を次のように定義しておきます.

δoutk=Evk=Eykykvk=ϕk(vk)Eykδkout=∂E∂vk=∂E∂yk∂yk∂vk=ϕ′k(vk)∂E∂yk

このように定義すると,最終的に損失関数 EE  wjkwjk に関する微分は

Ewjk=δoutkyj∂E∂wjk=δkoutyj

で表されることになります.このように,微分は出力側の層による要素 δkoutδkout   と,1つ入力に近い側の出力( yjyj)との積で表されます.

隠れ層-隠れ層,隠れ層-入力層の間の重みに関する損失関数の勾配

つぎに,もうひとつ入力側に近い層の間の重みに関して計算します.今度のターゲットは,以下の図の wijwij に関して EE の微分を計算することです.

同じように,EE の微分を計算します.

今度は kk 層の細胞があるので多変数関数の微分となり,kk について和をとらなくてはいけません.いっぱい  がでてきて大変ですが,括弧をつけたり代入しているだけなのでやってることは簡単です.

Ewij=kEykykvkvkyjyjvjvjwij=k(Eykykvkvkyj)yjvjvjwij=k(Eykϕk(vk)wjk)ϕj(vj)yi=k(δoutkwjk)ϕj(vj)yi=(ϕj(vj)kδoutkwjk)yi∂E∂wij=∑k∂E∂yk∂yk∂vk∂vk∂yj∂yj∂vj∂vj∂wij=∑k(∂E∂yk∂yk∂vk∂vk∂yj)∂yj∂vj∂vj∂wij=∑k(∂E∂ykϕ′k(vk)wjk)ϕ′j(vj)yi=∑k(δkoutwjk)ϕ′j(vj)yi=(ϕ′j(vj)∑kδkoutwjk)yi

ここで前の節でしたように,今度は δhiddenjδjhidden を次のように定義しましょう.

δhiddenj=ϕj(vj)kδoutkwjkδjhidden=ϕ′j(vj)∑kδkoutwjk

こうすると,最終的に

Ewij=δhiddenjyi∂E∂wij=δjhiddenyi

とまとめることができます.結局,今回も微分は出力側の層による要素 δhiddenjδjhidden と,1つ入力に近い側の出力yiyi )の積で表されました.

このとき,δhiddenjδjhiddenはどういうことをしているのでしょうか?それを表すのが次の図です.

いま,wijwij (青線)に関しての微分を考えているとすると, kδoutkwjk∑kδkoutwjkは出力層の各細胞から細胞 jj (jj 層中,真ん中の細胞)  δoutkδkout を,wjkwjk (赤線)を伝って逆流(逆伝播)させている操作である事がわかります.

そして

δoutk=ϕk(vk)Eykδkout=ϕ′k(vk)∂E∂yk

δhiddenj=ϕj(vj)kδoutkwjkδjhidden=ϕ′j(vj)∑kδkoutwjk

を比べると,隠れ層-隠れ層間の勾配の計算では,この逆流させて和をとった値でもって,出力層-隠れ層間で扱った Eyk∂E∂yk に当たる擬似的な誤差信号として利用していると解釈することができます.

ではダメ押しで,ii 層の前に更に tt 層があったらどうなるでしょう?このへんになるとモリモリ計算してる感がでてきますが,やってることは同じです(texコマンドがエラいことに.).

Ewti=jkEykykvkvkyjyjvjvjyiyiviviwti=j(∑k(Eykykvkvkyj)yjvjvjyi)yiviviwti=j(∑k(Eykϕk(vk)wjk)ϕj(vj)wij)ϕi(vi)yt=j(∑k(δoutkwjk)ϕj(vj)wij)ϕi(vi)yt=(ϕi(vi)j(ϕj(vj)kδoutkwjk)wij)yt=(ϕi(vi)jδhiddenjwij)yt=δhiddeniyt∂E∂wti=∑j∑k∂E∂yk∂yk∂vk∂vk∂yj∂yj∂vj∂vj∂yi∂yi∂vi∂vi∂wti=∑j(∑k(∂E∂yk∂yk∂vk∂vk∂yj)∂yj∂vj∂vj∂yi)∂yi∂vi∂vi∂wti=∑j(∑k(∂E∂ykϕ′k(vk)wjk)ϕ′j(vj)wij)ϕ′i(vi)yt=∑j(∑k(δkoutwjk)ϕ′j(vj)wij)ϕ′i(vi)yt=(ϕ′i(vi)∑j(ϕ′j(vj)∑kδkoutwjk)wij)yt=(ϕ′i(vi)∑jδjhiddenwij)yt=δihiddenyt

お疲れ様でした.結局,1つ前の層を計算した時と全く同じように

δhiddeni=ϕi(vi)jδhiddenjwijEwti=δhiddeniytδihidden=ϕ′i(vi)∑jδjhiddenwij∂E∂wti=δihiddenyt

という形で書けます.この後,入力層に至るまで全く同じ操作が続きます(書きません).入力層まで勾配が計算できたら,Backpropの作業はおしまいです.

誤差逆伝播法のまとめ

長々と書いてきましたが,Backpropの操作をまとめます.

1. 入力層から,順伝播

vj=iwijyiyj=ϕj(vj)vj=∑iwijyiyj=ϕj(vj)

を計算し,全ての出力 ykyk を計算する.順伝播で計算したすべての層の出力 yy  vvを保存しておく.

2. 出力層から,δoutkδkout を得る.

δoutk=Evk=Eykykvk=ϕk(vk)Eykδkout=∂E∂vk=∂E∂yk∂yk∂vk=ϕ′k(vk)∂E∂yk

3.δoutδout を伝播させ,δhiddenjδjhidden を得る.

δhiddenj=ϕj(vj)kδoutkwjkδjhidden=ϕ′j(vj)∑kδkoutwjk

4.さらに逆伝播させて,δhiddeniδihidden を得る.あとは同様に,入力層の一つ手前の層に到達するまで δδ を逆伝播させる.

δhiddeni=ϕi(vi)jδhiddenjwijδihidden=ϕ′i(vi)∑jδjhiddenwij

3.重み w∗∗w∗∗ に関する全ての勾配を次の式で得る.

Ewjk=δoutkyjEwij=δhiddenjyi∂E∂wjk=δkoutyj∂E∂wij=δjhiddenyi

誤差逆伝播法:応用編

損失関数 EE が変われば

δoutk=Evk=Eykykvk=ϕk(vk)Eykδkout=∂E∂vk=∂E∂yk∂yk∂vk=ϕ′k(vk)∂E∂yk

がかわります.Backpropでいろいろな EE の勾配を計算する時,この最初の δoutkδkout が代わるだけで他の操作は全て同じです

応用編では損失関数 EE に色々な関数を入れてみて,Backpropによる勾配(δoutkδkout)の計算がどう変わるのかを見てみることにします.

2乗誤差

2乗誤差はニューラルネットワークでBackpropを勉強するっていうときに,まず出てくる損失関数ですね.いわずもがな,教師信号 tt に対して,2乗誤差関数 EseEseは次のように与えられます.

Ese=k(tkyk)22Ese=∑k(tk−yk)22

ここで kk はネットワークの出力のユニット番号を表しています.2乗誤差関数は,主にニューラルネットワークが連続値を出力するようなタスクに対して使われます.

連続値を出力とするなら,ϕk(v)=vϕk(v)=v として恒等関数を活性化関数にするのが常套手段でしょう.
すると ϕk(v)=1ϕ′k(v)=1 なので

δoutk=ϕk(vk)Eseyk=1∂∂ykk(tkyk)22=yktkδkout=ϕ′k(vk)∂Ese∂yk=1∂∂yk∑k(tk−yk)22=yk−tk

となります.

クロスエントロピー

クロスエントロピーは物体認識などを行う識別器に対して多く用いられる関数です. 損失関数 EcrossEcross は次のように与えられます.

Ecross=−ktklogyk+(1tk)log(1yk)Ecross=−∑ktklog⁡yk+(1−tk)log⁡(1−yk)

この場合,出力層の活性化関数はすべての出力で yk(0,1)yk(0,1) としておきたいので,logistic関数 ϕk(v)=11+evϕk(v)=11+e−v を使えばいいなと考えます.すると ϕk(v)=ϕk(v)(1ϕk(v))ϕ′k(v)=ϕk(v)(1−ϕk(v)) なので(なんで微分がこうなるかは,いい練習問題なので置いておきます.)

するとこの場合

δoutk=ϕk(vk)Ecrossyk=ϕk(vk)(1ϕk(vk)){tkykyk(1yk)}=yktkδkout=ϕ′k(vk)∂Ecross∂yk=ϕk(vk)(1−ϕk(vk)){−tk−ykyk(1−yk)}=yk−tk

が得られます.最後は yk=ϕk(vk)yk=ϕk(vk) を使いました.面白いことに2乗誤差と同じものが出て来ました!

ところで,おなじように yk(0,1)yk(0,1) とする活性化関数,softmax関数だとどうでしょう?この場合,別の損失関数

Esoftcross=−ktklogykEcrosssoft=−∑ktklog⁡yk

が用いられます.この場合,δoutk=Evkδkout=∂E∂vk の関係で計算したほうが楽です.目的の微分を考える前に,softmax関数は出力間に依存性があるので,損失関数の微分にもこの依存性による項

ykvk={yk(1yk)−ykyk(k=k)(kk)∂yk′∂vk={yk(1−yk)(k′=k)−yk′yk(k′≠k)

が出て来ます.この関係を使えば,

δoutk=Esoftcrossvk=−ktkykykvk=−tk(1yk)+kktkyk=−tk+ykktk=yktkδkout=∂Ecrosssoft∂vk=−∑k′tk′yk′∂yk′∂vk=−tk(1−yk)+∑k′≠ktk′yk=−tk+yk∑k′tk′=yk−tk

で表されます.最後の等号は教師信号の性質 ktk=1∑ktk=1 を利用しました(正解の kkでのみ tk=1tk=1, それ以外は tk=0tk=0).

まとめると,logistic関数と同様に,δoutk=yktkδkout=yk−tk Backpropが計算できます.Wao!とてつもなく都合がいいですね!なんかもう,これら2乗誤差・クロスエントロピーだけ知ってれば後はどうでもいいんじゃないかとすら思えてきます.

いえいえ,Backpropはもっといろいろなことができます.もう少しお付き合いください.

エントロピー

ここでは2乗誤差やクロスエントロピーとは異なる例として,例えば出力の活性化関数をlogistic関数にして,その出力を確率とみなしたエントロピー

Eentropy=H=−kyklogyk+(1yk)log(1yk)Eentropy=H=−∑kyklog⁡yk+(1−yk)log⁡(1−yk)

を考えてみましょう.教師信号がありませんが, Backpropの勾配計算に教師信号の有る無しは関係ありません.なので,別にBackpropは教師あり学習とか教師なし学習とかは関係ないのです.目標の関数があり,これを微分する.それが全てです.

では同じように δoutkδkout を計算しましょう.logistic関数の微分は ϕk(v)=ϕk(v)(1ϕk(v))ϕk′(v)=ϕk(v)(1−ϕk(v)) なので,

δoutk=ϕk(vk)Hyk=ϕk(vk)(1ϕk(vk))log(1ykyk)δkout=ϕ′k(vk)∂H∂yk=ϕk(vk)(1−ϕk(vk))log⁡(1−ykyk)

で出力のエントロピーに関する微分がBackpropで計算できます.

エントロピーといえばHelmholtz自由エネルギーの片割れという印象が強いので,変分Bayes的なことを多層パーセプトロンでしようというときに何らかの形で出て来るかもしれませんね(妄想).

出力に対する勾配

他に有用そうだと思われる例(私見)は,ネットワークの出力ユニットが1つ(K=1)だけの場合において,この出力の勾配が考えられます.

Eoutput=yEoutput=y

簡単なのでちゃっちゃとしちゃいましょう.いまは出力が1つだけなので

δout=yv=ϕ(v)δout=∂y∂v=ϕ′(v)

でを得ます.出力の活性化関数に合わせてlogistic関数なり,恒等関数なりの活性化関数の微分を使えば,勾配をBackpropで計算することができます.

その他の損失関数

以上の例の他に,今のところどこで役に立つかわかりませんが

E=kykE=∏kyk

E=kkykykE=∑k∑k′ykyk′

みたいな関数も全く同様の方法でモリモリ勾配の計算ができます.先の例では,たまたま何らかの関数 ff を導入して kf(yk)∑kf(yk) のような形が多く出てきましたが,これにとらわれる必要はありません.また,E(y1,…,yK)E(y1,…,yK) で表される,異なる2種類以上の損失関数の和をとってもやはり E(y1,…,yK)E(y1,…,yK) の形で表されるので,同様に計算できます.

ネットワークのJacobian

Backpropを使うわけではありませんが,Backpropと非常に似た方法で入力 yin=xyin=xが与えられた時の多層パーセプトロンのJacobian

Δin,out=youtyin|yin=xΔin,out=∂yout∂yin|yin=x

が計算できます.youtyout は多層パーセプトロンの出力,yinyin は入力です.ここでは再び,以下の図で表される多層パーセプトロンでJacobianを計算してみることにします.

まず,出力に関して

Δkk=ykyk=1Δkk=∂yk∂yk=1

を得ます.

では次の層について計算してみると

Δjk=ykyj=ykykykvkvkyj=Δkkϕk(vk)wjkΔjk=∂yk∂yj=∂yk∂yk∂yk∂vk∂vk∂yj=Δkkϕk′(vk)wjk

を得ます.ΔkkΔkk が伝播して ΔjkΔjk が計算されていることがわかります.では, ii 層について計算してみましょう.これは

Δik=ykyi=j(ykykykvkvkyj)yjvjvjyi=jΔjkϕj(vj)wijΔik=∂yk∂yi=∑j(∂yk∂yk∂yk∂vk∂vk∂yj)∂yj∂vj∂vj∂yi=∑jΔjkϕj′(vj)wij

で得ることができます.やはり,ΔjkΔjk が伝播して ΔikΔik が計算されます.3層のこの例ではこれで計算は完了ですが,これ以降,4層でも全く同様に計算できて,ii 層の前に入力層 tt があるとすれば

Δtk=ykyt=i(∑j(ykykykvkvkyj)yjvjvjyi)yiviviyt=i(∑jΔjkϕj(vj)wij)ϕi(vi)wti=iΔikϕi(vi)wtiΔtk=∂yk∂yt=∑i(∑j(∂yk∂yk∂yk∂vk∂vk∂yj)∂yj∂vj∂vj∂yi)∂yi∂vi∂vi∂yt=∑i(∑jΔjkϕj′(vj)wij)ϕi′(vi)wti=∑iΔikϕi′(vi)wti

4層以上の場合も,これと同様に逆伝播してJacobianが計算できます.このJacobianの計算には全ての細胞の vv が必要となるため,実際の計算では一度順伝播を計算して vv を全て得る必要があります.

勾配消失とRectifier Linear Unit

勾配消失(Vanishing-Gradient problem)は,古典的な多層ニューラルネットワークで層を増やしていくと,損失関数のパラメータ勾配が入力層に辿り着くまでに劇的にゼロに近づいてしまうという現象です.

この問題は深刻で,勾配消失はニューラルネットワーク業界の二度目の冬(1回目:Minsky & Papertの「Perceptrons」)をもたらした現象ではないかと思います.ここでは,この勾配消失がどのように現れてくるか,そして何故ReLUがその解決となるのかを直感的な形で理解することが目的です.

ここでは,ttiijjkk の4つの細胞層からなる多層パーセプトロンを考えます.

この多層パーセプトロンで wtiwti に関する損失関数 EE の微分を,先にBackpropの導出でしたように連鎖律で書き出します.必要な関係式を先に書いておきます.

vj=iwijyiyj=ϕ(vj)ykvk=ϕ(vk)vkwjk=yjδoutk=ϕk(vk)Eykvj=∑iwijyiyj=ϕ(vj)∂yk∂vk=ϕ′(vk)∂vk∂wjk=yjδkout=ϕ′k(vk)∂E∂yk

活性関数は簡単のため,出力層(kk 層)以外はすべて同じ ϕ(v)ϕ(v) を使っていることとしましょう.すると,微分は以下のように書くことができます.

Ewti=jkEykykvkvkyjyjvjvjyiyiviviwti=jkEykϕ(vk)wjkϕ(vj)wijϕ(vi)yt=jkδoutk(ϕ(vj)ϕ(vi))(wjkwij)yt∂E∂wti=∑j∑k∂E∂yk∂yk∂vk∂vk∂yj∂yj∂vj∂vj∂yi∂yi∂vi∂vi∂wti=∑j∑k∂E∂ykϕ′(vk)wjkϕ′(vj)wijϕ′(vi)yt=∑j∑kδkout(ϕ′(vj)ϕ′(vi))(wjkwij)yt

総和記号の中身をみると,「活性化関数の微分の積」で表される項と「重みの積」で表される要素が出て来ることがわかります.層が増えると,この2つの積の要素がどんどん長くなっていきます.そしてそれに δoutkδkout  今考えている入力層の ytyt が掛け合わされています.

さて,勾配消失で目に見えて問題となるのは,「活性化関数の微分の積」です.

例えばlogistic関数 ϕ(v)=11+evϕ(v)=11+e−v の微分は先に登場したように ϕ(v)=ϕ(v)(1ϕ(v))ϕ′(v)=ϕ(v)(1−ϕ(v)) となりますが,これを横軸に vv,縦軸に ϕ(v)ϕ′(v) としてプロットしたのが以下の図の赤線になります.

logistic関数の微分は v=0v=0 で最大値を取り,その値は ϕ(0)=0.25ϕ′(0)=0.25 です.なので,先の活性化関数の微分の積はどう頑張っても

ϕ(vj)ϕ(vi)≤0.252ϕ′(vj)ϕ′(vi)≤0.252

となってしまうのは明らかです.小さな数が掛けられることになります.層が増えると,さらに指数関数的に小さくなっていきます.一方,出力層付近の勾配計算では掛けられる ϕϕ′ の数が少ないので,このような小さな数をかけられることはありません.

そのため,単純に最急降下法で学習係数を大きくするようなことをすると,今度は出力層では学習係数が大きすぎてうまく動かないという泥沼にハマるのです.(とはいえ,ここでさらに総和記号があるので単純な話では無いのですが,少なくともこの例で勾配が消えていく様子は納得できます.)

LeCunたちは1998年の論文「Efficient Backprop」の中で「hyperbolic tangentの方がlogisticより良いよ」という事を言っています.hyperbolic tangent関数 ϕ(v)=tanh(v)ϕ(v)=tanh⁡(v) の微分ϕ(v)ϕ(v)′は上の図の青線で表されています.

hyperbolic tangentの微分係数はlogistic関数と同様に v=0v=0 で最大値を取り, 今度は ϕ(0)=1ϕ′(0)=1 となります. 勾配の最大値が,logistic関数とちがってより大きくなってますね.この活性化関数がより良い性能を出す理由が,少なくとも部分的に理解できます.

ただし全ての vv  v=0v=0 というのは意味が無いので,hyperbolic tangent ϕ(v)<1ϕ′(v)<1 となるのが大抵の状況でしょう.非常に深いネットワークだと,やはり勾配が消失してしまう問題は残されたままです.

rectifier linear unit (ReLU)Krizhevskyたちが導入した新しい活性化関数です.先に示したとおり,このReLU ϕ(v)=max(v,0)ϕ(v)=max(v,0) で定義され,vv がゼロ以上で vv 自身を返す非線形関数になっています.

ReLUの微分は v>0v>0 のとき ϕ(v)=1ϕ′(v)=1 で, v<0v<0 のとき ϕ(v)=0ϕ′(v)=0 です.v=0v=0 のとき,微分は定義されません.いまは v=0v=0 となった時の細かい話は置いておきましょう.このとき,Backpropによる勾配は

Ewti={j{jfire}k{kfire}δoutk(wjkwij)yt0(vi>0)(vi<0)∂E∂wti={∑j{jfire}∑k{kfire}δkout(wjkwij)yt(vi>0)0(vi<0)

で表されます.jfirejfire  jj 層で発火している(vj>0vj>0)細胞の集合です.ReLUを使ったBackpropで特徴的なのは,各層に発火している細胞がある限り,逆伝播において消失が起きないという点です.これは直感的には,各層が十分に広いネットワークにすれば毎回各層でどれかの細胞が発火してくれそうなもんで,そのような構造をもったネットワークは毎回入力層まで勾配消失が起こらない多層パーセプトロンになっていると考えられます.

ReLUを隠れ層に使った多層パーセプトロンで Ewti∂E∂wti を計算する様子が以下の図です.

この図では赤い細胞が発火した細胞 v>0v>0,青い細胞が発火していない細胞 v<0v<0を表しています.今は青線の重み wtiwti に関する勾配を計算しているところを表しています.各出力細胞から δoutkδkout 勾配消失なしに伝播し,発火している細胞のみを通って wtiwti につながっている細胞 ii に流れ込みます(赤矢印).

以上の説明が,ReLuがいかにして勾配消失を防ぐかの直感的な理解に繋がってくれていたらと思います.じつは思い出していただくと,活性化関数の微分だけではなくて,勾配は重みの積にも依存するのでした.これもまた深層学習では問題になりそうなものですが,今のところ大きな問題とはなっていないように見えます(これからわかりませんが).

将来,重みの絶対値を1付近に拘束するような必要が出てくるかもしれませんが(妄想),現在はL2ノルムでの正則化を入れておくくらいで上手くいっているようです.

参考文献

最後に,参考文献ほかおすすめを書いておきます.貧乏なのであまり専門書が買えないのが悲しいところですが,身銭を切って買ったいくつかの本や論文を紹介します.

・パターン認識と機械学習 C.M.Bishop, 丸善)
言わずと知れた名著,PRML日本語訳の上巻.ニューラルネットワークについても載っていて,ネットワークのHessian2回微分)の計算や,Hessianとベクトルの積を高速に計算する方法などがのテクニックもまとまっている.

Neural Networks and Learning MachinesSimon S. Haykin, Pearson; 3rd
ガッツリとニューラルネットワーク全般(多層パーセプトロン,Boltzmann machine, Hopfield network, リカレントニューラルネットワーク,強化学習+関数近似 etc.)が書かれた本.洋書.Deep Learningが流行るちょっとだけ前の本.理論とかも豊富.

・学習とニューラルネットワーク (熊沢 逸夫,森北出版)
たしか自分が大昔学部生だった頃,書店でさがして一番わかりやすそうな誤差逆伝播法の説明を書いていたと記憶する本.あくまで入門向け.

Efficient Backprop (LeCun, et al.1998)
LeCun
先生が誤差逆伝播法について説明している論文.入力の白色化とか,多層パーセプトロンを使うときのいろいろなトリックがまとめられている.ちょっと古いけど,おそらく今,実用上使われているものはこの時代の技術がほとんどなので参考に.
http://cseweb.ucsd.edu/classes/wi08/cse253/Handouts/lecun-98b.pdf

 

0 件のコメント:

コメントを投稿