論文乱読その２ ImageNet Classification with Deep Convolutional Neural Networks

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey E,Hinton

f:id:peaceandwhisky:20170418124947p:plain

・どんなもの？

ILVRCという大規模画像認識の競技会にて、2012年に２位に10％以上の差をつけて圧勝した識別モデルについてのもの。今現在のDeeplearningがここまで注目されている主な理由の一つとしてこれがある。それだけ革新的だった。

・先行研究と比べてどこがすごい？

それまで主流であったハンドメイドで特徴量を考えて行う画像認識でなく、特徴量さえも機械に抽出させ、それによって認識を行うDeeplearningを導入した。これによっていままでよりも圧倒的に識別率が上昇した

・技術や手法のキモはどこ？

2006年から同じトロント大学のGeoffrey E. Hinton先生などによってこのNeural Networkの仕組みについて提唱されていた。2010年からも地道に識別率を上げており、そのために「ドロップアウト」という技法を導入している。

・どうやって有効だと検証した？

実際に大会にて、モデルの実行を行い、error rateが15.4%まで下げることに成功した。

・議論はある？

畳みこみニューラルネットワーク(CNN)の層を重ねていくことによって、識別率が上昇する仕組みになっているため、少しでもCNNの層を取り除くと識別率が下がる。

モデルの実行に膨大な計算を必要とするようになる。

膨大な規模のニューラルネットを構築し、多くの改善が可能となったが、人間の視覚システムと同等のレベルのものを作ろうと思うと桁違いの量の長さをもったモデルを構築しなければならないだろう。

今後はビデオの分野でも使えたらいいな。

・次に読むべき論文は？

Going deeper with convolutions　

この論文をもとにGoogleが発展させて新しく発表した論文

いわゆるAlexNetの論文のまとめでした。

詳しい方、「ここの解釈が間違ってますよ。」とかありましたら、どんどん教えていただければありがたいです。あくまでも自分なりのレベルで読んでいるので思いっきり間違っているところとか普通にあると思います。

ほかにもこんな論文があるよとか記事があるよなんかも教えていただけると嬉しいですね。論文から源流を辿っていくのは容易にできるのですが、そこからどういう分岐で発展していっているのかなどが調べにくくて困りますね。

あと、ざっくりとどういうことをやって、何が変わったかは理解できてるのですが、具体的な実装に関しては理解できているわけではないので、これに関してはきちんと読み込んだり、他で解説してるサイトを読んで、頭に入れておこうと思います。

ではでは。一日を有効活用することの大事さが身に沁みます。