論文乱読その３ Going Deeper with Convolutions

Going Deeper with Convolutions

Christian Szegedy , Wei Liu , Yangqing Jia , Pierre Sermanet, Scott Reed , Dragomir Anguelov , Dumitru Erhan , Vincent Vanhoucke , Andrew Rabinovich Google Inc. University of North Carolina, Chapel Hill University of Michigan, Ann Arbor Magic Leap Inc

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf

f:id:peaceandwhisky:20170419231941p:plain

・どんなもの？

ImageNet Large-Scale Visual Recognition Challenge 2014(ILSVRC14)にて優勝したモデル。昨日読んだAlexNetの発展版。Googleが作成したモデルであり、名前をGoogLeNetという。この分野の初期モデルLeNetをもじっている。

・先行研究と比べてどこがすごい？

昨日読んだAlexNetの論文では、畳みこみ層を深くすれば深くするほど画像識別の精度が上がると論じていたが、それ以降の改善モデルでは層の深さをどれだけ浅くして、同じかそれ以上の精度を出そうとしている。つまり計算処理を少なくすむようにしている。

・技術や手法のキモはどこ？

正直そこまで詳しく読み込むことはできなかったが、AlexNetに比べて、パラメータ数が多くなり、スキップが組み込まれていたり、畳みこみ層も並列的な処理が多くなっていた。そこに意味があると思うのだけれど、どう具体的にそれらが作用しているかがよくわからなかった。わかっている人のほうが少ないのかも。

・どうやって有効だと検証した？

とにかく精度が出たんだ！ブラックボックスで悪いか！！

・議論はある？

技術的な解説が多くあったのだが、要約してざっくりと読み込むことができなかった。今後の課題としてまたきちんと読みたいと思う。もう少しきちんと知識を身に着けてから読めば違う世界が見えてくるだろう。

GoogLeNetと呼ばれてるモデルではあるけれど、正式名称が「Inception」らしく、クリストファー・ノーランの映画を想起させられた。Deepの世界は夢の中の夢の中という意味か？面白い。

論文とは関係がないのですが、今日、配属先の研究室紹介、専攻の懇親会、就活セミナーなんかのいろんなイベントがあり、いろいろと先輩や教授とお話をした結果、すぐに興味のある研究室が決まり、ゼミや個人でやってる勉強会に参加させてもらえそうな運びとなりました。正式な研究室決定は年末とかなんだけど、早めにいろいろと勉強させてもらえそう。

自分が楽しくて、興味がある分野でとんとんと話が進みそうで、これからが楽しみな限りです。

忙しいけれど、充実した日々を過ごしています。