論文乱読 その1 Lip-Reading using Neural Networks

Lip-Reading using Newral Networks Priti Yadav, Priyanka Yadav , Vishal Sharma

http://ijcsmc.com/docs/papers/September2014/V3I9201482.pdf

 

・どんなもの?

 音声無しで人が話をしている映像から、なんと言っているのかを推測する。

 いわゆる読唇術ニューラルネットワークを通して再現させるというもの。

 

・先行研究と比べてどこがすごい?

  いままでは画像から唇の輪郭の形を認識し、その時口から発した音で分類していたが、それらをニューラルネットワークを用いて分類させることにした。はやりの人工知能ってやつ。

 

・技術や手法のキモはどこ?

いままでも唇の輪郭などによって分類をおこなっていたが、それだけではなく唇の尖り方なども考慮にいれるために、輝度というものを分類モデル作成のための重みとしたところ。(ニューラルネットワークだから成せてる技なのかな?英語での読み込みが正直足りない。)

 

・どうやって有効だと検証した?

最初は唇の形状情報や輝度情報を別々で識別モデルを作った結果、輝度情報のみのモデルの方がよりよい識別率を示し、形状と輝度情報の両方を用いて作成したモデルでは、わずかではあるが、識別率が上がった。(ニューラルネットを使うことの有効性はきちんと触れられていないがこれでいいのだろうか。)

 

・議論はある?

ある特定の人からこのように識別モデルを作成できたとしても、唇の形状というものが皆同じというわけではないため、それをほかの人に適応させようとすると識別率が低下してしまうという問題。

 

・次に読むべき論文は?

物体間の距離に基づくニューラルネットワーククラスタリング

https://arxiv.org/ftp/cs/papers/0608/0608115.pdf

これかな。

 

とりあえず初回はこんな感じで。

 

f:id:peaceandwhisky:20170417223754j:plain

読唇術、個人的には007でジェームズボンドがパーティーシーンで敵が何を言っているのか探るときのものっていうイメージが強いのですが、現実では、事故や病気で声帯を使えなくなった人や、生まれ持って耳が聞こえない人などのためにあって、よりわかりやすくするために昔から研究がなされていたみたいですね。

 

声帯切除した人は、喉もとに振動音のでるマイクをあてて口から音を出したりする機械がありますが(エージェント・カーターという海外ドラマでこれを使う悪役が出てた)、これからはスマートレンズなんかで声を発さずとも口を動かしただけで相手に伝わる世の中になるのかもしれません。静かにしておかないといけないような場所や、騒音の激しい場所なんかでも意思疎通が可能になりますし、声が届かないような遠い場所であっても映像で口の動きさえわかれば何を言っているのかわかるようになります。

まぁLINEすればいいじゃんって思うかもしれませんが。

 

雑ですがクオリティより今は量だ。英語読むの疲れた。

 

そういえば007 スペクターまだ観てない。

ほんではほんでは