Iterative Alignment Network for Continuous Sign Language Recognition

#290

summarized by : Masaki Miyamoto

Junfu Pu, Wengang Zhou, Houqiang Li

どんな論文か？

この論文では，弱教師付き連続手話認識のための反復最適化による同調ネットワークを提案する．このフレームワークは2つのモジュールから成り立っており，1つは特徴学習のための3D-ResNet，もう一つはシーケンスモデリングのためのCTCを持つエンコーダ・デコーダネットワークである．それぞれのネットワークは別の方法でそれぞれ最適化される．

新規性

・連続手話認識のための2つのネットワークを統合した統一ディープラーニングアーキテクチャ・手話ビデオの時間的セグメント化を示す，ＬＳＴＭデコーダとＣＴＣデコーダとの間のソフト動的タイムワーピング（ソフトＤＴＷ）アラインメント制約・特徴抽出および符号器 - 復号器ネットワークをワーピング経路による整列提案と交互に訓練するための反復最適化手法

結果

提案手法により，既知のシーンセンテンスでは認識精度は0.93，BLEU-1は0.98，CIDErは9.342，ROUGE-Lは0.981,METEORは0.713という結果になる．未知では，認識精度は0.67，BLEU-1は0.724，CIDErは3.946，ROUGE-Lは0.716,METEORは0.383という結果になる．これは既存の手法と比べて，全て上回っており，本手法の有効性を示した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．