#290
summarized by : Masaki Miyamoto
Iterative Alignment Network for Continuous Sign Language Recognition

どんな論文か?

この論文では,弱教師付き連続手話認識のための反復最適化による同調ネットワークを提案する.このフレームワークは2つのモジュールから成り立っており,1つは特徴学習のための3D-ResNet,もう一つはシーケンスモデリングのためのCTCを持つエンコーダ・デコーダネットワークである.それぞれのネットワークは別の方法でそれぞれ最適化される.
placeholder

新規性

・連続手話認識のための2つのネットワークを統合した統一ディープラーニングアーキテクチャ ・手話ビデオの時間的セグメント化を示す,LSTMデコーダとCTCデコーダとの間のソフト動的タイムワーピング(ソフトDTW)アラインメント制約 ・特徴抽出および符号器 - 復号器ネットワークをワーピング経路による整列提案と交互に訓練するための反復最適化手法

結果

提案手法により,既知のシーンセンテンスでは認識精度は0.93,BLEU-1は0.98,CIDErは9.342,ROUGE-Lは0.981,METEORは0.713という結果になる. 未知では,認識精度は0.67,BLEU-1は0.724,CIDErは3.946,ROUGE-Lは0.716,METEORは0.383という結果になる.これは既存の手法と比べて,全て上回っており,本手法の有効性を示した.

その他(なぜ通ったか?等)