チームスポーツ解析ーグループ行動認識

研究内容

グループ行動認識

本研究の方針としては上の図のように個人行動認識グルーピングシーン全体の特徴量の3つの情報を使って, グループ行動認識を行います.この情報の中で重要な役割を果たしている個人行動認識とグルーピングについて説明します.

個人行動認識

個人行動認識とはトリミングされた動画において,それがどの行動なのか与えられた行動のラベルから選択するものです. 個人行動認識を行うことによってシーン内に映っている選手がそれぞれどのような行動をしているかを識別することができるため,グループ行動認識においては かなり有益な情報になることは明らかです.今回の個人行動認識のラベルは「blocking」,「digging」,「falling」,「moving」,「setting」,「spiking」 ,「standing」,「waiting」の計8種類です.

グループ行動認識

この個人行動認識の流れは上の図によって示します.はじめに全体画像から個々の選手を取り出すため,物体検出とトラッキングを行います. この物体検出とはフレームごとに選手がどこにいるのかをSSD(Single Shot multibox Detector)という手法を使って取り出します.位置を取り出すだけなら, この物体検出でいいと思われるかもしれません.しかし,これではフレーム単体の選手の位置を得ることはできますが,あるフレームにおいて得られた選手がその 次のフレームで得られたどの選手と対応しているのかはわかっていません.このフレーム間においての選手の対応づけを行っているのが,トラッキングです. このトラッキングはその前のフレームで得られた検出ボックスと次のボックスの IoUによって決まります. この物体検出とトラッキングにより個人行動の検出画像を得ることができます.この画像は一連のフレームにおいてアスペクト比が一定になっており,また 検出ボックス以外の部分の背景は黒塗りする処理を行っています.

そしてこの得られた画像を独立に畳込みネットワークに入れていきます. このネットワークはResNet152を使用しています.これによって 物体検出とトラッキングで得られた選手は全て個人行動認識することができます.

グルーピング

グループ行動認識をするにおいて,何が重要か考えてみましょう.そのシーンが何をしているのかを理解するのならすべての選手が何をしているのかを理解すれば いいと考えると思います.しかし,私たち人間は試合映像を見るとき全ての選手が何をしているのか正確にわかっているのでしょうか?ほとんどの人がボール付近 の選手や特徴的な動きをしている選手を見ることで,そのシーンは何が起こっているのか判断していると思います.私たち人間は,自然にそのシーンにおいて重要 な役割を果たしている選手を見つけることでそのシーンを理解しようとしています.このグルーピングはこういった人間が自然と行っている 「多くの選手の中から有意な選手の選択」をニューラルネットワークで実現することをモチベーションに行っています.

グループ行動認識

グルーピングの手法の流れは上の図のようになっています.グルーピングはRGB画像と選手位置が示されている画像(入力画像)、有意な選手のみが ヒートマップによって強調されている画像(出力画像)を得る手法です.入力で用いている選手位置が示された画像は個人行動認識にも使用したSSDと トラッキングで得られた選手位置を使って作成しています.このニューラルネットワークで期待する処理としては「すべての選手が映っているRGB画像と 選手位置の情報を与えることで、特徴量と位置情報を考慮することで有意的な選手の選択を行う」ことです.

このように画像上に直接的に有意な選手を表現することのメリットとして2つあります.1つ目は画像に直接表現することで選手らがどのような位置、関係性、行動なのかを 画像1枚で得ることができます.他手法では位置関係を離散的な情報によって表現していますが、本研究の手法はより位置関係において柔軟な情報として得ることができます. 2つ目はオクルージョン(選手と選手の重なり)に強くなるということです.他の手法では位置特定(本研究のSSDとトラッキングにあたる)をした結果から選手間の関係性 を表現しています.しかし、現状の物体検出の技術ではオクルージョンによって隠れた選手を正確に検出することはできません.また,本研究で扱っている バレーボールなどのチームスポーツではオクルージョンによって隠れた選手が重要な意味を持っていることは多々あります.本研究の手法であるグルーピングは このようにオクルージョンによって隠れてしまった選手も表現することができます.