「人の身体動作からの感情推定とキャラクタの感情豊かな動作生成 — 人間性豊かな遠隔コミュニケーションの実現に向けて」
Emotion Estimation from Human Body Movements and Generation of Emotionally Rich Movements of Characters – Toward the Realization of Humanity-rich Telecommunication(2)

北村 喜文
東北大学
電気通信研究所
北村 喜文
藤原 健
國立中正大學 心理學系/
東北大学 電気通信研究所
藤原 健
幸村 琢
香港大学/エジンバラ大学/
東北大学 電気通信研究所
幸村 琢

3. キャラクタの感情豊かなモーションの自動生成

 我々の研究プロジェクトでは図2の右半分に当たる研究として,キャラクタの感情豊かなモーションの自動生成の研究も並行して進めている.身体動作生成モデルに感情やスタイルの情報を組み込んだベクトルを加えることにより,その感情の雰囲気をもった身体動作に変換するようなモデルを開発し,さらに,スタイルは連続的なベクトルや正規分布となるような正則化によって生成時にスタイルを連続的に変化させることにより,様々なスタイルを生成できるようにするのが目標である.これまでの研究例を簡単に紹介する.

音声データとテキストを入力することによる表情豊かなアニメーションを生成:
音声データを顔の動きに回帰した場合,顔の上面は平均化されて動かなくなる.ここではテキストのBart 特徴量を算出し,それを入力に加えることにより,音声データから豊かな表情の顔の動きを生成することに成功した6)

トランスフォーマを用いた自己回帰型モデルを用いて音声データから顔の動作:
データを生成するモデルとして,トランスフォーマを用いることにより,口の動作がより正確に生成できるようになった.また,会話の内容に応じて豊かな表情が生成できるようになった.具体的には、/b/、 /m/、 /p/ の音を発し終わる際に口が閉じられた後に次の音が発せられるようになった7).加えて,トランスフォーマを用いた自己回帰型モデルを用いて音声データから体の動作データを生成するモデルを提案した.トランスフォーマを用いることにより,音声と体の動きの同期が良くとれ,また意味を含んだ動作を行うことが確認できた.

周期自動符号化器(Periodic Autoencoder)を用いた動作生成:
周期性を考慮した新たな特徴量を算出するためのアーキテクチャ及び手法を提案し,音楽に合わせたダンスや,様々なスタイルの歩行動作を生成することに成功した8)

連続的なベクトルを用いた様々なスタイルの歩行動作の生成:
100種類ほどの歩行動作をキャプチャし,それらを用いて歩行のスタイルを表す連続ベクトルを算出する手法を提案した.またそれを我々のグループで提案している歩行動作生成モデルと組み合わせることにより,それらの歩行動作のスタイルの内挿を行うことに成功した9)

4. 今後の展開

 動作ユニットの活動と感情表出の関係が対応付けられ,図3にイメージを示すような動作ユニットAIが完成した後には,キャラクタやアバタを介して特定の感情を表現する身体の動きをゼロから出力することが可能になる.または,あるモーションデータやそれに類するセンサデータ(例えば,映像・音声や心拍など)が得られた後に,これを基にして特定の感情を表現するように出力することもできる.動作ユニットAI は,キャラクタが単純に人の動作を模した表現を出力するに留まっていた従来手法を超えて,より豊かな感情の表現を実現することに役立つ.図2にはオンライン遠隔ライブイベントへの応用例を記載しているが,この制作・運営工程を簡素にして,クオリティを維持しつつ,コスト軽減やロバスト性向上を図ることが期待できる.さらに,最近普及しつつあるメタバース等でも,参加者の感情に対応するアバタの豊かな動作生成にも利用できると考えられる.これらにより,遠隔での対人コミュニケーションの場面でも,不足する情報を補って伝送するなどの手段を講じることができ,コミュニケーションを豊かにすることができ,ひいては社会を豊かにしてゆくことに少しでも貢献できることを,我々は願っている.
 なお,本稿に記載の内容の一部は,国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)委託業務(JPNP21004)で得られたものである.



参考文献

  1. Fan, Y, Lin, Z, Saito, J, Wang, W, Komura, T, FaceFormer: Speech-Driven 3D Facial Animation with Transformers, Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 18770-18780, 2022.
  2. Fan, Y, Lin, Z, Saito, J, Wang, W, Komura, T: Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation, Proceedings of the ACM in Computer Graphics and Interactive Techniques, 5(1) (Proceedings of I3D), Article No. 16, 2022. https://doi.org/10.1145/3522615
  3. Starke, S, Mason, I, Komura, T: DeepPhase: Periodic Autoencoders for Learning Motion Phase Manifolds, ACM Transactions on Graphics, 41(4), Article No. 136, 2022. (SIGGRAPH Best Paper Award).
    https://doi.org/10.1145/3528223.3530178
  4. Mason, I, Starke, S, Komura, T: Real-Time Style Modelling of Human Locomotion via Feature-Wise Transformations and Local Motion Phases, Proceedings of the ACM in Computer Graphics and Interactive Techniques, 5(1) (Proceedings of I3D), 2022. https://doi.org/10.1145/3522618


【著者紹介】

北村 喜文(きたむら よしふみ)
東北大学 電気通信研究所 教授

■略歴
東北大学 電気通信研究所 教授.博士(工学).バーチャルリアリティやコンピュータヒューマンインタラクションの研究に従事.1987 年大阪大学大学院基礎工学研究科博士前期課程修了.同年キヤノン(株),1992年ATR 通信システム研究所,1997 年大阪大学大学院工学研究科/情報科学研究科 助教授/准教授.2010 年より現職.2018 年より副所長.

藤原 健(ふじわら けん)
國立中正大學 心理學系 助理教授

■略歴
國立中正大學 心理學系 助理教授 / 東北大学 電気通信研究所 非常勤講師.博士(人間科学).社会心理学,対人コミュニケーションの研究に従事.2013 年大阪大学大学院人間科学研究科博士後期課程修了. 同年京都大学経営管理大学院研究員,2014 年大阪経済大学講師,2019 年カリフォルニア大学サンタバーバラ校客員研究員を経て2021 年より現職.

幸村 琢(こうむら たく)
香港大学 コンピュータサイエンス学科 教授

■略歴
香港大学 コンピュータサイエンス学科 教授 / エジンバラ大学 情報学部 教授 / 東北大学 電気通信研究所 客員教授.博士(情報科学).キャラクタアニメーションの研究に従事.2000年東京大学大学院情報理工学系研究科博士後期課程修了.同年理化学研究所研究員,2002年香港城市大学Assistant Professor,2006年エジンバラ大学Lecturer, Readerを経て2019年よりProfessor.2020年より現職.