理化学研究所 情報統合本部 ガーディアンロボットプロジェクト 川西 康友
4. 多種のセンサを用いた環境認識技術
電力・計算性能の関係で,高度な環境認識処理をロボットに搭載したPCで処理することは難しい.そこで,ロボットに搭載したPCではデータの圧縮のみ行い,外部のサーバへとWi-Fi経由でデータを送信して処理するように実装した.図 4に示す認識機能により,何の物体がどこにあり,「誰がどこで何を話し,何をしているか」を3次元的に理解することができる.以下,詳細について述べる.
図 4 周囲環境認識システム
4.1 視覚センサによる周囲認識技術
視覚(RGB-D)センサからは2次元のカラー画像および深度画像が得られる.この情報をもとに,我々は,物体追跡,人物認識,人物姿勢推定,指差し対象推定,物体間の関係(シーングラフ)推定を統合した周囲環境認識システムを構築している.
物体認識はYOLOv8をベースとした物体検出器を用いて物体の名前と2次元画像中における領域を得て,各物体をBoT-SORT[4]により物体する.また,深度画像を参照してカメラから各物体までの距離を算出することにより,カメラ座標系での3次元位置を求める.そしてロボット(Keigan Ali)に搭載したLiDARによって算出された自己位置推定結果をもとに,世界座標系での物体位置を算出することで,「どこに何があるか」を3次元的に理解することができる.
近年の物体検出技術は,検出したい対象カテゴリの集合を定義し,それらを含むデータとアノテーションの組を大量に用意して学習することにより,精度良く実現できるようになってきた.しかし,実際に事前に用意できる物体カテゴリ(既知物体)は実世界に存在する物体カテゴリ数のうちのほんの一部であり,実世界には学習データに含まれない物体カテゴリ(未知物体)が多数存在する.通常,学習データに含まれない物体カテゴリに属する画像中の物体は無視されるか,学習データ中のどれかの物体カテゴリであると誤って検出されてしまう.我々は,そのような誤りを避けるため,学習データに含まれていない物体は未知であると出力する,Open-set認識技術を導入している.
また,物体の名前と位置だけではなく,本システムでは「机の上にコップが乗っている」,「人がパソコンを持っている」など物体同士の関係も推定する.これら物体同士の関係は「主語・述語・目的語」の組で表現される一方,各物体を頂点,各関係を辺とみることによりグラフ構造で表現できることから,物体同士の関係を表したデータはシーングラフと呼ばれており,それを推定することはシーングラフ推定と呼ばれている.我々は,シーングラフ推定をOpen-set認識へと拡張した,Open-setシーングラフ推定技術[5]を提案しており,「机の上に何か知らないもの(unknown)が乗っている」といった出力を可能としている(図 5).
図 5 Open-setシーングラフ
人の認識については,RGB-Dデータをもとに3次元姿勢推定することによって各人物の姿勢を推定し,頭部周辺から切り出した画像をもとに顔認識・顔向き認識をすることで,「誰が,どの様な姿勢で,どちらを向いているか」を認識する.また,人の意図を認識する一環として,人の指差し対象を推定する技術も実装している.指差し対象を推定するためには,人がどの方向を指さしているのか(指差し方向)の推定と,その先にある物体の特定が必要である.指差し方向の推定手法として,単一視点の映像から人の指差し方向を3次元ベクトルとして推定する手法[6]を提案している.それによって得られる3次元ベクトルと,人から各物体への3次元ベクトルとがなす角度をもとに,指差し対象を推定する手法を実装した.
4.2 聴覚センサによる音声認識技術
ロボットが人と対話するためには,周囲にいるどの人が何を話しているのかを理解する必要がある.そこで,16chマイクロホンアレイを用いて音源分離[7]を行い,人物追跡と音源分離結果を統合して,人物の方向と音源方向が一致した場合に,その人物が発話していると判断する.そして,その方向の音声強調をして他の音声を抑制したうえで,Whisper-large-v2[8]による音声認識を適用する.これにより,「どの人が何を話しているか」を認識できる.
認識結果の例
簡単ではあるが,図 6に,周囲環境結果の例を載せる.左上はシーングラフ推定結果の例であり,図中にクラス名は書かれていないが,関係を表す主語・述語・目的語がそれぞれ青枠,緑矢印,赤枠で表現されている.例えば,「人がシャツを着ている」などが表現されている.
図 6 環境認識結果の例
左下は人物認識結果であり,検出した人物の姿勢と,認識した人物の名前が表示されている.ここで,既知のどの人物にもマッチしなかった人物はunknownとして表示されている.右側は,自己位置推定結果であり,ロボットの位置が,正しく環境地図内で推定できている.
5. おわりに
理化学研究所ガーディアンロボットプロジェクトにおいて開発したロボットのひとつである,自律移動型対話ロボットIndyについて紹介した.Indyは,人に寄り添い,さりげなく支援することを目指したロボットである.本記事では,特に,主体的に行動を決定して動作するシステム及び,周囲環境認識に関して解説をした.
現状のロボットは,まだ限定的なシナリオを選択しながら動作することしか出来ない.将来的には,人と同じレベルで周囲の環境や状況を理解し,素晴らしい気遣いで人の生活がスムーズになるよう支援してくれるようなロボットが一般家庭に普及し,我々の生活に寄り添って生活を豊かにしてくれることを期待する.
参考文献
N. Aharon, R. Orfaig, B.-Z. Bobrovsky
BoT-SORT: Robust Associations Multi-Pedestrian Tracking
arXiv preprint arXiv:2206.14651, 2022.
M. Sonogashira, M. Iiyama, Y. Kawanishi
Towards Open-Set Scene Graph Generation with Unknown Objects
IEEE Access, vol.10, pp.11574-11583, 2022.
S. Nakamura, Y. Kawanishi, S. Nobuhara, K. Nishino
DeePoint: Visual Pointing Recognition and Direction Estimation
The 19th International Conference on Computer Vision, pp. 20577-20587, 2023.
C.T. Ishi, C. Liu, J. Even, N. Hagita. (2016). “Hear- ing support system using environment sensor net- work,” IEEE/RSJ International Conference on Intel- ligent Robots and Systems, pp. 1275-1280, Oct., 2016.
A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, I. Sutskever, “Robust Speech Recognition via Large-scale Weak Supervision.” International Con- ference on Machine Learning. PMLR, 2023.
【著者紹介】
川西 康友(かわにし やすとも)
国立研究開発法人理化学研究所
情報統合本部 ガーディアンロボットプロジェクト
感覚データ認識研究チーム チームリーダー
■著者略歴
2006年 京都大学工学部情報学科 卒業
2008年 京都大学大学院情報学研究科 修士課程修了
2012年 京都大学大学院情報学研究科 博士課程修了(京都大学博士(情報学))
2012年 京都大学学術情報メディアセンター 特定研究員
2014年 名古屋大学未来社会創造機構特任 助教
2015年 名古屋大学大学院情報科学研究科 助教
2017年 名古屋大学大学院情報学研究科 助教
2020年 名古屋大学大学院情報学研究科 講師
2021年 国立研究開発法人理化学研究所 チームリーダー
2021年 名古屋大学 客員准教授
2022年 奈良先端科学技術大学院大学 客員教授
現在に至る.
ロボットによる周囲環境認識及び,人物追跡・属性認識・行動認識などの人物画像処理に関する研究に従事.特に,認識器の学習データに含まれていない,認識器にとっての未知物体の認識に関する研究に注力している.
産業技術総合研究所 関西センター産学官連携推進室 連携主査 村井 健介
2.2 フォトニクスによるロボットの高度化について
以下に、フォトニクスによるロボットの高度化に向けて、筆者が研究開発してきた「プラズモニックデバイス」を例に紹介する。金属中には自由電子があり、金属イオンと自由電子とが混在するプラズマ状態の一種であるといえる。自由電子によるプラズマ振動が金属の光物性を決めている。金・銀・銅・アルミなど導電性の高い金属材料の表面付近では、特殊な現象(プラズモン現象)が起こり、表面プラズモン共鳴(SPR; Surface Plasmon Resonance)や局在プラズモン共鳴(LPR; Localized Plasmon Resonance)によって、特定の波長の光が共鳴吸収される(図2,3, 表1参照)。
図2 表面プラズモン共鳴(SPR)の分散特性(波数kと周波数ωの関係)とプリズムによる共鳴条件
図3 全反射とM構造における表面プラズモン共鳴(SPR)の反射スペクトルと入射角と偏光依存性(黒は吸収、白は反射)
表1 表面プラズモン共鳴(SPR)の諸特性
材質
金(Au)、銀(Ag)、銅(Cu)、アルミ(Al)
伝播速度
光速に近い
減衰距離
5μm程度
寿命
数10fs程度
共鳴特性
反射率0.1%以下(-30dB以上)
角度幅
1°以下
波長幅
50 nm程度
特に、表面プラズモン共鳴(SPR)13) では、金属薄膜への波長・入射角・偏光に敏感な共鳴吸収を示す。この吸収を制御すれば光センサに応用できることになるが、光によるSPRの励起はプリズムなどを使った全反射条件下で起こるためデバイス化にプリズムが必要であるという課題があった。しかし、多層膜構造に対するマトリックス法による反射スペクトルを予測した結果、デバイス構造をサンドイッチ構造(MIM構造、あるいはMGM構造)にすることで、プリズムが不要なデバイスが設計可能であることを見出している。14) (図4-7、表2参照)
図4 マトリックス法による多層膜構造におけるスペクトル反射率R
図5 M構造、MI構造、MIM構造における反射スペクトルの入射角と偏光依存性(黒は吸収+透過、白は反射)
図6 MGM構造(上)とMIM構造(下)における反射スペクトルの入射角と偏光依存性(黒は吸収+透過、白は反射)
表2 MIM構造とMGM構造の比較
名称
MIM構造
MGM構造
構造
Metal-Insulator-Metal
Metal-Gap-Metal
基板
2(または1)
2
M層(M1, M2)
銀(Ag)
銀(Ag)
I層・G層
I層(シリコーンゴムなど誘電体)
G層(空間)
保持方法
積層
両端固定
感度
△(I層次第)
○(G層:空間)
小型化
○
×(ギャップ保持)
図7 MIM構造とMGM構造の模式図
共鳴する波長は、金属薄膜にサンドイッチされた媒質の屈折率や厚さによって制御できる(図8参照)。具体的には、屈折率や変位に数%の変化を与えることができればセンシングが可能となる。例えば、電気光学効果による屈折率を変化させて、光波長通信に応用することができる。あるいは、圧力や振動によって厚さを変化させて、変位センサや振動センサとすることができる。このデバイスは、反射光のスペクトル変化をセンシングすることになるので、電力供給が不要のデバイスとすることも期待できる。無電源のセンシングデバイスは、トンネルなどインフラ点検における歪みセンシングや打音検査など、長期的な変化をモニタリングする用途に向いている。
図8 MIM構造における誘電体層(I層)の膜厚と吸収スペクトルの関係
ここで紹介したプラズモニックデバイスによって可能となる光通信や光センシングがロボットの高度化に貢献することを期待している。
3.ロボットフォトニクスに向けた人材育成
日本機会学会が編集した教科書「ロボティクス」15) には、ロボットには技術的側面と社会的側面があることが述べられている。技術的側面(シーズ)から観るとロボット工学は多くの工学分野が関係する統合型技術であるが、社会的側面(ニーズ)から観ると役に立つロボットはアプリケーションによって決まる要求仕様や作業特性によって実現できる。統合システムであるロボットの普及のためには、ロボット技術を通じて社会課題を解決する人材の育成が不可欠である。ロボット技術者には協調性や共創力が求められる。米国が提唱したSTEM教育(S:Science、 T:Technology、 E:Engineering、 M:Mathematics)にArtを加えたSTEAM教育は、世界的に推進されている共創的な取り組みである。日本でも、専⾨領域の枠にとらわれない多様な「知」が集うことで、「総合知(文理融合)」の人材育成によって共創力を生み出し、科学技術・イノベーションの⼒を⾼めることが期待されている。2025年に開催予定の大阪・関西万国博覧会は、「いのち輝く未来社会のデザイン」をメインテーマとして、SDGsやSTEAM教育もテーマ事業である。
4.おわりに
本稿では、次世代ロボットの高度化と革新サービスを提供する「ロボットフォトニクス」について紹介した。現在の人類は、(地球温暖化など環境問題、人口問題、食糧問題とともに、災害や紛争など)多くの社会課題を抱えたVUCAの時代にある。VUCAという言葉は、Volatility(変動性)、Uncertainty(不確実性)、Complexity(複雑性)、Ambiguity(曖昧性)という4つの言葉の頭文字をとった造語である。VUCAの時代を切り拓くのは、共創的な取り組みであり、STEAM教育を通じたロボットフォトニクスの今後の進展に期待したい。
★謝辞
本稿を執筆するにあたり、一般社団法人レーザー学会ロボットフォトニクス専門委員会をはじめ、公益社団法人レーザー技術総合研究所(レーザー総研)、特定非営利活動法人日本フォトニクス協議会関西支部(JPC関西)、近畿経済産業局、大阪大学レーザー科学研究所、国立研究開発法人産業技術総合研究所の関係者のご協力に深く感謝する。
★参考文献
K. Kurosawa, R. M. Pierce, S. Ushioda, and J. C. Hemminger, “Raman scattering and attenuated-total-reflection studies of surface-plasmon polaritons”, Phys. Rev. B 33, 789 (1986).
https://journals.aps.org/prb/abstract/10.1103/PhysRevB.33.789
「波長フィルタ、波長フィルタリング装置及び波長フィルタリング方法」(特許第4649595号)
教科書「ロボティクス」, (2011年11月, 日本機会学会編), ISBN:978-4888982085.
【著者紹介】
村井 健介(むらい けんすけ)
国立研究開発法人産業技術総合研究所 関西センター産学官連携推進室 連携主査
一般社団法人レーザー学会「ロボットフォトニクス」技術専門委員会 主査
■略歴
1987年大阪大学工学部精密工学科卒業。大阪大学大学院工学研究科精密工学専攻(前期)、電気工学専攻(後期)。大学ではプラズモンについて、大学院では大阪大学レーザー核融合研究センター(現在の大阪大学レーザー科学研究所)でエキシマレーザーやX線レーザーについて研究。レーザープラズマを利用した軟X線レーザーに関する研究で博士号を取得。
1995年工業技術院大阪工業技術研究所(現在の産業技術総合研究所関西センター)入所。入所後は、プラズモニクスやレーザープラズマなど、光と物質の相互作用の応用研究。内閣府総合科学技術会議や近畿経済産業局への出向時にロボット政策に関与。近年は産学官連携推進活動に従事。
博士(工学)。技術士(応用理学)。日本ロボット学会(RSJ)正会員。レーザー学会(LSJ)正会員、「ロボットフォトニクス」技術専門委員会主査。
(株)アクアサウンド 名誉会長 笹倉 豊喜
4. システムの評価
試作したシステムの評価を52音種の音源を用いて実海域(石垣島名蔵湾)においてプレイバック実験で行った。水深約10mの海底に設置したSS録音機のハイドロフォンと水中スピーカー用ハイドロフォンを音響結合し、船上の音源サンプルを録音した録音機を再生する。975音源サンプルを1音源あたり20回ずつ再生しトータルで約6時間を要する。水中スピーカーから放音された音をハイドロフォンで受信しSS録音機内で、AI画像識別モデル音源分類アルゴリズムが実装された処理器で分類処理されその結果ログをSS録音機内に記録すると同時にその結果を水中通信を用いて海上に浮かぶ通信ブイに伝送する。さらに通信ブイからは無線通信で陸上のクラウドサーバーにその結果を転送する。
5. 実験結果
プレイバック実験では、再現度、適合度、F値を測定した。混同行列の結果は、再現度72.7%、適合度83.0%、F値77.5%であった。正解率(再現度と適合度の調和平均)は72.6%であった。プレイバック実験の正解率がPCシミュレーションのそれよりも20.6ポイント低いのは、石西礁湖の海底設置状態では背景雑音が多いため分類精度が落ちるためである。
図6 プレイバック実験の分類精度
6. まとめ
サウンドスケープ観測システムの開発を行い、ハードウェアの設計、音源分類アルゴリズムの構築と演算処理器へ実装し、試作機を製作して石西礁湖海域に持ち込み海上実験を行なった。その結果は5.項で述べたとおりであるが、当初の目標値に達している。水中の音風景(サウンドスケープ)をリアルタイムで配信することにより、これまでに想像すらできなかった新しい海洋の利用が拓けると同時にサステナブルな海の利用にもつながることを期待したい。
謝辞
本研究は防衛装備庁の安全保障技術研究推進制度の支援を得て行なったものである。
【著者紹介】
笹倉 豊喜(ささくら とよき)
Toyoki Sasakura, Ph.D.
株式会社アクアサウンド 名誉会長
■略歴
1973年 古野電気株式会社入社 同社在任中、主にソナー・魚探など超音波機器の開発に従事
1984年 戦艦大和探索に参加、東シナ海で発見 舶用機器事業部開発部長を歴任
1990年 東京水産大学(現東京海洋大学)より水産学博士号授与
1997年 古野電気退社
2010年 東京海洋大学 客員研究員
2012年 株式会社アクアサウンド設立 代表取締役会長に就任(現在は非役員)
2017年 株式会社AquaFusion設立 代表取締役
現在に至る.
古野電気入社以来、一貫して魚群探知機、ソナーなどの水中超音波機器の研究開発に従事。2010年には東京海洋大学と共同開発で日本発小型ピンガー(超音波発信機で魚の体内に埋め込んで魚の行動を研究するデバイス)の開発に成功、現在多くの研究者が使用している。
インフォーマ マーケッツ ジャパン(株) 事業推進部 橋本 健
4.デモ実施機器
本企画に賛同いただき、実際にデモンストレーションを行った機器と発表者を以下にて紹介する。
(1)水中ドローン「FINDi FF2」(図-4) 発表者:株式会社FINDi/株式会社NJS
図-4「FINDi FF2」
(2)水中ドローン「FIFISH Pro E-GO」(図-5) 発表者:株式会社ジュンテクノサービス
図-5「FIFISH Pro E-GO」
(3)水中ドローン「CHASING M2 PRO MAX」(図-6) 発表者:一般社団法人日本水中ドローン協会/ 株式会社スペースワン
図-6「CHASING M2 PRO MAX」
(4)水上ドローン「AST-181」(図-7) 発表者:エバーブルーテクノロジーズ株式会社
図-7「AST-181」
(5)水中ドローン「龍頭」(図-8) 発表者:株式会社水龍堂
図-8「龍頭」
(6)水上ドローン「水上点検ドローン」(図-9) 発表者:炎重工株式会社
図-9「水上点検ドローン」
5.実施結果
定員は会議室の最大座席数である100名を設定していたが、募集開始から3日間で申込数が上回ってしまい、急遽デモのみの参加を受け付けるなどして収容数を増やした。それでもすぐに募集を打ち切らざるを得なくなってしまったため、展示会のプレイベントとしてのプロモーションが計画通りできなかったのは嬉しい誤算であった。しかし、反響の大きさから、まだまだ水中・水上ドローンは新たな需要を掘り起こして市場を拡大できる可能性があるという手ごたえを感じることができた。
当日は天候にも恵まれ、8社・団体がデモを行い、計133名が来場した。前半のプレゼンテーションでは各社10分という短い持ち時間であったが、各機器の特徴や魅力、普及に向けた取り組み内容などを熱く語っていただいた(図-10)。後半、会場を移して実施したデモンストレーションではこれから導入を検討している方から、既に利用を始めているが、さらに活用を進めたい方まで、多様な参加者からの質問が日没まで途絶えることが無かった(図-11)。メディアの方々も熱心に各社製品のポイントを取材しており、特にWebメディアの「ドローンジャーナル」には後日、詳細なイベントレポート3) を掲載いただいた。機器ごとの特徴などについてはぜひそちらをご覧いただきたい。
図-10プレゼンテーションの様子
図-11デモンストレーションの様子
6.今後の展望
「海の次世代モビリティ」は汎用性が高いものも多く、イベントを通じて多くの方々の目に触れる機会を増やすことは、新たな需要開拓につながるため、普及促進にとって非常に重要と考える。特に今回の企画を実施したことで、海での利活用を考える場合には、現場に近い環境でイメージを膨らませることができる「リアルな体験」が有効であることを改めて実感することができた。今後も本企画を継続し、開催地も広げるなど拡大を進めていくことを計画している。
引き続き、海事・海洋・港湾の技術に関わる方々のニーズを伺い、多様な企画を実施することで産業の発展に貢献していきたい。
【著者紹介】
橋本 健(はしもと けん)
インフォーマ マーケッツ ジャパン株式会社 事業推進部
■略歴
産業展示会の主催をはじめ、BtoBイベントの企画関連業務に従事しており、現在は「Sea Japan / Offshore & Port Tech」(https://www.seajapan.ne.jp/ )と「バリシップ」(https://www.bariship.com/ )を担当
千葉県出身。早稲田大学卒。2000年より新聞社に勤務し、センサや計測、測定、検査の専門展をはじめ、ものづくりを支える業界を対象に数多くの産業展示会の主催者業務に従事。その後、企業や団体の販促・PR支援業務、ITソフトウェア企業での企画業務を経て、2022年より現職。2015年に中小企業診断士登録。