画像認識・計測の自動車応用 (2)

(一社)次世代センサ協議会
理事 技術委員
前田 賢一

5.位置の計測

動きの計測とともに、場合によってはそれ以上に重要なのは位置の計測である。画像を使う位置の計測で通常使われるのは、いわゆるステレオ視である。端的に言えば三角計測ということになる。ここでは、よく使われる複数のステレオ技術について説明する。

図10に示すのが、いわゆるステレオカメラの概念図である。2台のカメラ(ステレオカメラ)を使うのが特徴である [実吉敬二, 2016]。

図10.ステレオカメラの概念図
図10.ステレオカメラの概念図

カメラの撮像面は2次元であり、そこに距離の概念はない。しかし、左右2台のカメラで同じ点を撮影すると、左右のカメラの撮像面での位置が異なる。その差を「視差」と言い、それが対象物までの距離を求めるキーとなる。以下に具体例で計算方法を示す。

見やすくするために図を単純化する(図11(a)参照)。ここで、図中のb はベースライン(カメラ間の距離)、f は焦点距離、s は視差、D は求めたい対象物までの距離である。

図11.単純化したステレオカメラの関係図
図11.単純化したステレオカメラの関係図

図11(b)に示すように、二つの三角形の相似関係から、求めたい距離は、D = b f / sという簡単な式で計算することができる。

広い意味のステレオ技術には別の方法もある。ステレオカメラは、使うことができれば理想的であるが、コストの問題などから1台のカメラしか使えない場合がある。あるいは、先に説明したステレオカメラでベースラインが正確に測れない場合にも同じ原理が使える。たとえば複数の航空写真から3次元的な地形のモデルを作る場合にも使われる。1台のカメラで距離を求める場合には、制限がある。第一はカメラと対象物との間で相対的な運動(Motion)が必要だということである。この方法はShape from MotionあるいはStructure from Motion(いずれも略記はSfM)と呼ばれている [Tomasi & Kanade, 1992]。適当な短い日本語名称がないので「多視点からの3次元形状復元」というような長い訳が使われることもある。図12にSfMの概念を示す。図中にカメラは2ヶ所しか描かれていないが、通常はもっと多くの撮影を使う。

図12.SfMの概念図
図12.SfMの概念図

第二の制限は運動中に対象物の形状が変化しないということである。第三の制限は求まる距離が相対的な値であるということである。数学的にはやや複雑なので、詳細は参考文献 [Tomasi & Kanade, 1992]に譲るとして、SfMの原理と制約が生じる理由の概略を説明する。原理が複雑になるのは、三角計測の計算に必要なベースラインがわからないからである。そのため求める距離とベースラインとの両方を組にして解く必要がある。

図13は重要な概念であるエピポーラ線(Epipolar Line)を説明するものである。

図13.SfMの原理(エピポーラ線)
図13.SfMの原理(エピポーラ線)

対象とする点 p0 を二ヶ所からカメラで撮影したカメラ内の点をp1p2とする。図中の左側にあるカメラに注目すると、p1の位置に写るためには対象となる点p0が直線 L 上のどこかにある必要がある。この直線を右側のカメラで写したものが直線 L’である。この直線をエピポーラ線という。両方のカメラに写った点の座標を変換する行列とエピポーラ線上に点があるという条件から「基本行列」E を定義することができ、E からカメラの動き(ベースラインに相当する情報)を知ることができる。

ここで、もっと簡単なステレオ法を紹介する。車が走る際に障害となるのは、高さを持った障害物である。逆に言えば、地面に描かれた模様や文字は走る障害とはならない。したがって、カメラに写ったものが高さを持っているかどうかが障害物と判定するための最大のポイントとなる。ここで紹介する方法は「平面投影ステレオ」と呼ばれるものである [Onoguchi, etal, 1998]。

その原理を図14に示す。左右のカメラに写った画像は、3次元的な情報を失っているので、ある点 P が道路に対して高さを持っているかどうかわからない。それを逆手にとって、P は地面に描かれた絵だと思うことにする。

図14.平面投影ステレオの原理
図14.平面投影ステレオの原理

左側のカメラで PL に写るためには、地面の上の P1 という位置に描かれていないといけない。同様に右カメラで PR に写るためには、 P2 に描かれている必要がある。 P1 と P2 との差を見ると、P が地面に描かれたものか高さを持った障害物かを見分けることができる。計算は両カメラ画像の地面(Road Plane)への変換後の差を取るだけで良く、極めて容易である。

6.ブロックマッチング

オプティカルフローにもステレオにも必要な技術として対応点探索がある。ここまでの説明では、それぞれの方法の原理を説明するために、特徴的な点が一つしかなく、その対応は取れているものとしてきた。実際には複数の点を画像中で対応付する必要があり、それは一般的にはそれほど簡単なことではない。

まず、対応付によく使われるブロックマッチング(テンプレートマッチング)の考え方を紹介する(図15参照)。

図15.ブロックマッチングの基本
図15.ブロックマッチングの基本

矢印形の図形の先端が特徴点だとして、左側と右側との図形の対応を取る場合を考えてみる。オプティカルフローであれば、移動前と移動後との対応、ステレオであれば、左右のカメラの対応ということになる。

簡単のために3×3の領域(ブロック)を考え、その中心に特徴点があるとする。このブロックと同じパターンがどこにあるかを探索するのが対応付である。2つの領域の比較計算方法には何種類かあるが、よく使われるのは、SAD(Sum of Absolute Difference)と呼ばれるものである。SAD 以外に、SSD(Sum of Squared Difference)、NCC(Normalized Cross Correlation)という計算方法がある。計算量の観点からは、SADが最も簡単であり、NCCが最もたいへんである。精度の観点からは逆の順序になるので、実際の応用に即して計算方法を決定する必要がある。

対応付が簡単でない理由の一つとして、ブロックマッチングの泣き所がある。それは周期的(繰り返し)パターンである(図16(a)参照)。

図16.周期的パターンと実例
図16.周期的パターンと実例

こういう場合には、複数の対応付ができてしまう。これを多義解釈とも言う。実際の例としては図16(b)に示すような虎縞がある。不具合を避けるためには、繰り返しがない部分(両端など)を特徴として使うなどの工夫が必要である。

7.まとめ

自動車の自動運転に関連する画像認識や画像計測の原理と応用の概略を説明した。
まず、最近注目される深層学習によるAIの説明と応用例を紹介した。AIは注目すべき技術ではあるが、現在までのところ理論的な原理解明の途中である。計算量も多く、また学習データを大量に必要とするという問題点が指摘されている。そのため、実際の応用を考えた場合に必ずしも最適であるとは限らない。

特に画像計測では、オプティカルフローやステレオが使われることが多く、これもいくつかの方法と応用を説明した。ただし、これらの方法も、また万能ではない。重要なのは、利害得失を考慮した上で、複数の方法から適したものを選択することである。場合によっては、本稿で紹介できなかった方法を使ったり新規開発したりすることも必要になるかも知れない。また、広くセンシングという観点からは、画像センシングに限定せず、電波やレーザー系のセンシングが必要になることもある。



参考文献

Amari, S., 1967. Theory of adaptive pattern classifires. IEEE Transactions, Issue EC-16, pp. 299-307.
Badrinarayanan, V. etal, 2017. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Scene Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39[12], pp. 2481-2495.
D.マッケイ,V.マッケイ編, 1993. ビハインド・アイ. 出版地不明:新曜社.
Fukushima, K., 1980. Noncognition: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position. Biological Cybernetics, Issue 36, pp. 193-202.
Onoguchi, K. etal, 1998. Planar projection stereopsis method for road extraction. IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, Issue E18D, pp. 1006-1018.
Rosenbratt, F., 1958. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. Psychological Review, 65[6], pp. 386-408.
Tomasi, C. Kanade, T., 1992. Shape and Motion from Image Streams under Orthography: a Factorization Method. International Journal of Computer Vision, 9[2], pp. 137-154.
実吉敬二, 2016. ステレオカメラによる自動運転車実現の可能性. エレクトロニクス実装学会誌, 19[6], pp. 398-402.
藤吉弘亘,他, 2013. 電子情報通信学会知識ベース「知識の森」2群-2編-4章 動画解析. [オンライン]
Available at: http://www.ieice-hbkb.org/portal/doc_590.html
[アクセス日: 10 4 2013].
二宮芳樹,太田充彦, 1997. オプティカルフローによる移動物体の検知. 出版地不明, 電子情報通信学会, pp. 25-31.



【著者紹介】
前田 賢一(まえだ けんいち)
一般社団法人 次世代センサ協議会 理事、技術委員

■略歴
1976年 東京工業大学大学院修士課程修了
1976年 東京芝浦電機株式会社(株式会社 東芝)入社
総合研究所(研究開発センター)所属
1989年~1991年 英国エジンバラ大学 客員研究員
1999年~2000年 東芝 関西研究センター長
2000年~2002年 電子情報通信学会 和文論文誌D 編集委員長
2002年~2004年 電子情報通信学会 情報・システムソサイエティ副会長(技術担当)
2004年~2011年 東芝 研究開発センター 技監
2004年~現在IEEE Senior Member
2005年~2008年 Treasurer, Japan Chapter of Computational Intelligence Society, IEEE
2007年 東京工業大学大学院博士課程修了(博士(工学))
2009年~現在 電子情報通信学会フェロー
2012年 Award Chair, ICPR 2012
2012年 Guest Editor, Special Issue, Pattern Recognition Letters
2016年 株式会社 東芝退職
フリーランスのコンサルタント(現職)
2017年~2020年 中央大学 客員研究員
2017年~現在一般社団法人 次世代センサ協議会 技術委員
2019年~現在一般社団法人 次世代センサ協議会 理事