はじめに

実際の道路で自動運転を行う場合には、見たことのない物体にも対応する必要があります。例えばトラックの荷物が道路上に落下していたときには、自動運転車はそれを認識して避けるように運転をしなければいけません。しかし、想定外の物体があるとき、通常の物体検出モデルでは検出することができない場合が多くあります。

two boxes on the road are missed by a semantic segmentation model

道路上の箱がセマンティック・セグメンテーションのモデルから見落とされている例

このような状況にも対応するために、学習データにはない物体を検出する手法である「未知物体検出」という分野が研究されています。

未知物体検出には様々な課題がありますが、精度の向上に加えて、自動運転車などの限られた計算リソースでも使用できるように計算コストが低いことも求められます。本研究では主に自動運転を適用先として想定した、軽量かつ精度の高い未知物体検出手法を提案しました。

未知物体検出手法の種類

未知物体検出手法には様々な種類がありますが、提案手法は単眼カメラの画像を対象としており、特別な学習データセットを使わない未知物体検出手法です。

未知物体検出の中でも、多様な物体を含む大規模なデータセットを用いて汎化性能を高めることで未知の物体にも対応しようととする手法がありますが、性能がデータセットに依存するので適切なデータセットを作る必要があります。このような手法と比べて、私たちの手法の学習には他のタスクにも使われている一般的なデータセットを用いることができることが利点として挙げられます。

また、LiDARなどの距離の情報を用いた未知物体検出は精度が高いため広く用いられていますが、高価な機器を使うことや計算コストが高くなることが欠点として挙げられます。

Discrepancy Networks

Discrepancy Networks (Lis et al., 2019) の学習手法（私たちの提案手法とは異なります）

私たちが提案したモデルはDiscrepancy Networks (Lis et al., 2019) という手法を元としています。Discrepancy Networksは入力画像とGANによって復元された画像を比較することで未知物体を検出する手法です。GANは未知物体をうまく復元できないということを仮定し、入力画像と比較してうまく復元できていない部分を検出するというアイデアを提案しています。

Lis et al. (2019) は特殊な物体を含まない一般的な車載カメラ画像を用いて学習できる、上図に示した新しい学習方法を提案しました。学習時にはデータセットのセマンティック・セグメンテーションのラベル（正解ラベル）を使いますが、ランダムに一部の物体のラベルを間違ったものに入れ替えます（上図では中央右の自動車のラベルが「自動車」を表す青色のラベルから「通行人」を表す赤色のラベルに入れ替えられています）。この誤ったラベルを元にGANが元の画像を復元しようとするため、ラベルを入れ替えた部分がうまく復元されないことになります。このうまく復元できなかった部分を検出するようにDiscrepancy Networksを学習することによって、推論時にはGANがうまく復元できなかった部分を未知物体として検出できるように学習されます。

Discrepancy Networksは単眼画像で学習時に特別なデータセットを使わないという条件においては検出精度が高く、既に複数の研究で利用されています (Ohgushi et al. (2020) など)。

提案手法

提案手法のモデル構造

Discrepancy Networks (Lis et al, 2019) にはいくつかの課題が残されています。

検出性能に改善の余地がある。元の論文でも指摘されている通り検出を苦手とする物体があったり、物体の一部しか検出できない場合があります。
GANというパラメータ数の大きいモデルを使っているため計算コストが大きい。

私たちの研究ではDiscrepancy Networksを元にして、計算量を小さくしつつ検出精度を高めた未知物体検出手法を提案しました。

GANの除去

difference between Lis et al. (2019) and ours

Lis et al. (2019) と提案手法の学習方法の比較

提案手法ではDiscrepancy NetworksからGANを取り除いても同等以上の精度を達成できることを示しました。Lis et al. (2019) の手法では

「入力画像 → セマンティックセグメンテーションのラベル → GANで生成された画像」

という流れでGANから画像が生成されます。ここで、入力画像とGANで生成された画像は条件付き独立であることがわかります。つまり、セマンティックセグメンテーションのラベルが与えられていれば、GANで生成された画像は必要ないことになります。

この観察からGANを取り除くというアイデアを提案し、実際にGANを取り除いて入力画像とセマンティックセグメンテーションのラベルを比較しても同等の精度を達成する達成することができることがわかりました。パラメータ数の大きいGANを取り除くことによって、パラメータ数と推論時間を大きく削減することができます。

Deep SupervisionとFeature Selection

さらに精度を向上するためにDeep SupervisionとFeature Selectionという手法をDiscrepancy Networksに適用することを提案しました。これらの手法は、Discrepancy Networksの中間特徴量に関する観察から動機づけられています。

中間特徴量を用いて未知物体検出を行った結果、浅い層 (1, 2) ではエッジなどが検出され、深い層 (5) では未知物体（箱）が見落とされている

Discrepancy Networksの中間特徴量（途中の出力）のみを用いて未知物体検出を行うと、浅い層の特徴量ではエッジなどに強く反応し、深い層の特徴量では未知物体を無視してしまうことが観察されました。これは、ちょうど良い層の特徴量を選んで利用することで精度を向上できることを示唆していると考えられます。

この観察からDeep Supervisionによって中間特徴量をより利用するようにモデルを学習し、Feature Selectionによって深すぎる層を取り除く方法を提案しました。これらの手法によってAUC (Area Under ROC Curve) で5%以上の精度改善を達成しました。

まとめ

未知物体検出は自動運転の安全性の向上のために重要な技術です。私たちの研究では、単眼画像上での軽量かつ検出精度の高い未知物体検出手法を提案しました。

私たちの研究の詳しい内容については、ぜひ公開されている論文を参照してください。

Efficient Unknown Object Detection with Discrepancy Networks for Semantic Segmentation

参考文献

Kamoi, R., Iida, T., & Tomite, K. (2021). Efficient Unknown Object Detection with Discrepancy Networks for Semantic Segmentation. NeurIPS Workshop on Machine Learning for Autonomous Driving.

Lis, K., Nakka, K., Fua, P., & Salzmann, M. (2019). Detecting the Unexpected via Image Resynthesis. International Conference on Computer Vision (ICCV).
Ohgushi, T., Horiguchi, K., & Yamanaka, M. (2020). Road Obstacle Detection Method Based on an Autoencoder with Semantic Segmentation. Asian Conference on Computer Vision (ACCV).

センスタイムジャパンではインターンを募集しています。
本記事のように、インターン期間中の論文投稿など貴重な体験ができます。インターン期間が終わった後は社員としてご入社いただく選択肢のほかに、技術コンサルタント的な役割での契約実績もあるため、留学などのご予定がある方もトライしやすい環境をご用意しております。
さまざまなキャリアパスのご提案が可能なセンスタイムの求人に興味のある方はぜひ以下の募集要項、応募フォームよりご連絡ください。
お待ちしております！
インターン募集
https://www.sensetime.jp/joinus/internship