論文読み会「When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism」

STJ

こんにちは。リサーチャーの Mi です。センスタイムジャパンで車載向けAI技術を開発する部門に所属しています。

弊社では、研究テーマや学会ごとに、論文読み会を行っています。
部署や拠点の垣根を超えてメンバーが集まるので、さまざまな視点での情報に触れたり、知見を広げることができる機会になっています。

最近では、「Vision Transformer」をテーマにした論文読み会を実施しました。本稿では、当該の読み会において使用した紹介資料を共有したいと思います。

書誌情報

    @misc{wang2022shift,
          title={When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism},
          author={Guangting Wang and Yucheng Zhao and Chuanxin Tang and Chong Luo and Wenjun Zeng},
          year={2022},
          eprint={2201.10801},
          archivePrefix={arXiv},
          primaryClass={cs.CV}
    }

論文概要

  • Vision Transformer の成功の鍵は Attention 機構にあるされているが,果たしてそうか?
    • Attention 機構は,空間的な関係性をモデル化することのできる柔軟で強力な方法.
    • これを他の方法で置き換えられないか?
  • 極端な例として,Shift オペレーションを Attention の代わりに用いることを提案.
    • 算術演算なし,パラメータなし
    • 隣接する特徴間のチャンネルの一部を入れ替えるだけ.
  • ベースラインとなる SwinTransformer と比べ,同等かそれ以上の性能を達成.
    • この結果から,ViT の Attention 機構以外の部分により注意するべきだと指摘している.

まとめ

通常、社内向けに実施している論文読み会ですが、少し雰囲気をお伝えできたでしょうか。
センスタイムジャパンではこのように、積極的に最新の技術情報を収集し、研究開発を推進しております。

勉強会や論文読み会にご興味をお持ちいただけましたら、ぜひTwitterのDM問い合わせフォームよりご連絡ください。
お待ちしております!

投稿者プロフィール

Mi
Mi
先進運転技術部リサーチャー、常総AI・自動運転パーク在籍。
趣味はここにかけないものが多い。