3つの要点✔️ TransformerとCNNを人間の視覚と比較✔️ ニューラルネットワークと人間の視覚を比較するための新しい指標を紹介✔️ ViTとCNNの形状/テクスチャーの偏りを人間の視覚と比較 Are Convolutional Neural Networks or Transformers more like human vision?written by Shikhar Tuli, Ishita Dasgupta, Erin Grant, Thomas L. Griffiths(Submitted on 15 May 2021)Comments: Accepted at CogSci 2021Subjects: Computer Vision and Pattern Recognition (cs.CV)code: はじめに畳み込みニューラルネットワーク(CNN)は、画像分類、セグメンテーション、物体検出などのコンピュータビジョンのタスクにおいて、現在の主流となっています。さらに近年ではself-attentionベースのtransformerも効果的であることも示唆される研究が出てきました。そのため、将来的にはCNNに取って代わるのではないかと言われています。CNNは人間の視覚野に似ているところがあります。各画像パッチに同じ重みが使われるため、位置普遍性です。とはいえ、局所的な接続性はグローバルなコンテクストの喪失につながるため、これらのモデルは形状ではなくテクスチャに依存すると言えます。逆に人間は画像を認識する際に、テクスチャではなく形状を利用します。このあたりについても、AI-SCHOLARで既に取り上げられています「CNNは本当にテクスチャ好きなのか?」。一方ViTのようなトランスフォーマーは、誘導バイアスが排除されているため、グローバルな特徴も効果的に捉えることができます。また、CNNよりも柔軟性が高いため、NLPと視覚の両方で大きな成功を収めています。