senooken JP Social
  • FAQ
  • Login
senooken JP Socialはsenookenの専用分散SNSです。
  • Public

    • Public
    • Network
    • Groups
    • Popular
    • People

Conversation

Notices

  1. Akionux (akionux@status.akionux.net)'s status on Friday, 18-Jun-2021 18:05:50 JST Akionux Akionux
    CNNやTransformerは人間の視覚と比べてどうなのか? | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア - https://ai-scholar.tech/articles/transformer/human_vision
    In conversation Friday, 18-Jun-2021 18:05:50 JST from status.akionux.net permalink

    Attachments

    1. Domain not in remote thumbnail source whitelist: aisholar.s3.ap-northeast-1.amazonaws.com
      CNNやTransformerは人間の視覚と比べてどうなのか?
      3つの要点✔️ TransformerとCNNを人間の視覚と比較✔️ ニューラルネットワークと人間の視覚を比較するための新しい指標を紹介✔️ ViTとCNNの形状/テクスチャーの偏りを人間の視覚と比較 Are Convolutional Neural Networks or Transformers more like human vision?written by Shikhar Tuli, Ishita Dasgupta, Erin Grant, Thomas L. Griffiths(Submitted on 15 May 2021)Comments: Accepted at CogSci 2021Subjects: Computer Vision and Pattern Recognition (cs.CV)code: はじめに畳み込みニューラルネットワーク(CNN)は、画像分類、セグメンテーション、物体検出などのコンピュータビジョンのタスクにおいて、現在の主流となっています。さらに近年ではself-attentionベースのtransformerも効果的であることも示唆される研究が出てきました。そのため、将来的にはCNNに取って代わるのではないかと言われています。CNNは人間の視覚野に似ているところがあります。各画像パッチに同じ重みが使われるため、位置普遍性です。とはいえ、局所的な接続性はグローバルなコンテクストの喪失につながるため、これらのモデルは形状ではなくテクスチャに依存すると言えます。逆に人間は画像を認識する際に、テクスチャではなく形状を利用します。このあたりについても、AI-SCHOLARで既に取り上げられています「CNNは本当にテクスチャ好きなのか?」。一方ViTのようなトランスフォーマーは、誘導バイアスが排除されているため、グローバルな特徴も効果的に捉えることができます。また、CNNよりも柔軟性が高いため、NLPと視覚の両方で大きな成功を収めています。

    Feeds

    • Activity Streams
    • RSS 2.0
    • Atom
    • Help
    • About
    • FAQ
    • TOS
    • Privacy
    • Source
    • Version
    • Contact

    senooken JP Social is a social network, courtesy of senooken. It runs on GNU social, version 2.0.2-beta0, available under the GNU Affero General Public License.

    Creative Commons Attribution 3.0 All senooken JP Social content and data are available under the Creative Commons Attribution 3.0 license.