機能改善 イベント編集時の「重複参加の許可」をデフォルトで「許可しない」から「許可する」に変更しました。詳しくは こちら をご確認ください

お知らせ connpassアカウントのパスワードを設定することで、ソーシャル認証に依存しないログインも可能となります。詳しくは以下のヘルプをご確認ください。
- パスワードの設定
- ソーシャル認証ログインが出来なくなった場合の操作
イベント管理者様・グループ管理者様も上記ヘルプを 一括メッセージ機能 にて参加者・グループメンバーへ案内して、連絡がつかなくならないようご注意ください。

このエントリーをはてなブックマークに追加

Mar

29

【オンライン開催】『Vision Transformer入門』読書会#9

参加者同士インタラクティブに議論し、理解を深める

Organizing : SOLEIL DATA DOJO

Hashtag :#DeepLearning
Registration info

オンライン参加

Free

FCFS
14/20

参加者への情報
(参加者と発表者のみに公開されます)

Description

次回は第6章の6からスタートします。

開催趣旨

本勉強会では、画像認識モデルについて理解を深めることを目的とし、下記の本を一章ずつ取り上げていく予定です。事前に予習し、コードを一通り動かしてから参加されることをオススメします。参加者同士の質問・意見交換やディスカッションをメインに進めていく予定です。

『Vision Transformer入門 Computer Vision Library』( 片岡裕雄 監修,山本晋太郎,徳永匡臣,箕浦大晃,邱玥(QIU YUE),品川政太朗 著, 技術評論社, 2022年9月)

※ 書籍はご自身で入手のうえ、ご参加ください。

参加対象者

  • 画像認識モデルの理解・Pythonによる実装力を高め、業務や研究に活用した社会人・学生・研究者の方
  • Pythonの基礎的な文法やJupter Notebook、Google Colaboratoryの基本的な使い方を習得されている方

参加方法

Connpassの「参加者への情報」に記載のzoomリンクよりご参加ください。

勉強会の進め方

  • その日に取り扱う章を前もって各自ご自身で読み進めておいてください。
  • 勉強会では、皆で書籍の内容を確認しながら、必要に応じて実際にコードを動かしていきます。
  • ポイントごとに立ち止まって疑問点をぶつけ合い、意見交換し、理解を深めていければと思います。

※ 一人が資料準備してきて一方的にレクチャーする形式ではなく、参加者同士インタラクティブにディスカッションしながら進めていきます。

書籍の紹介文(https://gihyo.jp/book/2022/978-4-297-13058-9)

以下、書籍紹介ページより抜粋

自然言語処理分野におけるブレイクスルーとなったTransformerをコンピュータビジョンに応用したモデルがVision Transformer(ViT)です。さまざまなコンピュータビジョンのタスクにおいて,ディープラーニングではスタンダードとなっているRNN,CNN,および既存手法を用いた処理精度を上回ることが確認されています。

本書は注目のViTの入門書です。Transformerの成り立ちからはじめ,その理論と実装を解説していきます。今後のViTの活用が期待される応用タスク,ViTから派生したモデルを紹介したあと,TransoformerとViTを分析し,その謎を解明していきます。今後も普及が期待されるViTを盛りだくさんでお届けします。

【目次】

第1章 TransformerからVision Transformerへの進化
1-1 自然言語処理におけるTransformerの登場
1-2 Vision and languageへの拡張
1-3 コンピュータビジョンにおけるTransformer
第2章 Vision Transformerの基礎と実装
2-1 準備
2-2 ViTの全体像
2-3 Input Layer
2-4 Self-Attention
2-5 Encoder
2-6 ViTの実装
第3章 実験と可視化によるVision Transformerの探求
3-1 実験の概要
3-2 使用するデータセット
3-3 実験条件
3-4 既存手法との比較
3-5 データ拡張における比較
3-6 位置埋め込みの可視化
3-7 ViTにおける判断根拠の可視化
3-8 ViTが捉えているモノ
第4章 コンピュータビジョンタスクへの応用
4-1 コンピュータビジョンのサブタスク
4-2 画像認識への応用
4-3 物体検出、セマンティックセグメンテーションへの応用
4-4 ビデオ認識への応用
4-5 オブジェクトトラッキングへの応用
4-6 3Dビジョンへの応用
4-7 その他のコンピュータビジョンサブタスクへの応用
4-8 Transformer応用のまとめと展望
第5章 Vision and Languageタスクへの応用
5-1 Vision and Languageのサブタスク
5-2 VQAへの応用
5-3 Image Captioningへの応用
5-4 Embodied AIへの応用
5-5 その他のVision and Languageサブタスクへの応用
5-6 Vision and Languageのまとめと展望
第6章 Vision Transformerの派生手法
6-1 ViT派生手法の分類
6-2 Swin Transformer
6-3 DeiT
6-4 CvT
6-5 SegFormer
6-6 TimeSformer
6-7 MAE
第7章 Transformerの謎を読み解く
7-1 Transformerの謎に人々は驚き困惑した
7-2 Positional embeddingの謎
7-3 Multi-head Attentionの謎
7-4 Layer Normalizationの謎
第8章 Vision Transformerの謎を読み解く
8-1 ViT vs CNN vs MLPの三国時代の到来
8-2 ViTはCNNと同じく局所特徴を学習する
8-3 ViTはより形状に反応する?
8-4 ViTは早期から大域的な領域も見ている
8-5 ViTはCNNやMLPよりもノイズや敵対的攻撃に頑健?
8-6 3つのモデルの特性と使い分けの勘どころ
8-7 ViTの新常識

参加者同士の質問・情報交換

Scribble Osaka Lab(SOL)のSlackワークスペースで、参加者同士の質問・情報共有用チャンネルを設けております。参加ご希望の方は、申込みフォームで招待メール送り先のEmailアドレスをお教えください。

Media View all Media

If you add event media, up to 3 items will be shown here.

Feed

SOLEIL DATA DOJO

SOLEIL DATA DOJO published 【オンライン開催】『Vision Transformer入門』読書会#9.

03/22/2023 20:57

【オンライン開催】『Vision Transformer入門』読書会#9 を公開しました!

Ended

2023/03/29(Wed)

20:00
21:00

Registration Period
2023/03/22(Wed) 20:57 〜
2023/03/29(Wed) 21:00

Location

オンライン開催

オンライン開催

Organizer

Attendees(14)

dz2cgto

dz2cgto

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

y_temp

y_temp

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

hiro10

hiro10

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

kishimoto_soma

kishimoto_soma

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

tizawa3

tizawa3

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

goro

goro

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

osawat

osawat

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

hari2020

hari2020

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

MasahiroShiroishi

MasahiroShiroishi

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

haratena9

haratena9

【オンライン開催】『Vision Transformer入門』読書会#9 に参加を申し込みました!

Attendees (14)