[Paper Review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

[Paper Review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

15.741 Lượt nghe
[Paper Review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
1. 주제 Window Multi-head Self Attention을 적용한 Swin Transformer 2. 발표논문 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (arXiv, 2021.03.25) (https://arxiv.org/abs/2103.14030) 3. 발표 내용 1) 텍스트와 다른 이미지의 두 가지 특징인 해상도와 물체의 크기를 고려할 수 있는 모델 구조 제안 - Patch Merging과 Swin Transformer Block 2) Swin Transformer Block - W-MSA (Window Multi-head Self Attention) : window 내에서 patch 간 self attention 연산 - SW-MSA (Shifted Window Multi-head Self Attention) : W-MSA의 window 간 patch들의 self attention 연산