Computer Vision/Transformer3 DeiT(Training Data-efficient Image Transformers & Distillation Trough Attention) Introduction 이번에는 페이스북에서 발표된 "Training Data-efficient Image Transformers&Distillation Through Attention" 줄여서 "DeiT"논문을 리뷰 해볼려고 합니다. 최근들어서 트랜스포머 관련된 논문이 쏟아져 나오고 있습니다. 그 중에서 가장 대표적인 모델이 ViT입니다. ViT에 대해서 모르시는 분들은 여기를 참고해주시고 들으시면 도움이 될 거 같습니다. ViT의 장점으로는 Imagenet 데이터에 대해서 SOTA에 가까운 성능을 보여주었지만, 단점으로는 높은 자유도로 훈련에 많은 양의 데이터가 필요로 하는 문제점이 있었습니다. 이 논문에서는 Konwledge Distillation(지식 증류)방법을 이용한 Transfomer모델을 .. 2022. 8. 21. ViT(Vision Transformer) Abstract 이 논문이 발표되기 까지는 트랜스포머는 자연어 처리 태스크에서는 표준 모델이라고 할 만큼 많이 사용되고 있었지만, 컴퓨터 비전 태스크에서는 많이 사용되지 않았다. 비전 분야에서는 Attention이 CNN의 일부로써 적용되어왔습니다. 놀라운 점은 CNN을 사용하지 않고도 이미지 패치의 시퀀스에 적용된 Transformer로만으로도 이미지 분류 문제에서도 좋은 성능을 보여주었다는 것입니다. Introduction What is Transformer? "Attention Is All You Need" Transformer: Attention만 활용해 모델 구축 Transformer의 핵심 아이디어 : Self Attention Self Attention을 설명하기 전에 Attention에 대.. 2022. 8. 21. Transformer("Attention is all you need") 1. Introduction 트랜스포머는 구글에서 2017년에 제안한 자연어 모델로서 기존의 seq2seq모델처럼 인코더-디코더 구조를 따르지만, RNN과 CNN을 전혀 사용하지 모델입니다. 기존 seq2seq모델의 한계점은 인코더에서 추출된 고정된 크기의 context vector를 디코더의 입력으로 사용하여 병목현상으로 인한 성능저하 문제가 있었습다. 예를 들어, 긴 문장이 들어왔을 때 인코더의 가장 뒤의 hidden state의 벡터를 사용하기에 문장의 앞부분의 특징을 제대로 표현하지 못한다는 문제점입니다. 여기서, "만약 각 단어(토큰)으로부터 나온 특징 벡터를 모두 다 병렬로 디코더에 입력할 수 없을까?"라는 질문에서 시작하여 트랜스포머가 출현하게 되었습니다. 먼저, 트랜스포머를 설명하기전에 A.. 2021. 5. 6. 이전 1 다음