Computer vision 논문 & 코드리뷰(12)
-
Pix2Pix code review 코드리뷰
아무래도 Test보다는 Train이 고려할 것이 많다보니 Train 과정 먼저 살펴보겠습니다. 빨간 글씨: 의문점/공부해야할 부분 1. parser에서 여러 옵션들을 parse해오고, dataset을 만들어 줌 opt = TrainOptions().parse() # get training options dataset = create_dataset(opt) # create a dataset given opt.dataset_mode and other options dataset_size = len(dataset) # get the number of images in the dataset. print('The number of training images = %d' % dataset_size) ㅇ이 과정에서 ..
2021.04.08 -
[Pix2Pix]Image-to-Image Translation with Conditional Adversarial Networks
Berkeley AI Research (BAIR) Laboratory, UC Berkeley 에서 발행한 논문입니다. Abstract image-to-image translation problems에 대한 일반적인 방법부터 Contitional adversarial networks를 사용한 방법까지 조사했다. Image-to-Image translation problems를 다루는 Networks는 입력 이미지에서 출력 이미지로 가는 mapping을 학습할 뿐만 아니라 loss function도 학습 -> image-to-image translaotion problems에서 각 상황에 따라 사용되는 loss functions이 달랐지만 paper에서 제안한 방식을 적용하면 동일한 loss function..
2021.03.30 -
U-GAT-IT
U-GAT-IT: UNSUPERVISED GENERATIVE ATTENTIONAL NETWORKS WITH ADAPTIVE LAYERINSTANCE NORMALIZATION FOR IMAGE-TO-IMAGE TRANSLATION 컴퓨터 비전 논문 스터디에서 이 논문에 관련하여 발표하였습니다 발표자료를 공유합니다. image to image translation이란 이미지 데이터셋을 사용하여 input 이미지와 output 이미지를 mapping하는 것을 목표로 하는 생성모델의 한 분야입니다. 흑백 이미지에 컬러를 입힌다든지, 낮 사진을 밤 사진으로 만든다든지, 테두리만 주어진 사진을 실제 물건같이 만드는 것이 가능하죠. 이런 image to image translation은 크게 paired한 데이터셋을..
2021.01.29 -
Spatially Attentive Output Layer for Image Classification (SAOL)(CVPR 2020)
논문 링크:arxiv.org/pdf/2004.07570.pdfarxiv.org/abs/2004.07570 Spatially Attentive Output Layer for Image Classification Most convolutional neural networks (CNNs) for image classification use a global average pooling (GAP) followed by a fully-connected (FC) layer for output logits. However, this spatial aggregation procedure inherently restricts the utilization of location-s arxiv.org ● introduction..
2021.01.16 -
Attention Branch Network: Learning of Attention Mechanism for Visual Explanation(ABN, CVPR2019)요약
논문 링크: arxiv.org/abs/1812.10025 Attention Branch Network: Learning of Attention Mechanism for Visual Explanation Visual explanation enables human to understand the decision making of Deep Convolutional Neural Network (CNN), but it is insufficient to contribute the performance improvement. In this paper, we focus on the attention map for visual explanation, which repr arxiv.org ABN은 attention map..
2021.01.16 -
Class Activation Map(Learning Deep Features for Discriminative Localization) (CVPR2016)
논문 링크 : arxiv.org/abs/1512.04150 Learning Deep Features for Discriminative Localization In this work, we revisit the global average pooling layer proposed in [13], and shed light on how it explicitly enables the convolutional neural network to have remarkable localization ability despite being trained on image-level labels. While this techniq arxiv.org ClassActivation map(CAM)에 대해 간단히 정리해보려 합니다...
2021.01.16