공부 정리 블로그

Grad-CAM 리뷰 본문

논문

Grad-CAM 리뷰

따옹 2023. 9. 9. 14:29

논문 읽는 법 참고 포스팅

https://gradschoolstory.net/terry/readingpapers/

(Abstract)

나는 이런 문제를 풀거야

We propose a technique for producing ‘visual explanations’ for decisions from a large class of Convolutional Neural Network (CNN)-based models, making them more transparent and explainable.
우리는 CNN을 기반을 둔 대량 class의 결정으로부터 더욱 설명 가능하고 투평하게 만드는 ‘시각적 설명’을 생성하는 기술을 제안합니다.
(이 논문에서 제안하고자 하는 것 소개)
CNN기반의 '시각적 설명'을 생성하는 기술 제안, 이 기술은 투명하고 설명 가능한 모델을 만들어주는 것에 기여한다.



Our approach – Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say ‘dog’ in a classification network or a sequence of words in captioning network) flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.
접근법 - Gradient-weighted Class Activation Mappiong(Grad-CAM), 어떤 target concept에서 coarse 한 현지화 map에서 concept에서 예측하고자 하는 이미지 영역에서의 중요한 영역을 강조 표시화하는 지도를 생성하기 위해 gradient를 사용합니다.
(구체적으로 제안 내용 설명)
Gradient-weighted Class Activation Mapping (이하 Grad-CAM)을 사용한 접근
마지막 컨볼루션 레이어에서 이미지에서 컨셉이라고 예측한 중요영역을 한정




Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fully connected layers (e.g. VGG), (2) CNNs used for structured outputs (e.g. captioning), (3) CNNs used in tasks with multimodal inputs (e.g. visual question answering) or reinforcement learning, all without architectural changes or re-training.
이전 접근(CAM)과는 다르게, Crad-CAM은 CNN 모델들에서의 보다 넓고 다양한 확장을 가능하게 합니다 : (1) fully connected layers를 가진 CNN(VGG), (2) structured outputs (e.g. captioning)을 가진 CNN, (3) multimodal inputs (e.g. visual question answering), without architectural changes or re-training.
(제안 내용의 차별점/논문을 읽으면서 찾을 내용들)
(1) fully connected layers를 가진 CNN(VGG)
(2) structure outputs 을 가진 CNN
(3) 구조적 변화나 재학습이 필요없는 multinodal inputs



We combine Grad-CAM with existing fine-grained visualizations to create a high-resolution class-discriminative visualization, Guided Grad-CAM, and apply it to image classification, image captioning, and visual question answering (VQA) models, including ResNet-based architectures.
여기서는 세밀한 시각화로 고해상도 class 구별 시각화와, Guided Grad-CAM 그리고 이미지 분류, image captioning, 그리고 visual question answering (VQA) models(ResNet 기반 구조)에 적용할 수 있으며, Grad-CAM에 결합할 수 있습니다.
(확장성)



In the context of image classification models, our visualizations (a) lend insights into failure modes of these models (showing that seemingly unreasonable predictions have reasonable explanations), (b) outperform previous methods on the ILSVRC-15 weakly-supervised localization task, (c) are robust to adversarial perturbations, (d) are more faithful to the underlying model, and (e) help achieve model generalization by identifying dataset bias.
이미지 분류 모델의 맥략에서, 우리의 시각화는 (a) 이 모델의 실폐 요인에 대한 통찰력 제공(이유가 없어 보이는 예측을 합리적인 설명을 보여줌), (b) 이전 방법인 ILSVRC-15 weakly-supervised localization task에서의 성능을 능가함 (c)적대적 섭동(일단 하나의 문제에 대략적인 답을 얻은 후에 이 단계에서 누락된 구체적인 정보들을 순차적으로 추가하여 점차 사실에 가까운 답을 만들어가는 과정들을 통칭하는 용어)에 강함, (d)기본 모델에 더 충실함, (e)dataset 편향을 식별하여 모델의 일반화를 달성하는데 도움을 줌
(성과)


For image captioning and VQA, our visualizations show that even non-attention based models learn to localize discriminative regions of input image.
이미지 캡션과 VQA의 경우, 우리의 우리의 시각화는 심지어 non-attention 기반의 모델도 입력 이미지에서 차별적 영역의 현지화를 학습하는 것을 보여줍니다.


We devise a way to identify important neurons through GradCAM and combine it with neuron names [4] to provide textual explanations for model decisions.
우리는 GradCAM을 통해 중요한 뉴런을 식별하는 것과 뉴런 이름을 모델 결정에 대한 텍스트 설명을 제공하는 방법을 고안합니다.



Finally, we design and conduct human studies to measure if Grad-CAM explanations help users establish appropriate trust in predictions from deep networks and show that Grad-CAM helps untrained users successfully discern a ‘stronger’ deep network from a ‘weaker’ one even when both make identical predictions.
마지막으로, 우리는 만약 Grad-CAM의 설명이 사용자들이 깊은 신경망으로 부터의 예측에 적절한 신뢰를 구축하는 데 도움이 되고 Grad-CAM이 훈련되지 않은 사용자가 ‘약한’ 네트워크로부터의 ‘강한’ 심층 네트워크 작업을 성공적으로 식별하는데 도움이 되는지를 측정하기 위해 인간 연구를 설계하고 수행합니다.
이게 무슨 말이고

Our code is available at https://github.com/ramprs/grad-cam/, along with a demo on CloudCV [2] and a video at youtu.be/COjUB9Izk6E.
코드 친절하게 알려줌

 

'논문' 카테고리의 다른 글

1020_논문 일기  (0) 2023.10.21
1019_논문 일기  (0) 2023.10.20
논문을 쓰기 위한 첫걸음  (0) 2023.09.23
NVAE: A Deep Hierarchical Variational Autoencoder 리뷰  (0) 2023.09.10