Study With Inha

[Paper Review] CVPR 2024 Highlight Paper, The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding 논문 리뷰 본문

Paper Review

[Paper Review] CVPR 2024 Highlight Paper, The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding 논문 리뷰

강이나 2024. 8. 7. 16:14
CVPR 2024 Highlight Paper
(FG-OVD) The devil is in the fine-grained details: 
Evaluating open-vocabulary object detectors for fine-grained understanding

논문 링크: https://arxiv.org/abs/2311.17518
프로젝트 페이지: https://lorebianchi98.github.io/FG-OVD/
 

The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding

We evaluated some state-of-the-art models on our benchmark suite. On the y-axis of the first two rows of the graphs, there is the mean Average Precision (mAP) of the models and, on the x-axis, the number of negative captions in the vocabulary. While every

lorebianchi98.github.io


 

1. Introduction

Training dataset에 포함된 한정된 class만을 탐지할 수 있는 closed-world 모델에 이어서,
free-form의 text sentence를 입력으로 받아 다양한 class를 탐지할 수 있는 open-vocabulary 모델들이 등장하면서 computer vision task들의 자유도가 높아졌다.

LLM의 발전에 힘 입어 open-vocabulary(=open-world) 모델들이 실제 환경에서 사용할 수 있을만큼의 성능 향상을 보여주고 있다.
하지만 여전히 object의 자세한 특성과 같은 fine-grained detail에서는 정확하지 않은 결과를 보이곤 했다.
이에, 본 논문은 object의 난이도(hard, normal, easy, trivial) 그리고 속성(color, material, pattern, transparency) 등에 대한 fine-grained description을 활용한 evaluation protocol을 제안한다.
여기서 특이한 점은 positive fine-grained caption 뿐만 아니라 hard negative caption을 생성하여 함께 활용한다는 것이다.

위와 같이 object의 속성에 대한 detail description을 근거로 open-vocabulary detection을 수행하는 태스크를 "Fine-Grained Open-Vocabulary object Detection (FG-OVD)"라는 이름으로 정의했으며,
본 논문이 가진 Contribution은 아래와 같다.

1. FG-OVD라는 새로운 태스크를 제안하고, 이를 위한 새로운 evaluation protocol을 제안함.
2. Object의 detail property에 대한 open-vocabulary detection 성능을 평가할 수 있는 새로운 benchmark를 도입함.
3. 이를 통해 open-vocabulary detector 분야의 SoTA 모델들의 성능을 평가하고, 이들이 갖고 있는 한계점에 대해서 설명함.

 


2. Related Work

2.1. Zero-shot Open-vocabulary Object Detection

Zero-shot (ZS)이란 inference time에 training dataset에서 보지 못했던 object class에 대한 성능을 평가하는 것을 말한다.
초기 zero-shot object detection의 경우 마지막 classification layer를 language embedding으로 대체하는 접근법이 많았다.
하지만 최근 CLIP이나 ALIGN과 같은 large-scale image-text pair로 학습된 model들이 연구되면서, vision과 language 간의 strong semantic interaction이 가능해졌다.
이후 open-vocabulary detector들은 pre-trained vision-language backbone으로부터 얻은 knowlege를 더 좋은 ROI-Align head를 만드는 데에 활용하거나,
직접적으로 CLIP 모델을 open-vocabulary detector로 활용하기도 했다.

최근에는 Referring Expression Comprehension (REC)나 Phrase Grounding (PG)와 같은 태스크들도 활발하게 연구되고 있다.
해당 태스크들은 single complex sentence를 입력으로 받게 되는데,
REC는 이미지에서 single correct object의 위치를 찾아내는 것을 목표로 하고,
PG는 text에 존재하는 모든 entities의 위치를 찾는 것을 목표로 한다.
REC나 PG는 본 논문에서 제안하는 FG-OVD와 비슷한 성질의 태스크라고 생각할 수 있으나, 아래와 같은 차이점이 존재한다.

  1. REC과 PG는 'unambiguous sentence'가 입력으로 주어진다고 가정하고 있기 때문에, 입력받은 텍스트가 설명하는 object가 이미지 내에 확실하게 존재한다고 생각해도 무방함.
  2. REC와 PG를 타겟으로 학습된 GroundingDino나 GLIP의 경우 positive와 hard negtaive 간의 difficult choice를 하는 성능에 대한 성능평가가 이루어지지 않았음. 평가 결과, fine-grained object characteristic에 대한 구분 능력에 부족함을 보였음.

 

2.2. Open-vocabulary Detection Benchmarks

COCO나 LVIS와 같은 데이터셋들은 localization이나 classification 성능을 평가하기 위해 가장 널리 사용되는 데이터셋이다.
COCO 데이터셋의 경우 원래는 closed-set detector들의 성능을 평가하기 위해서 고안되었지만,
최근에는 open-vocabulary detection과 zero-shot detection 평가를 위해 48개의 base category들로 학습시킨 후 17개의 novel category들로 테스트를 진행하는 식으로 변형되어 사용되기도 한다.
LVIS 데이터셋은 다양한 object category들을 데이터셋에 포함된 빈도(common, frequent, and rare)에 따라 구분지어 놓았기에,
많은 연구들은 LVIS의 frequent와 common object들을 training 시에 활용하고 test 시에 rare categories들에 대한 성능을 평가함으로써 novel category에 대한 정확도를 측정할 수 있었다.

본 논문에서 제안하는 데이터셋과 가장 유사한 데이터셋으로는 OVAD와 VAW가 있다.
object의 attribute와 negative sample을 활용한다는 점은 유사하나, FG-OVD에서 제안하는 벤치마크와는 아래와 같은 차이점이 존재한다.

  1. 그들은 attribute detector를 위한 benchmark에 가깝기 때문에, object class를 탐지하는 head외에 class의 attribute를 추론할 수 있는 개별적인 head를 가진 경우가 많음.
  2. 또한 natural language sentence이 아닌 json과 같은 structured annotation을 필요로 하기 때문에, VLM SoTA 모델들의 성능을 평가하기에는 한계점들이 많았음.
  3. challenging한 negative example들을 포함하고 있지 않아 현재 detector들의 부족한 점을 평가하는 데에 있어서 한계가 존재함.

FG-OVD는 natural language sentence들을 입력으로 받으면서 hard negative sample들을 포함하고 있으므로,
기존 데이터셋이 가지고 있는 한계점들을 극복할 수 있다고 한다.


3. Methodology

3.1. Evaluation Protocol

OVD Formalization.

  • open-vocabulary object detector($\phi$)는 image와 $T$개의 arbitrary sentence들로 구성된 vocabulary set($\{c_j\}^{T}_{j=1}$)을 입력으로 받음.
  • 모델은 vocabulary object($c_j$)에 대한 bounding box($b_i$)와 score($s_i$)를 출력하게 됨.
  • vocabulary set($\{c_j\}^{T}_{j=1}$)에서 가장 높은 점수를 기록한 caption이 선정되는 구조

 

Dynamic Vocabularies for FG-OVD.

  • $o_i$: ground truth object. GT object마다 vocabulary dictionary $V_i$가 주어짐.
  • $c^{pos}_{i}$: GT object $o_i$에 대응되는 positive caption.
  • $c^{neg}_{i,1}$: GT object $o_i$와 의미론적인 차이가 있는 negative captions.
  • 따라서 dictionary $V_i$는 GT object마다 주어지며, 이는 $\{c^{pos}_{i}, c^{neg}_{i,1}, ..., c^{neg}_{i,N}\}$으로 구성되어 있음. 여기서 label $l^{'}_{i}$는 $c^{pos}_{i}$가 되며, 이는 inference 시 vocabulary에서 찾게 됨.
  • 최종적으로는 GT object마다의 bounding box와 label을 예측해야 함.
  • 실제로는 한 이미지 내에 같은 특성을 가지는 object들이 여러 개 존재할 수 있음 (아래 Figure 2의 보라색 bounding box처럼)
    • 같은 특성을 가지는 object들에 대해서 중복해서 inference를 시행하는 것이 아니라, 같은 property를 가진 그룹끼리 묶어서 single inference를 수행함.
    • 따라서 한 이미지 내에서 같은 특성을 가진 object의 경우 positive caption $c^{pos}$는 서로 공유됨.

 

Post-processing.

같은 class에 대한 near-duplicate prediction들을 제거하기 위해서 class-aware non-maximum suppression (NMS)이 수행되곤 한다.
하지만 Detection을 평가하는 전통적인 metric인 COCO mAP의 경우 정답인 prediction과 같은 위치에 더 높은 오답이 존재할 경우에도 penalty가 적용되지 않는 구조이다.
따라서 이를 해결하기 위해서 class-agnostic NMS를 post-processing 과정에 추가하여 location마다 하나의 prediction만 존재할 수 있도록 했다.
이를 통해 hard negative sample에 의한 잘못된 prediction 결과로 mAP가 높아보이는 경우가 제거되어, 평가의 공정성을 높였다.

 

Metrics.

  • Post-processing이 적용된 결과는 Median Rank metric을 적용한 COCO mAP로 평가됨.
    • Given object $o_i$에 대해서 IoU가 0.5 이상인 예측 결과들에 대해서, confidence score가 높은 것에서 낮은 것 순으로 정렬함.
    • correct caption $l^{'}_i$와 일치하는 vocabulary의 confidence score $s_j$의 ranked list 상의 position을 기록함.
    • 그 후 전체 object들에 대한 medican rank를 평가함
  • mAP는 maximally activated label에만 집중하지만, median rank를 도입할 경우 dictionary 내의 다른 선택지 중 correct label을 선택한 confidence에 대해서 더 잘 평가할 수 있다.

 

3.2. Dataset

FG-OVD 데이터셋은 Difficulty-based와 Attribute-based로 나누어져 있다.

  • Difficulty-based (trivial, easy, medium, hard): negative caption의 난이도에 따른 성능을 평가할 수 있음
  • Attribute-based (color, material, pattern, transparency): object의 특정 attribute에 대한 이해가 정확한지 평가할 수 있음. 29개의 color, 14개의 material, 8개의 pattern, 3개의 transparency로 이루어져 있음.

 

Positive Caption Generation.

  • 각 object는 하나 이상의 속성(attribute)을 가지고 있으며, object를 구성하는 part들은 각각 해당 속성을 지니고 있다.
  • object와 part에 대한 attribute 정보를 기반으로 LLM(OpenAssistant-LLAMA-30B)을 사용하여 structured object description을 생성할 수 있음.
  • PACO에서 이미 natural language caption을 제공하고 있지만, 이보다 더 많은 caption을 만들어내기 위함임.

Negative Captions Generation.

  • Positive Caption와 구조적인 유사성은 지니고 있으나 의미론적인 차이(semantic difference)를 지닌 challenging한 Negative Caption들을 생성하는 것이 못적임
  • 기존 attribute를 다른 attribute로 교체하는 Attribute Substitution을 활용함.
    • LLM을 사용하여 완전히 새롭게 생성할 경우 발생할 수 있는 hallucination들을 방지함과 동시에 syntactic variation을 보장하기 위해서임.
  • 다양한 attribute에 대한 모델의 성능을 평가하기 위해서 아래와 같은 두 가지 negative scenario를 구성함.
    • Difficulty-based (Trivial, Easy, Medium, Hard)
      • Trivial: negative captions are randomly sampled from other objects
      • Easy, Medium, Hard: 난이도가 상승할 수록 replace되는 attribute의 개수가 적어져 어려워짐 (3개 -> 2개 -> 1개 순서)
    • Attribute-based (Color, Material, Transparency, Pattern)
      • 각 카테고리에 해당하는 attribute 하나만 변경한 것으로, detector가 해당 attribute type에 대한 이해가 정확한지 평가할 수 있음


 

4. Experiments

4.1. Evaluated Models

  • ViLD, Detic, CORA
  • OWL, OWLv2
  • GroundingDino: 기존 모델은 open-vocabulary caption을 입력으로 받지 못하기 때문에, 각 caption에 대한 forward pass를 실행한 후 결과를 merge한 다음 evaluation 진행.

 

4.2. Results

Performance vs Negative Difficulty.

    • negative sampe의 개수($N$)를 5로 두고 open-vocabulary detection의 성능 평가 진행
    • Trivial과 같이 헷갈릴 수 있는 negative sample이 없는 경우에 대해서는 대부분의 모델들에서 높은 localizing과 recognizing 성능을 보였음
    • 하지만 Hard-negative sample들이 포함되는 순간 급격한 성능 변화를 보임
      • Detic의 경우 Trivial에서는 가장 높은 성능을 보였지만 Hard에서는 가장 낮은 성능을 보임 (Detic bases its strength on training with large image-level datasets, which add strong class-wise discriminative skills while largely sacrificing fine-grained attribute recognition abilites)
      • standard benchmark (LVIS)의 결과와 hard negative에 대한 성능 결과도 완전히 일치하지 않음 (Detic은 LVIS의 Rare 케이스에서는 높은 성능을 보였지만 Hard negative에 대해서는 낮은 성능을 보임)
      • Detector head에서 image-langue 간의 feature를 contrastively 학습한 OWL이나 ViLD와 같은 모델에서 hard-negative에 대한 성능이 가장 높게 나왔음
    • large-scale web-scale data(10B)로 Self-supervised learning한 OWLv2는 OWL에 비해 큰 성능 향상이 없었음.
      • OWLv2의 경우 이미 알고 있는 class에 대한 visual robustness는 좋아졌을지 몰라도, 거대 데이터 속에서 discriminative attribute를 잘 학습하지는 못한 것 같음.
    • 아래 결과를 보면 Trivial에서 Hard로 넘어갔을 때 모델의 score가 어떻게 변하는지 확인할 수 있음.

 

Performance vs Attribute Type.

  • 특정 attribute만 hard negative로 변경하여 실험 진행 ($N = 2$)
  • Color가 가장 맞추기 쉬운 attribute였고, OWLv2가 가장 높은 성능을 보임
    • 아마 web-sacle image-text pair에 color에 대한 description이 많기 때문일 것
  • Transparency와 Pattern에 대한 성능은 전반적으로 낮았음.
    • transparency와 pattern에 대한 image label이나 alt-text caption은 기존 데이터셋들에 많이 포함되어 있지 않기 때문임

 

Performance vs Vocabulary Size.

  • negative caption의 갯수인 $N$이 커질수록 detector의 성능은 낮아짐
    • Detic 모델이 가장 가파른 성능 하락을 보임
    • OWLv2와 ViLD는 Color와 Material에 대한 hard setting에서 좋은 성능을 보였지만, Pattern이나 Transparency에 대해서는 낮은 성능을 보임 (이는 그들의 training data에 이런 attribute에 대한 데이터가 부족했기 때문일 것)
    • CORA는 negative sample의 개수가 조금만 많아져도 성능이 낮은 것으로 보아, fine-grained feature에 취약한 Open-vocabulary 모델들의 한계점을 여실히 보여줌
  • $N$이 커질수록 scores distribution entropy가 커져 잘못된 답을 내놓을 가능성이 커졌음


 

5. Conclusions

  •  Open-vocabulary Model들의 fine-grained attribute에 대한 이해도를 평가할 수 있는 새로운 evaluation tool 제공
  • LLM을 적용하여 high-quality의 caption을 생성했고, 데이터셋을 여러 level로 나누어서 고도화된 결과 분석을 할 수 있도록 함.
  • 일반적으로 detector의 성능을 평가한 결과와 fine-grained 성능 결과는 다를 수도 있다는 것을 보여주었음. (실제로 가장 최근에 나온 open vocab 모델이 가장 좋지 않은 결과를 보였음)

반응형
Comments