본문 바로가기
취미

YOLOv9 : Learning What You Want to Learn Using Programmable Gradient Information 논문 해석

by climb_JJIYO 2024. 3. 4.
반응형

YOLOv8에 이어 2024년 2월 YOLOv9이 공개되었다. 기존의 네트워크에서 정보 손실의 문제점을 해결하기 위해 PGI를 사용하여 설계한 GELAN 신경망을 사용하여 기존 모델을 개선하였으며 이전의 모델보다 MS COCO 데이터셋에서 가장 우수한 성능을 보인다고 한다.

 

논문 : Implementation of paper -YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

YOLOv9 논문 Abstract

모델의 예측 결과가 Ground Truth에 가장 근접할 수 있도록 가장 적절한 목적 함수를 사용합니다.
예측을 위한 충분한 정보 획득을 용이하게 할 수 있는 적절한 아키텍처가 설계되어야 합니다.
기존 방법은 입력 데이터가 레이어별로 특징 추출 및 공간 변환을 거치면 많은 양의 정보가 손실된다는 사실을 무시합니다.
본 논문에서는 딥 네트워크를 통해 데이터를 전송할 때 발생하는 데이터 손실의 중요한 문제, 즉 정보 병목 현상과 역기능에 대해 살펴보겠습니다.

다중 목표를 달성하기 위해 심층 네트워크에서 요구되는 다양한 변화에 대처하기 위해 PGI(Programmable Gradient Information) 개념을 제안했습니다. PGI는 목적 함수를 계산하기 위해 작업에 대한 완전한 입력 정보를 제공할 수 있으므로 네트워크 가중치를 업데이트하기 위한 신뢰할 수 있는 기울기 정보를 얻을 수 있습니다.


또한 gradient path planning을 기반으로 하는 새로운 경량 네트워크 아키텍처인 GELAN(Generalized Efficient Layer Aggregation Network)이 설계되었습니다. GELAN의 아키텍처는 PGI가 경량모델에서 탁월한 결과를 얻었음을 확인시켜 줍니다. 제안된 GELAN과 PGI를 MS COCO 데이터 세트 기반 객체 탐지에서 검증했습니다.
결과는 GELAN 깊이별 컨볼루션을 기반으로 개발된 방법보다 더 나은 매개변수 활용을 달성하기 위해 기존 컨볼루션 연산자만 사용한다는 것을 보여줍니다. PGI는 경량모델부터 대형 모델까지 다양한 모델에 사용할 수 있습니다.
완전한 정보를 얻는 데 사용할 수 있으므로 처음부터 학습하는 모델은 대규모 데이터 세트를 사용하여 사전 훈련된 최신 모델보다 더 나은 결과를 얻을 수 있습니다. 비교결과는 그림 1에 나와있습니다.

 

그림1.MS COCO 데이터 세트의 실시간 객체 탐지기 비교. GELAN 및 PGI 기반 객체 감지 방법은 객체 탐지 성능 측면에서 이전의 모든 처음부터 학습하는 방법을 능가했습니다. 정확성 측면에서 새로운 방법은 대규모 데이터 세트로 사전 훈련된 RT DETR보다 성능이 뛰어나고 매개변수 활용 측면에서도 깊이별 컨볼루션 기반 설계 YOLO MS보다 성능이 뛰어납니다.

 

 

YOLOv9 논문 Introduction

딥러닝 기반 모델은 컴퓨터 비전, 언어처리, 음성 인식 등 다양한 분야에서 기존 인공지능 시스템보다 훨씬 뛰어난 성능을 입증했습니다. 최근 몇 년간 딥러닝 분야의 연구자들은 CNN, Transformers, Perceivers, Mambas 등 더욱 강력한 시스템 아키텍처와 학습 방법을 개발하는 방법에 주로 집중해왔습니다.
또한, 일부 연구자들은 손실함수, 레이블 할당 및 보조 감독과 같은 보다 일반적인 목적 함수를 개발하려고 노력했습니다.
위의 연구는 모두 대상과 라벨 간의 매핑을 정확하게 찾으려고 노력합니다.
그러나 대부분의 과거 접근 방식에서는 입력 데이터가 feedforward 프로세스 중에 무시할 수 없는 양의 정보 손실을 가질 수 있다는 점을 무시했습니다.
이러한 정보 손실은 편향된 경사 흐름으로 이어질 수 있으며, 이는 그 후에 모델을 업데이트하는 데 사용됩니다.
위의 문제로 인해 심층 네트워크가 대상과 라벨 간의 잘못된 연관성을 설정하여 훈련된 모델이 잘못된 예측을 생성할 수 있습니다. 딥 네트워크의 피드포워드 과정에서 입력 데이터의 정보가 손실되는 현상을 흔히 정보 병목 현상이라고 하며, 그 개략도는 그림 2와 같습니다.

 

그림2. 다양한 네트워크 아키텍처에 대한 무작위 초기 가중치 출력 특징 맵의 시각화 결과: (a) 입력 이미지, (b) PlainNet, (c) ResNet, (d) CSPNet 및 (e) 제안된 GELAN. 그림에서 우리는 다양한 아키텍처에서 손실을 계산하기 위해 목적 함수에 제공된 정보가 다양한 정도로 손실되며 우리 아키텍처는 가장 완전한 정보를 유지하고 목적 함수 계산을 위해 가장 신뢰할 수 있는 기울기 정보를 제공할 수 있음을 알 수 있습니다.

 


현재 이 현상을 완화할 수 있는 주요 방법은 다음과 같습니다.

(1) 가역적 아키텍처 사용 : 이 방법은 주로 반복되는 입력 데이터를 사용하고 입력 데이터의 정보를 명시적인 방법으로 유지합니다.
(2) 마스크 모델링 사용 : 주로 재구성 손실을 사용하고 추출된 특징을 최대화하고 입력 정보를 유지하는 암시적 방법을 채택합니다.
(3) 심층 감독 개념 도입 : 중요한 정보를 너무 많이 잃지 않은 얕은 피처를 사용하여 피처에서 대상까지의 매핑을 미리 설정하여 중요한 정보가 더 깊은 계층으로 전송될 수 있도록 합니다.

그러나 위의 방법들은 학습 과정과 추론 과정에서 서로 다른 단점을 가지고 있습니다. 예를 들어, 가역적 아키텍처에는 반복적으로 입력된 입력 데이터를 결합하기 위해 추가 레이어가 필요하므로 추론 비용이 크게 증가합니다.
또한 출력 레이어에 대한 입력 데이터 레이어는 너무 깊은 경로를 가질 수 없기 때문에 이러한 제한으로 인해 학습 과정에서 고차원의 의미 정보를 모델링하기 어려워집니다.

마스크 모델링의 경우 재구성 손실이 목표 손실과 충돌하는 경우가 있습니다. 또한 대부분의 마스크 매커니즘은 데이터와 잘못된 연결을 생성합니다. 심층 감독 매커니즘의 경우 오류가 누적되며, 얕은 슈퍼비전이 훈련과정에서 정보를 잃어버리면 후속 레이어에서 필요한 정보를 검색할 수 없습니다. 위의 현상은 어려운 작업과 small 모델에서 더욱 중요합니다.

 

위에서 언급한 문제를 해결하기 위해 우리는 PGI(Programmable Gradient Information)라는 새로운 개념을 제안합니다. 개념은 보조 가역 분기를 통해 신뢰할 수 있는 기울기를 생성하여 심층 기능이 대상 작업을 실행하기 위한 주요 특성을 계속 유지할 수 있도록 하는 것입니다.

보조 가역 분기의 설계는 다중 경로 기능을 통합하는 전통적인 심층 슈퍼비전 프로세스로 인해 발생할 수 있는 의미 손실을 방지할 수 있습니다. 즉, 우리는 다양한 의미 수준에서 기울기 정보 전파를 프로그래밍하고 이를 통해 최상의 훈련 결과를 달성합니다.

PGI의 리버시블 아키텍처는 보조 브랜치에 구축되므로 추가비용이 없습니다. PGI는 대상 작업에 적합한 손실 함수를 자유롭게 선택할 수 있으므로 마스크 모델링에서 발생하는 문제도 극복합니다. 제안된 PGI 메커니즘은 다양한 크기의 심층 신경망에 적용될 수 있으며 매우 깊은 신경망에만 적합한 심층 감독 메커니즘보다 더 일반적입니다.

본 논문에서는 ELAN을 기반으로 일반화된 ELAN(GELAN)을 설계했으며, GELAN 설계에서는 매개변수 수, 계산 복잡성, 정확성 및 추론 속도를 동시에 고려했습니다. 이 설계를 통해 사용자는 다양한 추론 장치에 적합한 계산 블록을 임의로 선택할 수 있습니다.

또한, 제안된 PGI와 GELAN을 결합한 다음 YOLOv9이라고 하는 차세대 YOLO 시리즈 객체 감지 시스템을 설계했습니다.
그리고 MS COCO 데이터 세트를 사용하여 실험을 수행했으며 실험 결과 제안한 YOLOv9이 모든 비교에서 최고의 성능을 달성했음을 확인했습니다.

 

1. 우리는 기존 심층신경망 구조를 가역적 기능의 관점에서 이론적으로 분석하였고, 이러한 과정을 통해 과거 설명하기 어려웠던 많은 현상들을 성공적으로 설명하였습니다. 우리는 또한 이 분석을 기반으로 PGI 및 보조 가역 분기를 설계하여 우수한 결과를 얻었습니다.


2. 우리가 설계한 PGI는 심층 감독이 매우 심층적인 신경망 아키텍처에만 사용될 수 있다는 문제를 해결하므로 새로운 경량 아키텍처를 일상 생활에 실제로 적용할 수 있습니다.


3. 설계한 GELAN은 기존의 컨볼루션만을 사용한 최점단 기술을 기반으로 한 깊이별 컨볼루션 설계보다 더 높은 매개변수 사용을 달성하면서도 가볍고 빠르며 정확하다는 큰 장점을 보여줍니다.


4. 제안된 PGI와 GELAN을 결합한 MS COCO 데이터 세트의 YOLOv9의 객체 감지 성능은 모든 측면에서 기존 실시간 객체 감지기를 크게 능가합니다.

결론적으로, 제안된 YOLOv9는 객체 감지 기술의 최신 발전을 대표하며, PGI와 GELAN의 혁신적인 개념은 심층 학습 및 컴퓨터 비전 분야에서의 미래 발전을 이끌어 나갈 것입니다.

반응형