본문 바로가기
취미

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information - 4.Methodology

by climb_JJIYO 2024. 3. 15.
반응형

새롭게 공개된 YOLOv9 논문에서 4.Methodology(방법론) 파트를 해석합니다.

YOLOv9는 PGI와 GELAN 아키텍처를 사용합니다. YOLOv9는 객체 검출 분야에서의 혁신적인 발전을 이루는 데 기여한 새로운 아키텍처인 PGI와 GELAN을 도입한 최신 버전의 객체 검출 모델입니다. 이 모델은 주변 정보를 활용한 객체 검출의 정확도 향상과 클래스 불균형 문제를 해결하기 위한 새로운 접근 방식을 제시합니다. 이전 버전에 비해 더욱 정확하고 효율적인 객체 검출을 제공하며, 다양한 응용 분야에서 활용될 것으로 기대됩니다. 이번 논문에서는 PGI와 GELAN 아키텍처에 대한 상세한 설명과 함께 YOLOv9의 성능향상에 대한 실험 결과를 제시하고 있습니다.

1. YOLOv9 방법론 - PGI

그림3. PGI는 주로 세 가지 구성 요소로 구성됩니다.

 

앞서 언급한 문제를 해결하기 위해 그림3(d)와 같이 프로그래밍 가능한 기울기 정보(PGI)라는 새로운 보조 감독 프레임워크를 제안합니다. PGI는 주로 (1) 주 분기, (2) 보조 가역 분기, (3) 다단계 보조 정보의 세가지 구성 요소를 포함합니다.

그림 3(d)에 우리는 PGI의 추론 과정이 메인 브랜치만을 사용하므로 추가적인 추론 비용이 필요하지 않음을 알 수 있습니다. 나머지 두 가지 구성 요소는 딥러닝 방법에서 몇 가지 중요한 문제를 해결하거나 속도를 늦추는데 사용됩니다. 그 중 보조 가역 가지는 신경망의 심화로 인한 문제를 해결하기 위해 고안되었습니다.

 

보조 가역 분기

PGI에서는 신뢰할 수 있는 그래디언트를 생성하고 네트워크 파라미터를 업데이트하기 위해 보조 가역 브랜치를 제안합니다. 손실 함수는 데이터에서 대상으로 매핑되는 정보를 제공함으로써 지침을 제공하고 대상과 관련성이 낮은 불완전한 피드포워드 기능에서 잘못된 상관 관계를 찾을 가능성을 방지할 수 있습니다.

우리는 가역 아키텍처를 도입하여 완전한 정보를 유지할 것을 제안하지만, 가역 아키텍처에 메인 브랜치를 추가하면 많은 추론 비용이 소요됩니다.

 

그림 3(d)의 아키텍처를 분석한 결과 심층에서 얕은 층까지의 연결을 추가하면 추론 시간이 20% 증가하는 것으로 나타났습니다. 입력 데이터를 네트워크의 고해상도 컴퓨팅 계층(옐로우 박스)에 반복적으로 추가하면 추론 시간이 심지어 두 배를 초과합니다.

 

우리의 목표는 신뢰할 수 있는 기울기를 얻기 위해 변화할 수 있는 아키텍처를 사용하는 것이기 때문에 추론 단계에서 "역전"만이 필요한 조건은 아닙니다. 이를 고려하여 가역 가지를 심층 감독 가지의 확장으로 간주한 후 그림 3(d)와 같이 보조 가역 가지를 설계합니다.

정보 병목 현상으로 인해 중요한 정보를 추출하는데 도움이 되는 매개변수 학습을 유도하며, 위의 작업을 통해 메인 브랜치가 대상 작업에 더 효과적인 기능을 얻을 수 있습니다. 또한 복잡한 작업에는 더 깊은 네트워크에서 변환이 필요하기 때문에 변화할 수 있는 아키텍처는 일반 네트워크보다 얕은 네트워크에서 더 나쁜 성능을 발휘합니다.

여기서 제안한 방법은 메인 브랜치가 완전한 원본 정보를 유지하도록 강요하지 않고 보조 감독 메커니즘을 통해 유용한 기울기를 생성하여 업데이트 합니다. 이 설계의 장점은 제안된 방법을 더 얕은 네트워크에도 적용할 수 있다는 것입니다.

 

마지막으로 추론 단계에서 보조 가역 분기를 제거할 수 있으므로 원래 네트워크의 추론 기능을 유지할 수 있습니다.

우리는 또한 보조 가역 분기의 역할을 수행하기 위해 PGI의 모든 가역 아키텍처를 선택할 수 있습니다.

 

그림4. GELAN의 아키턱쳐 : CSPNet을 모방하고 ELAN을 모든 계산 블록을 지원할 수 있는 GELAN으로 확장합니다.

다단계 보조 정보

이 섹션에서는 다단계 보조 정보가 어떻게 작동되는지 논의합니다. 다중 예측 분기를 포함한 심층 감독 아키텍처는 그림 3(c)과 같습니다. 객체 감지를 위해 서로 다른 기능 피라미드를 사용하여 서로 다른 작업을 수행할 수 있습니다.

예를 들어 서로 다른 크기의 객체를 함께 감지할 수 있습니다.

 

따라서 심층 감독 분기에 연결한 후 얕은 특징을 작은 물체 감지에 필요한 특징을 학습하도록 안내되며, 이때 시스템은 다른 크기의 물체의 위치를 배경으로 간주합니다. 그러나 위의 행동은 심층 특징 피라미드가 대상 물체를 예측하는데 필요한 많은 정보를 잃게 할 것입니다.

 

이 문제와 관련하여 각 특징 피라미드는 다양한 대상에 대한 예측을 학습하기 위해 후속 메인 브랜치가 완전한 정보를 유지할 수 있도록 모든 대상 객체에 대한 정보를 수신해야한다고 생각합니다. 다단계 보조정보의 개념은 그림 3(d)와 같이 보조감독의 특징 피라미드 계층과 메인 브랜치 사이에 통합 네트워크를 삽입한 후 이를 이용하여 서로 다른 예측 헤드에서 반환된 기울기를 결합하는 것입니다. 그런 다음 다단계 보조 정보는 모든 대상 개체를 포함하는 기울기 정보를 집계하고 이를 주 분기에 전달한 다음 매개변수를 업데이트합니다.

 

이때 메인 브랜치의 특징 피라미드 계층의 특성은 특정 개체의 정보에 의해 지배되지 않습니다.

결과적으로 우리의 방법은 심층 감독에서 깨진 정보 문제를 완화할 수 있습니다. 또한 모든 통합 네트워크는 다단계 보조정보에 사용할 수 있습니다. 따라서 다양한 크기의 네트워크 아키텍처 학습을 안내하기 위해 필요한 의미 수준을 계획할 수 있습니다.

 

2. YOLOv9 방법론 - GELAN

이 섹션에서는 제안된 새로운 네트워크 아키텍처인 GELAN에 대해 설명합니다. 기울기 경로 계획으로 설계된 CSPNet과 ELAN이라는 두가지 신경망 아키텍처를 결합하여 경량, 추론 속도 및 정확도를 고려한 일반화된 효율적 계층 집계 네트워크(GELAN)을 설계했습니다. 전체적인 아키텍처는 그림 4에 나와있습니다.

원래 컨볼루션 레이어의 적층만을 사용했던 ELAN의 기능을 모든 계산 블록을 사용할 수 있는 새로운 아키텍처로 일반화 했습니다.

 

 

결론적으로, 이번 글에서는 YOLOv9에 사용된 두가지 아키텍쳐 PGI와 GELAN에 대해 살펴보았습니다. 결론적으로 YOLOv9의 PGI과 GELAN은 객체 검출 분야에서 혁신적인 발전을 이루는데 기여하고 있습니다. 이러한 기술의 도입은 객체 검출 알고리즘의 정확성과 효율성을 높이는데 큰 장점을 제공하며, 앞으로의 연구와 응용 분야에서 더욱 중요한 역할을 할 것으로 전망됩니다.

반응형