본문 바로가기
취미

YOLOv9 논문 주요 연구

by climb_JJIYO 2024. 3. 5.
반응형

 

YOLOv9 논문에서 제안된 PGI 아키텍처를 사용한 가벼운 신경망은 GELAN 관련한 주요 연구로 Real-time Object Detectors(실시간 객체탐지), Reversible Architectures(바뀔 수 있는 아키텍처), Auxiliary Supervision(보조 지도)를 설명하고 있습니다.

1. Real-time Object Detectors(실시간 객체탐지)

현재 가장 널리 사용되는 실시간 물체 감지기는 YOLO 시리즈이며, 이러한 모델의 대부분은 CSPNet 또는 ELAN 및 CSPNet과 ELAN을 변형한 것을 주요 컴퓨팅 장치로 사용합니다. 특징 통합 측면에서 개선된 PAN, FPN을 도구로 사용하고, 개선된 YOLOv3 헤드 또는 FCOS 헤드를 예측 헤드로 사용합니다. 최근에도 DETR을 지원하는 RT DETR과 같은 일부 실시간 객체 탐지기도 제안되었습니다.
그러나 DETR 시리즈 객체 탐지기는 해당 도메인의 사전 학습된 모델 없이 새로운 도메인을 적용하기가 매우 어렵기 때문에 현재 가장 널리 사용되는 실시간 객체 탐지기는 여전히 YOLO 시리즈입니다.
본 논문에서는 제안된 방법을 개발하기 위한 기반이로 다양한 컴퓨터 비전 작업과 다양한 시나리오에서 효율성이 입증된 YOLOv7을 선택합니다. 제안된 PGI로 아키텍처와 훈련 프로세스를 개선하기 위해 GELAN을 사용합니다. GELAN을 사용하는 새로운 접근 방식은 제안된 YOLOv9를 차세대 최고의 실시간 객체 탐지기로 만듭니다.

2. Reversible Architectures(바뀔 수 있는 아키텍처)

바뀔 수 있는 아키텍처의 연산 단위는 바뀔 수 있는 변환 특성을 유지해야 하므로 각 연산 단위 계층의 출력 특징 맵이 완전한 원본 정보를 유지할 수 있음을 보장할 수 있습니다. 이전에 RevCol은 기존의 가역 단위를 여러 수준으로 일반화했으며, 이를 통해 다양한 레이어 단위로 표현된 의미 수준을 확장할 수 있었습니다. 다양한 신경망 아키텍처에 대한 문헌 검토를 통해 우리는 다양한 수준의 바뀔 수 있는 속성을 지닌 고성능 아키텍처가 많다는 사실을 발견했습니다.
예를 들어 Res2Net 모듈은 서로 다른 입력 파티션을 계층적 방식으로 다음 파티션과 결합하고 변환된 모든 파티션을 뒤로 전달하기 전에 연결합니다. CBNet은 복합 백본을 통해 원본 입력 데이터를 다시 도입하여 완전한 원본 정보를 얻고, 다양한 구성 방법을 통해 다양한 수준의 다단계 바뀔 수 있는 정보를 얻습니다. 이러한 네트워크 아키텍처는 일반적으로 매개변수 활용도가 뛰어나지만 추가 복합 레이어로 인해 추론 속도가 느려집니다 . DynamicDet은 CBNet과 고효율 실시간 객체 탐지기 YOLOv7과 결합하여 속도, 매개변수 수 및 정확도 간에 매우 좋은 절충안을 달성합니다.
본 논문에서는 바뀔 수 있는 분기를 설계하기 위한 기반으로 DynamicDet 아키텍처를 소개합니다. 또한 제안된 PGI에는 바뀔 수 있는 가역적 정보가 추가로 도입됩니다.도입됩니다. 제안된 아키텍처는 추론 과정에서 추가적인 연결이 필요하지 않기 때문에 속도 , 매개변수 , 양 , 정확성 등의 장점을 완벽하게 유지할 수 있습니다 .

3. Auxiliary Supervision(보조 지도)

심층 지도는 가장 일반적인 보조 지도 방법으로 중간 계층에 추가 예측 계층을 삽입하여 훈련을 수행합니다. 특히 트랜스포머 기반 방법에 도입된 다층 디코더의 적용이 가장 일반적입니다. 또 다른 일반적인 보조 감독 방법은 관련 메타 정보를 활용하여 중간 계층에서 생성된 기능 맵을 안내하고 대상 작업에 필요한 속성을 갖도록 만드는 것입니다.
이러한 유형의 예로는 객체 탐지기의 정확도를 높이기 위해 분할 손실 또는 깊이 손실을 사용하는 것이 있습니다. 최근에는 모델의 수렴 속도를 높이고 동시에 견고성을 향상시키기 위해 다양한 레이블 할당 방법을 사용하여 다양한 보조 지도 메커니즘을 생성하는 많은 보고서가 있습니다.
그러나 보조 지도 감시 메커니즘은 일반적으로 대형 모델에만 적용되므로 경량 모델에 적용할 경우 과소 매개변수화 현상이 발생하기 쉬우며 이로 인해 성능이 저하됩니다 . 제안한 PGI 는 다단계 의미 정보를 재프로그래밍하는 방법을 설계했으며 , 이 설계를 통해 경량 모델도 보조 감독 메커니즘의 이점을 누릴 수 있습니다 .

 

결론적으로, 이번 논문에서 YOLOv9의 성능 향상을 위해 PGI와 GELAN 아키텍처를 소개하고, 이를 통해 실시간 객체 탐지, 바뀔 수 있는 아키텍처, 보조 지도에 대한 연구를 진행했습니다. 결론적으로, 이번 연구는 YOLOv9의 성능 향상을 위해 다양한 방법론을 도입하고 실험하여 객체 탐지의 정확도와 효율성을 높였습니다. 이를 통해 실제 응용에서 높은 성능을 발휘할 수 있는 객체 탐지 모델을 제안하고 있습니다.

반응형