본문 바로가기

취미28

[멀티모달] 달리2(DALL-E2) 이해하기 "멀티모달 학습"는 두 종류 이상의 데이터 사이를 변환하도록 생성 모델을 학습하는 방식으로, 최근 이 분야에서 주목을 받은 모델 중 하나인 OpenAI의 DALL-E2에 대해 살펴보겠습니다. DALL-E2는 텍스트를 입력으로 받아 이미지를 생성하는 혁신적인 모델로, 이러한 멀티모달 기술의 한 예시입니다. 1. DALL-E2 멀티모달 학습(multimodal learning)에서는 두 종류 이상의 데이터 사이를 변환하도록 생성 모델을 학습합니다. 텍스트 투 이미지 생성을 위한 멀티모달 모델의 종류에는 Open AI의 DALL-E2, 구글 브레인의 Imagen, Stability AI, CompVis, Runway의 스테이블 디퓨전(stable diffusion), 딥마인드의 플라밍고 가 있습니다. 여기서는.. 2024. 2. 15.
[딥러닝] 합성곱 신경망(convolution) 딥러닝 기초 이미지 처리 및 컴퓨터 비전 분야에서 신경망은 이미지의 특징을 감지하고 추출하기 위해 합성곱 연산을 활용합니다. 이러한 합성곱 필터는 이미지의 일부분과 픽셀끼리 곱한 후 결과를 더하는 과정으로 이루어지며, 이미지의 영역이 필터와 유사할수록 큰 양수가 출력되고 반대로 유사하지 않을수록 큰 음수가 출력됩니다. 이를 통해 필터의 값에 따라 입력 이미지의 특성을 반영한 새로운 배열을 얻을 수 있습니다. 1. 합성곱 신경망 합성곱 층 MLP가높은 성능을 내지 못하는 이유는 입력 이미지의 공간 구조를 다루는 요소가 없기 때문입니다. 이를 해결하기 위해 합성곱 layer를 사용합니다. 합성곱은 필터를 이미지의 일부분과 픽셀끼리 곱한 후 결과를 더하는 것입니다. 이미지의 영역이 필터와 비슷할수록 큰 양수가 출력되고 필.. 2024. 2. 14.
[딥러닝] 다층 퍼셉트론(MLP) 딥러닝 기초 다층 퍼셉트론(MLP)은 이미지 분류를 위한 중요한 모델 중 하나입니다. 이 모델은 다양한 층과 활성화 함수를 통해 구성되어 있으며, 효율적인 학습을 위해 손실 함수와 옵티마이저도 함께 사용됩니다. 본문에서는 MLP의 구조와 핵심 요소들을 자세히 살펴보겠습니다. 1. MLP 구조 MLP에서 사용되는 다양한 층과 활성화 함수에 대해 설명합니다. 다층 퍼셉트론(MLP)는 지도학습을 사용해 이미지를 분류하는 모델입니다. MLP는 세종류의 층으로 이루어져 있습니다. Input 층의 크기는 x_train의 크기와 맞아야하고 Dense 출력 층의 크기는 y_train의 크기와 맞아야합니다. Input : 네트워크의 시작점, 네트워크의 입력 데이터 크기를 튜플로 정의합니다. Flatten : 입력을 하나의 벡터로 펼.. 2024. 2. 13.
[YOLO] Yolov8 이미지에서 표 영역 탐지하는 법 문서 내에는 텍스트, 이미지, 표 등 다양한 형식의 요소가 포함되어 있습니다. 특히, 표는 정보를 구조적으로 정리하여 전달하는 중요한 수단 중 하나입니다. 표의 영역을 정확하게 탐지하고 추출하는 것은 문서 처리 및 정보 추출에 있어서 핵심적인 작업입니다. 이를 위해 최신 객체 탐지 기술 중 하나의 YOLOv8 모델을 활용하여 표의 위치를 결정하고 해당 영역을 정확하게 추출하는 과정이 필요합니다. 이 글에서는 YOLOv8을 활용하여 문서 내의 표를 식별하고 추출하는 방법에 대해 살펴봅니다. 표 영역 탐지를 위한 YOLOv8 활용 표의 영역을 탐지하는 것은 문서 내에서 텍스트, 이미지, 표 등 다양한 형식의 요소를 인식하고 그 중에서 표를 식별하여 표의 행과열, 셀 등의 구조를 추출하는 것입니다. 이를 위해.. 2024. 2. 13.
[segmentation] SAM(segment-anything Model) 알고리즘 사용법 SAM(Segmet Anything Model)은 점이나 상자와 같은 입력 프롬프트에서 고품질 개체 마스크를 생성하여 이미지의 모든 개체에 대한 마스크를 생성하는데 사용할 수 있습니다. 1,100만 개의 이미지와 11억 개의 마스크로 구성된 데이터 세트에 대해 훈련되었으며 다양한 분할 작업에서 강력한 제로샷 성능을 발휘합니다. 관련 사이트에서 1B 마스크와 11M 이미지의 SAM(Segment Anything 모델) 및 해당 데이터 세트( SA-1B )를 공개하고 있습니다. 1. FastSAM 개요 고속 세그먼트 모델(FastSAM)은 무엇이든 세그먼트 작업을 위한 새로운 실시간 CNN 기반 솔루션입니다. 다양한 사용자 인터랙션 프롬프트를 기반으로 이미지 내의 모든 객체를 세그먼트화하도록 설계되었습니다... 2024. 2. 3.
[Github] 깃허브로 협업하는 방법 소프트웨어의 개발은 개인보다는 팀으로의 협업이 중요한 요소로 자리잡고 있습니다. 이러한 협업을 위해 Git 및 GitHub와 같은 협업 도구는 매우 중요한 역할을 하고 있습니다. GitHub는 코드관리, 버전관리, 이슈 트래킹, 코드 리뷰, 협업 기능 등 다양한 기능을 제공하여 효율적인 소프트웨어 개발 및 협업 환경을 제공합니다. 이 글에서는 GitHub를 사용하여 팀원들과의 협업을 하는 방법에 대해 알아보겠습니다. GitHub를 이용한 협업은 코드의 버전 관리부터 팀원 간의 의견 공유, 작업 분배, 코드 리뷰 등을 포함하고 있습니다. 이를 통해 팀원 간의 소통과 협업을 원활하게하고, 소프트웨어 개발 프로젝트를 효율적으로 관리할 수 있습니다. 1. 깃허브로 협업하는 방법 1. 원격 저장소에 공동작업자 추.. 2024. 1. 30.
[금융 데이터] 고객 대출 등급 분류 모델 개발 금융 기관은 대출 심사를 효율적으로 수행하고 대출 등급을 정확히 분류하여 채무 불이행의 위험을 최소화해야 합니다. 이를 위해 머신러닝과 데이터 과학 기술이 활용되어 고객 대출 등급 분류 모델이 개발되고 있습니다. DACON의 고객 대출 등급 분류 해커톤에서 제공되는 데이터를 활용하여 이러한 모델을 개발하는 과정에 대해 알아보겠습니다. 고객 대출 등급 분류 분류 모델을 구축하기 위해서는 데이터 전처리가 필수적입니다. 데이터의 품질을 향상시키기 위해 컬럼 선택, 데이터 불균형 처리를 위한 SMOTE(Synthetic Minority Over-sampling Technique), 그리고 데이터 스케일링 등의 전처리 단계가 필요합니다. 이러한 전처리를 거친 데이터를 활용하여 모델을 학습하고, 고객 대출 등급을 .. 2024. 1. 28.
[OCR] Tesseract 설치 방법 - 리눅스 환경 현대 사회에서는 문서 및 이미지를 디지털화하고 텍스트로 변환하는 필요성이 더욱 증가하고 있습니다. 이에 따라 광학 문자 인식(OCR) 기술이 중요성을 갖게 되었습니다. OCR은 이미지나 스캔된 문서에서 텍스트를 자동으로 인식하고 추출하여 컴퓨터가 이해할 수 있는 형태로 변환하는 기술입니다. 이러한 OCR 기술은 다양한 분야에서 활용됩니다. 문서 디지털화, 정보검색, 자동화, 웹 크롤링 등의 분야에서 특히 많이 사용되며, 대량의 문서를 처리하고 정보를 추출해야 하는 환경에서 특히 유용하게 활용됩니다. 1. OCR이란? OCR은 광학 문자 인식(Optical Character Recognition)의 약어로, 이미지나 스캔된 문서에서 텍스트를 자동으로 인식하고 추출하는 기술을 의미합니다. OCR 시스템은 기.. 2024. 1. 27.
[CTGAN] SDV로 합성 데이터 생성하기 현대의 데이터 과학 및 머신러닝 분야에서 데이터의 양과 품질은 매우 중요한 요소입니다. 그러나 실제 데이터를 수집하고 관리하는 것을 종종 어려운 일입니다. 특히 표 형태의 데이터를 생성하거나 분석할 때는 데이터의 특성을 잘 이해하고 합성하는 것이 중요합니다. 이에 따라 GAN(Generative Adversarial Networks)와 같은 딥러닝 모델이 부상하였습니다. GAN은 가짜 데이터를 생성하는데 있어서 매우 유용한 기술로, 특히 CTGAN(Conditional Tabular GAN)은 조건부 확률 밀도를 활용하여 표 형태의 데이터를 생성하는 데에 특화되어 있습니다. CTGAN은 실제 데이터의 특성을 잘 반영하면서 합성 데이터를 생성할 수 있는 능력으로 데이터 분석 및 모델 검증 등 다양한 분야에.. 2024. 1. 26.