OpenAI에서 새로운 인공지능 모델 '소라(Sora)'를 발표했습니다. 이 모델은 텍스트를 입력으로 받아 해당 내용에 맞는 비디오를 생성하는 text-to-video 기술을 기반으로 합니다. 소라의 출시로 인해 사용자는 텍스트 입력만으로 고품질의 비디오를 생할 수 있는 기술에 접하게 되었습니다. 이는 OpenAI가 이전에 출시한 DALL-E와 같은 모델들과 함께, 텍스트와 이미지, 비디오 등 다양한 형식의 데이터를 상호 변환하는 능력을 더욱 발전시켰다는 것을 의미합니다.
1. OpenAI의 새 인공지능 모델 '소라(Sora)' 출시
OpenAI에서 text-to-video 모델 Sora를 출시했습니다. text-to-video는 사용자가 입력한 텍스트 명령어에 해당하는 영상을 생성하는 AI 기술입니다. text-to-video모델은 고품질의 비디오를 사용자의 메시지의 의도에 맞춰 최대 1분 길이의 비디오를 생성할 수 있습니다. 현재 Sora모델은 누구나 접근 가능한 제품으로 출시하지 않았습니다. 결과물만 홈페이지에 공개된 상태이며 모델의 결함과 취약점을 찾는 오영 가능성을 연구하고 있다고 합니다. 출시일자도 미정이며 가격이나 라이센스도 공개되지 않았습니다.
DALL-E가 출시되었을 때 인공지능을 보는 방식이 바뀌었고, 기술적 중요성을 넘어 텍스트를 작성하면 이미지를 생성할 수 있다는 생각이 실현되었습니다. 이로 인해 텍스트에서 이미지를 생성할 수 있는 모델이 가속화되어 Google은 Imagen 등 오픈소스 커뮤니티에서 활발하게 연구되고 공개되었습니다.
OpenAI에 따르면 Sora는 여러 캐릭터, 특정 동작 유형, 피사체와 배경의 정확한 디테일을 포함한 복잡학 장면을 생성할 수 있다고 합니다. Sora모델은 프롬프트에서 사용자가 요청한 내용뿐만 아니라 이러한 내용이 실제 세계에 어떻게 존재하는지를 이해합니다.
또한, 생성된 단일 비디오 내에서 캐릭터와 시각적 스타일을 유지하는 여러 장면도 만들 수 있습니다.
그러나, OpenAI에서는 현재 Sora 모델의 부족한 부분도 언급하고 있습니다. 복잡한 장면의 일관성을 정확하게 시뮬레이션 하는데 어려움을 겪을 수 있으며, 원인과 결과의 특정 사례를 일관성 있게 표현하지 못할 수 있습니다. 예를 들어 어떤 사람이 쿠키를 한 입 먹은 상태이지만 나중에는 쿠키를 먹은 자국이 없을 수도 있습니다.
그리고 왼쪽과 오른쪽을 혼합하는 등 프로므트의 공간적 세부 사항을 혼동할 있으며, 시간이 지남에 따라 발생하는 이벤트에 대한 정확한 설명에 어려움이 있을 수 있습니다.
2. OpenAI의 text-to-video 기술
OpenAI의 기술보고서에는 모든 유형의 시각적 데이터 생성 모델의 대규모 훈련을 가능하게 하는 통합 표현으로 변환하는 방법과 Sora의 기능과 한계에 대한 질적 평가에 중점을 둡니다.
시각적 데이터를 패치로 변환
LLM에는 텍스트 토큰이 있는 반면 Sora에는 시각적 패치가 있습니다. 패치는 이전에 시각적 데이터 모델을 효과적으로 표현하는 것으로 나타났고, 다양한 유형의 비디오 및 이미지에 대한 생성 모델을 훈련하기 위한 확장성이 뛰어나고 효과적이라는 것이라는 것을 발견했습니다.
고차원의 비디오를 저차원 잠재 공간으로 압축하여 비디오를 패치로 변환합니다. 그런 다음 시공간 패치로 분해합니다.
비디오 압축 네트워크
시각적 데이터의 차원을 줄이는 네트워크를 훈련합니다. 이 네트워크는 원시 비디오를 인풋으로 받고 시간적, 공간적으로 압축된 잠재 표현을 출력합니다. Sora는 압축된 잠재 공간 내에서 훈련을 받은 후 비디오를 생성합니다. 또한 생성된 잠재 공간을 다시 픽셀 공간에 매핑하는 디코더 모델을 훈련합니다.
시공간 잠재 패치
압축된 입력 비디오가 주어지면 변환기 토큰 역할을 하는 일련의 시공간 패치를 추출합니다. 패치 기반 표현을 통해 Sora는 다양한 해상도, 지속시간 및 종횡비의 비디오 및 이미지를 훈련할 수 있습니다.
비디오 생성을 위한 스케일링 변환기
Sora는 diffusion model입니다. 입력된 패치 또는 텍스트 프롬프트와 같은 조건 정보가 주어지면 원래의 깨끗한 패치를 예측하도록 훈련합니다. 중요한 것은 Sora가 diffusion transformer입니다. Transformer는 언어 모델링, 컴퓨터 비전 및 이미지 생성을 포함한 다양한 영역에서 놀라운 확장 속성을 보여주었습니다.
결론적으로 이 연구에서 diffusion transformer가 비디오 모델로도 효과적으로 확장된다는 것을 발견했습니다. 훈련이 진행됨에 따라 샘플 품질이 향상됩니다. 결과물은 OpenAI 홈페이지에서 확인할 수 있습니다.
'취미' 카테고리의 다른 글
생성AI의 특허 출원 사례 (0) | 2024.03.02 |
---|---|
생성AI의 기술에 대한 현황 (0) | 2024.03.02 |
[Pandas] 판다스 프로파일링 파이썬 EDA 도구 ydata-profiling (0) | 2024.02.21 |
[DACON] 웹 로그 기반 조회수 예측 회귀 모델 (0) | 2024.02.20 |
[멀티모달] 달리2(DALL-E2) 이해하기 (0) | 2024.02.15 |