NVIDIA, 텍스트 설명으로 비디오를 생성할 수 있는 비디오 LDM 신경망 공개

이 발표는 IEEE 컨퍼런스에서 이루어졌습니다. 비디오 LDM 신경망은 텍스트 설명을 기반으로 최대 4초 길이의 짧은 비디오를 생성할 수 있습니다.

이 AI 모델은 '불타는 나무'와 같은 짧은 문구와 '일렉트릭 기타를 연주하는 곰 인형'과 같은 복잡한 쿼리를 모두 이해하여 최대 2048×1280픽셀의 해상도와 24fps의 프레임 속도로 동영상을 생성합니다. 새로운 AI 모델은 안정 확산 신경망을 기반으로 합니다.

이 모델에는 총 41억 개의 매개변수가 있으며, 이 중 27억 개는 비디오를 사용하여 학습되었습니다. 현재 비디오 LDM은 접근이 제한된 연구용 작품의 지위를 가지고 있습니다. 엔비디아는 신경망의 공개 시기를 공개하지 않고 있습니다.

신경망의 더 많은 예는 공식 NVIDIA 웹사이트의 관련 섹션에서 확인할 수 있습니다.

2023-04-20 06:10:05

작가: Vitalii Babkin

소스 URL

이전 | 다음