메뉴

전체기사

신기술/산업·미래교육 미래예측

AIbio로봇,AR/VR·바이오제약

자율차·드론·교통·에너지,기후

코로나와 유망산업/직종,부와성공

로봇 그레이스, 소피아, 아인슈타인등

사랑한 사람 Media Memorial

AIbio소식

AI메타버스

유투브[OpenAI, 텍스트-비디오 생성기 출시] 글을 쓰면 곧장 비디오로 만들어준다. 널리 사용가능하게 되면 Sora는 콘텐츠 제작자를 위한 놀라운 도구가 되어 영화 제작, 애니메이션, 마케팅, 교육, 훈련 및 시뮬레이션과 같은 영역을 변화시킬 것이다.
박세훈   |   2024.02.19 [09:37]

 

2024년 2월 17일

OpenAI, 텍스트-비디오 생성기 출시

 

 

인터넷은 텍스트-비디오 생성을 완전히 새로운 수준으로 끌어올린 새로운 AI 모델인 Sora에 대한 이야기로 떠들썩하다.

 

불과 1년 전만 해도 윌 스미스가 스파게티를 먹는 기괴하고 악몽 같은 묘사가 입소문을 탔다. 

 

Hugging Face의 ModelScope 로 제작된 해당 비디오는 텍스트-비디오 생성의 초기 상태를 강조했다. 

 

나중에 더 유능한 다른 AI 모델이 등장했다. 그러나 전반적으로 ChatGPT와 같은 대규모 언어모델(LLM)에 비해 뒤처지는 경향이 있어 실제로 유용하고 진지한 도구라기보다는 참신함에 가깝다.

 

 

단순한 텍스트나 이미지가 아닌 AI 생성 비디오에 필요한 알고리즘의 크기와 복잡성으로 인해 실용성이 제한되었으며 효율적이고 신뢰할 수 있는 텍스트-비디오 플랫폼에 대한 아이디어가 꿈이 아닌 헛된 꿈처럼 보이게 되었다. 

 

이번 주 OpenAI가 최신 창작물인 Sora를 공개하면서 상황이 바뀌었다. 

 

2015년 12월에 설립된 샌프란시스코에 본사를 두고 CEO인 Sam Altman이 이끄는 이 회사는 이미 ChatGPT 와 DALL·E 시리즈 이미지 생성기로 세계를 놀라게 했다. Sora를 통해 OpenAI는 이제 비디오로 이동했다.

 


무한한 창의적 잠재력


 

Sora는 사용자의 설명 프롬프트를 기반으로 최대 60초의 풀 HD 품질 클립을 생성할 수 있는 텍스트-비디오 모델이다. 

 

그 이름은 하늘을 뜻하는 일본어 단어에서 유래되었으며, 이는 "무한한 창의적 잠재력"을 의미한다.

 

OpenAI는 공개적으로 사용 가능한 비디오와 해당 목적에 따라 라이선스가 부여된 저작권이 있는 비디오(각각 가변 길이, 해상도 및 종횡비)를 사용하여 모델을 훈련했지만 아직 이러한 비디오의 수 또는 정확한 소스를 공개하지 않았다.

 

Sora는 시각적 데이터를 "패치"로 분해하는 방식으로 작동한다. 이는 ChatGPT와 같은 텍스트 기반 모델에서 시퀀스의 다음 단어를 예측하는 데 사용되는 "토큰"에 해당하는 비디오이다. 

 

OpenAI에 따르면 패치는 "다양한 유형의 비디오 및 이미지에 대한 생성 모델을 교육하기 위한 확장성이 뛰어나고 효과적인 표현"이다. 패치를 순서대로 배치하면 올바른 종횡비와 해상도를 유지할 수 있다.

 

소라 패치

 

Sora는 시각적 훈련 데이터에 대해 매우 설명적인 캡션을 생성하는 DALL·E 3의 "재캡션" 기술을 사용한다. 

 

비디오를 선택하고 관리 가능한 형식으로 압축한 후 동적 효과를 생성하기 위한 구성 요소 역할을 하는 "시공간 패치"라는 주요 기능이 데이터에서 추출된다. 

 

새로운 비디오가 처음부터 생성될 뿐만 아니라 시공간 패치가 제공하는 디테일과 유연성을 통해 3D 일관성 및 시뮬레이션된 물리학과 같은 정교한 기능을 구현할 수 있다. 

 

예를 들어, 카메라 뷰가 회전하더라도 장면 속의 사람과 물체가 실감나게 움직일 수 있으며, 전경과 배경의 시각적 요소가 원활하게 함께 작동할 수 있다.

 

간단히 말해서, 시퀀스의 새로운 프레임 각각을 통해 모델은 바람과 중력과 같은 물리적 규칙을 준수하면서 나뭇잎이 떨어지는 방식이나 목줄에 묶인 강아지의 행동과 같은 세계를 보다 정확하게 표현하는 방법을 학습한다. 

 

OpenAI에 따르면 이는 기본 물리학을 알기 위해 사전에 프로그래밍하지 않고도 엄청난 양의 시각적 데이터를 통해 이를 수행한다.

 


새로운 기능


 

"우리의 결과는 비디오 생성 모델을 확장하는 것이 실제 세계의 범용 시뮬레이터를 구축하는 데 유망한 경로임을 시사합니다"라고 회사는 기술 보고서 에서 설명한다. 

 

"우리는 비디오 모델이 대규모로 훈련될 때 여러 가지 흥미로운 창발 기능을 나타낸다는 것을 발견했습니다. 이러한 기능을 통해 Sora는 물리적 세계에서 사람, 동물 및 환경의 일부 측면을 시뮬레이션할 수 있습니다. 이러한 속성은 3D, 객체, 등등 - 그것은 순전히 규모의 현상입니다."

 

 

그러나 불완전성이 있습니다. OpenAI는 Sora가 유리 깨짐과 같은 일부 복잡한 효과를 정확하게 모델링할 수 없다고 지적한다. 

 

또한 개체 상태에 불일치가 발생하고 특히 지속 시간이 긴 클립에서 새로운 개체가 자연스럽게 나타날 수 있다.

 

그러나 전반적으로 그 기능은 분명히 Runway의 Gen-2 와 같은 이전 노력에 비해 크게 도약하여 이번 주에 게시된 일부 사례에서 불쾌한 계곡을 통과했다. 

 

OpenAI의 새로운 기술은 이전 모델보다 더 효율적이어서 필요한 계산량을 줄여준다.

 

아직 테스트가 진행 중이기 때문에 전체 모델은 아직 공개되지 않았다. 

 

유용성에 대한 피드백을 구하기 위해 창의적인 전문가뿐만 아니라 잘못된 정보와 편견에 관한 다수의 전문가를 포함하는 소규모 "레드 팀"에 제한된 액세스가 제공되었다.

 

널리 사용가능하게 되면 Sora는 콘텐츠 제작자를 위한 놀라운 도구가 되어 영화 제작, 애니메이션, 마케팅, 교육, 훈련 및 시뮬레이션과 같은 영역을 변화시킬 것이다. 

 

현재의 60초에서 더 긴 형식으로 확장된 향후 버전은 전문가 수준의 작업에 필요한 예산을 대폭 줄여 비디오 제작을 민주화하고 스토리텔링을 향상시킬 수 있다.

 

그러나 이러한 파괴적인 기술은 필연적으로 우려를 낳을 것. 많은 사람들에게 힘을 실어주는 반면, 스톡 비디오 웹사이트에 영상을 제공하는 사람들을 포함하여 다른 사람들은 직장을 잃을 수도 있다. 

 

예를 들어, 간단한 AI 프롬프트가 거의 또는 전혀 비용을 들이지 않고 몇 초 만에 동일한 작업을 수행할 때 캘리포니아 해안선의 항공 사진을 얻기 위해 드론 운영자에게 비용을 지불할 이유가 없다.

 

특히 바쁜 선거 연도에는 이 기술의 기능이 오용되어 설득력 있지만 완전히 조작된 콘텐츠를 생성하고 여론을 흔들고 선거 과정을 훼손할 수 있기 때문에 기술의 피해 가능성이 더욱 우려된다. 

 

Wired 에 기고한 작가이자 저널리스트인 Steven Levy는 OpenAI가 Sora가 "잘못된 정보로 인한 난파선"이 되는 것을 방지하기 위한 "큰 임무"를 가지고 있다고 결론지었다.

 

이러한 의미는 AI를 둘러싼 도덕적, 윤리적, 안전 문제의 시급성이 커지고 있음을 강조한다. 실제로 이번 주말 소셜 미디어에서 표현되는 압도적인 감정은 모델의 발전 속도이니다. 

 

 

OpenAI가 비디오를 혁신하다

오픈AI

불과 1년 전만 해도 AI의 텍스트-비디오 변환은 우스꽝스러울 정도로 끔찍했다( 윌 스미스(Will Smith) 비디오 를 떠올려보자 ). 그러나 어제 OpenAI는 최초의 비디오 생성 모델인 Sora를 공개하여 단 하루 만에 AI 비디오에 대한 세계의 인식을 바꿔 놓았다.

간단히 말해서 Sora는 텍스트 프롬프트를 기반으로 최대 60초 길이의 비디오를 만들 수 있는 텍스트-비디오 AI모델이다. 이는 OpenAI의 DALL-E 및 GPT 모델에 대한 과거 연구를 기반으로 구축된 확산 모델이다.

무엇이 특별할까요? Sora는 기존 비디오 생성기보다 10배 이상 긴, 믿을 수 없을 만큼 사실적이고 고품질의 장면을 생성 할 수 있다. 프롬프트의 모든 세부 사항을 설명하고 이러한 세부 사항이 실제 세계에 어떻게 존재하는지 이해한다.

그렇다면 문제는 어디에 있나? 정확히는… 가능하지 않다. OpenAI는 "연구 목적"(읽기: 과대광고 구축)으로 모델을 예고했지만 여전히 레드팀이 위험 평가를 완료하기를 기다리고 있다.

사용해 보자: 기술적으로는 아직 접속할 수 없지만 OpenAI의 연구 논문에서 비디오 생성 시뮬레이터를 사용해 볼 수 있다 또는 프롬프트 요청을 통해 Sam Altman을 X에 스팸으로 보내는 대중에 합류할 수 있다 (개인적으로 선호하는 요청은 다음과 같다 ).

 

마이크로부터 매크로까지: AI 비디오 분야에서 OpenAI의 혁신은 간단히 말해 놀라울 정도이다. 단 1년 안에 이 정도의 발전이 이루어질 수 있다면 2025년에는 비디오 세대가 어떤 모습일지 누가 알겠는가?

 

1년 이내에 품질이 이만큼 향상될 수 있다면 다음 해에는 글을 비디오로 바꾸는 현상은 어떤 위치에 있게 될까? 

 

 

 

 

코멘트 "

많이 본 뉴스

실시간 기사

URL 복사
x
  • 위에의 URL을 누르면 복사하실수 있습니다.

PC버전 맨위로 갱신

Copyright AI넷. All rights reserved.