오픈AI ‘소라’의 등장…우리는 ‘생성형 비디오’ 시대를 감당할 수 있을까요?

[AI요약] 오픈AI가 고화질 동영상을 생성하는 AI모델 소라를 공개하면서 업계는 놀라는 것을 넘어 충격에 빠졌다. 소라는 도대체 무엇이고 무엇을 할수 있는 것일까. 그리고 실제와 디지털 생성된 것의 차이를 구별하는 것이 점점 더 어려워지는 세상에서 산다는 것은 무엇을 의미하는 것일까.

소라가 생성한 도쿄 거리를 걷고 있는 여성이 담긴 동영상. (이미지=오픈AI)

햇빛을 즐기며 창틀을 사뿐사뿐 걷는 달마시안과 비에 젖은 도쿄 거리를 걷는 스타일리쉬한 여성, 그리고 오프로드를 달리는 자동차까지, 이 모든 영상은 사실 실제로 일어나지 않은 것이다.

오픈AI가 최근 공개한 고화질 동영상 생성 AI 모델 ‘소라’(Sora)의 기능과 전망에 대해 외신이 21일(현지시간) 보도했다.

불과 몇주전까지 만해도 자연어 프롬프트를 사용해 영화를 만드는데는 2~3년 정도의 시간이 필요할 것이라는 업계의 예상은 보기좋게 빗나갔다. 현재 생성AI 열풍의 주역 챗GPT(ChatGPT)의 개발사인 오픈AI가 자체 텍스트-비디오 모델인 소라를 발표했기 때문이다.

소라가 ‘AI 커뮤니티를 놀라게 했다’라고 말하는 것은 많이 절제된 표현일 것이다. 이는 AI 혁명이 많은 사람이 예상하는 것보다 훨씬 빠른 속도로 일어날 것이라는 또 하나의 신호인 것으로 보인다.

그러나 생성 비디오는 의심할 여지 없이 기술적으로 훌륭하지만 텍스트, 이미지 및 사운드의 자동화된 생성으로 인한 문제를 넘어, 더 큰 윤리적, 사회적 문제를 야기할 것이라는 우려가 나온다.

그렇다면 소라는 도대체 무엇이고, 무엇을 할수 있길래 이러한 우려가 나오는 것일까.

기본적으로 챗GPT는 텍스트, 달리3(Dall-E 3)는 이미지를 생성한다. 그리고 소라는 영상을 만드는 것이다. 사용자가 원하는 것을 입력하면 각각 AI모델은 사용자가 원하는 내용을 그대로 눈앞에서 만들어준다.

오픈AI가 공개한 영상에는 아직까지 사운드가 전혀 없지만, AI 사운드와 음악 생성의 발전을 고려하면 사운드가 담긴 영상도 곧 나올 것이라는 관측이 지배적이다.

소라의 등장으로 이제 영화 제작자는 이를 활용해 컨셉과 장면을 시각화하거나 특수 효과를 생성할 수 있다. 교사는 몰입형 역사 재현을 만들어 학생들에게 보여줄수 있고, 제조업체는 프로토타입과 시연을 만들수 있다.

현재 소라는 최대 1분 길이의 동영상을 생성할수 있으며, 단순한 이미지 생성 그 이상으로 움직이는 느낌을 주기 위해 일련의 연속적인 이미지를 생성한다. 예를 들어 물체의 위치를 추적해 물체가 현실적이고 다른 물체와 일관되게 보이도록 할수 있다. 물체가 카메라 밖으로 이동할때 물체를 ‘기억’하는 것과 같은 복잡한 작업도 수행할수 있으므로 물체가 다시 시야로 돌아올때도 정확하게 생성해낸다.

다만 오픈AI는 지금의 소라가 완벽하지 않으며, 물리법칙이나 인과관계를 따르지 않는 물체 등 다양한 불일치가 발생할 수 있음을 인정했다. 그럼에도 불구하고 소라는 현재까지 공개된 영상으로도 우리가 앞으로 AI모델을 통해 무엇을 할수 있을지 충분히 상상할수 있게하는 놀라운 기술임은 분명한 것으로 보인다.

그럼 이제 소라가 어떻게 작동하는지 자세히 살펴보자.

달리 및 기타 이미지 생성기와 마찬가지로 소라는 본질적으로 확산 모델이다. 즉, 무작위 ‘노이즈’로부터 이미지를 생성하고 메시지에 맞는 이미지로 변환해 점진적으로 무작위화를 해제하는 것이다. 따라서 수천, 수만 단계를 거치면서 영상을 구성하는 이미지는 더욱 선명해진다.

소라를 정말 특별하게 만드는 것은 영상 배경에 있는 모든 물체가 다른 모든 것과 현실적으로 상호 작용하는 방식을 이해하는 능력이다. 그렇기때문에 소라는 물이 통과할 때 물건을 젖게 만들거나, 공이 떨어졌을 때 현실적인 방식으로 바닥을 가로질러 떨어지는 영상을 만들 수 있는 것이다.

챗GPT가 문맥에서 단어를 이해하고 다른 단어와 결합하여 의미를 전달하는 방법을 배우는 것처럼 소라는 실제 환경에서 사물이 어떻게 작동하고 작동하는지 이해한다.

오픈AI는 훈련된 데이터에 대한 세부정보를 제공하지는 않았지만, 전문가들은 소라가 사람, 동물, 풍경 등이 어떻게 움직이고 상호작용하는지 학습할수 있는 실제 비디오 영상을 아주 많이 학습했을 것으로 관측하고 있다.

소라는 완전히 새로운 영상을 생성할 수 있을 뿐만 아니라 기존 영상을 계속해서 새로운 각도에서 만들수도 있다. 이는 이제 기술사용 권한이 부여된 사람이라면 자신이 원하는 모든 것을 사실적인 비디오로 만들수 있다는 것을 의미한다. 그리고 권한을 부여하는데는 분명한 위험이 따른다.

예를들어 생성형 동영상 AI 모델은 딥페이크 비디오를 사용해 사기 행위를 더욱 합법적이거나 그럴듯하게 보이게 만드는 등 사기 및 피싱 공격을 더욱 정교하게 만들수 있다. 이미 우리는 유명인의 영상에 AI 음성 해설을 오버레이해 혼란을 주는 영상을 목격했다.

실제 사람과 꼭 닮은 동영상을 합의 없이 제작하는 것도 필연적으로 더 쉬워질 것이며, 이는 피해를 입히거나 협박하는 데 사용될수 있다. 또한 정치인, 정부 또는 기관에 대한 신뢰를 약화시킬 목적으로 민주적 절차를 전복하고 가짜 뉴스와 허위 정보를 퍼뜨리려는 시도에도 이러한 방법이 사용되는 것을 보게될 것이다.

소라가 생성한 햇빛을 즐기는 달마시안. (이미지=오픈AI)

이에 오픈AI는 “소라를 제품으로 공개하기 전에 몇가지 중요한 안전조치를 취할 것”이라며 “이를 위해 알고리즘에 보호 장치를 구축했으며 유해한 콘텐츠를 식별하는데 도움이 되는 자체 도구도 개발하고 있다”고 웹사이트를 통해 밝혔다.

그러나 앞서 챗GPT에서 살펴본 것처럼 기업의 보호 장치를 뚫는 방법이 발견되거나 보호 장치 없는 모방 제품이 등장할 가능성이 높다.

이러한 문제를 해결하려면 교육, 입법, 책임감 있고 윤리적인 AI 사용에 관한 강력한 프레임워크 채택과 관련된 공동의 노력이 필요하지만, 안타깝게도 기계화에서 자동차, 컴퓨팅에 이르기까지 모든 변혁적 기술이 그랬듯이 어느 정도 피해가 발생하는 것은 불가피해 보인다.

아직 대중에게 출시되지 않은 데모제품을 평가하는 것은 어렵다는 의견을 내놓은 전문가들 조차도 비디오 생성기를 오용할 가능성과 완전히 효과적인 보호 조치를 구현하는 데 어려움이 있다는 점에 대해 경고하고 있다.

어찌됐건 이제 소원을 들어주는 지니는 요술램프를 벗어났다. 사회가 이러한 위험을 효과적으로 관리하는 동시에 혁신적인 잠재력을 실현할 수 있도록 보장하는 것은 책임 있는 AI 사용자에게 달려 있을 것이다.

류정민 기자

znryu@daum.net
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

"AI 보안, 내일 아닌 오늘의 문제...96% 기업이 AI 도입"

그린 사장은 “예전에는 금융 기관과 중요 인프라를 대상으로 사이버 공격이 이뤄진다는 인식이 일반적이었지만, 요즘에는 대학을 비롯해 보건, 통신 등 기술이 적용되는 모든 분야가 타겟이 되고 있다”며 각 기업들이 마주한 사이버 보안 관련 쟁점을 짚기도 했다. 이어 2024년을 ‘메가 브리치(Mega breach, 대량 침해)의 해’라고 규정하며 헬스케어부터 시작해 자동차, 리테일 분야 등에서 짧은 시간 내에 광범위하게 발생한 여러가지 침해 사례를 언급하는 한편, 팔로알토 네트웍스의 대응 역량을 소개하기도 했다.

[인터뷰] 한의선 원더스랩 대표 “AI 구독하지 마세요, 채용하세요”

2021년 LG전자 출신 한의선 대표가 창업한 원더스랩은 이른바 ‘WIS’로 불리는 AI 어시스턴트를 제공하고 있다. 문서업무를 도와주는 AI 서비스 ‘더블유닷(Wdot)’, 이미지 작업을 돕는 ‘아이닷(Idot)’, SNS 작업을 돕는 ‘에스닷(Sdot)’이 그것이다. 흥미로운 점은 원더스랩의 비즈니스 모델이 단순히 AI 어시스턴트를 제공하는데 그치지 않고 있다는 사실이다. 이들이 표방하는 서비스는 SaaS(서비스형 소프트웨어)를 넘어 워크포스(workforce, 인력) 까지 제공하는 ‘하이브리드 서비스(AI+Human Hybrid Work Service)’다.

[CES 2025] ‘포브스 선정’ 가장 ‘쿨’한 기술 TOP 5

CES는 매년 한해의 업계 분위기를 예측할수 있는 최첨단 기술을 선보이는 자리로, 올해 CES 도 예외는 아니었다. 자동차 안에서 돌비 비전(Dolby Vision)으로 콘텐츠를 시청하고, 노트북 스크린을 펼치는 등 여러 가지 기술들이 눈길을 사로잡았다.

테크 억만장자들의 아침 습관·시간관리···베이조스·머스크·샘·저커버그·쿡 등

테크 산업계의 거물들은 아침시간을 어떻게 시작하고 어떻게 관리할까. 부분적으로 괴리가 있을 수는 있지만 일반인들도 큰돈 들이지 않고 시도할 수 있는 방법들이 대부분이다. 분명한 것은 연초부터 자신에게 도움이 되는 방식의 규칙적 습관을 익힐 수만 있다면 반드시 억만장자는 아니더라도 새해에는 지난해보다 뭔가 더 성취할 가능성이 높아지리라는 것이다.아직 새해 1월의 절반도 지나지 않았다. 새로 뭔가를 시도해 보기에 여전히 충분하다.