Science

유명인사의 모습을 만들 수 있는 기술

장종엽엔에스 2015. 12. 18. 21:13

KISTI 미리안 글로벌동향브리핑 2015-12-14
톰 행크스는 젊은이, 노인 및 스마트하거나 어리석은 역할 등 여러 해 동안 다양한 모습들을 맡아왔다. 그러나 우리는 항상 그를 톰 행크스로 인식하게 된다. 그의 외모, 행동에 의해서 우리가 그렇게 인식하는지를 밝히는 연구가 진행되고 있다.

워싱턴대학교(University of Washington)의 연구원들은 페르소나를 캡처할 수 있는 기계학습 알고리즘이 가능하다는 것을 증명하였다. 그리고 인터넷에서 가져올 수 있는 대량의 영상으로부터 톰 행크스와 같이 유명인사의 사진을 통해서 디지털 모델을 만들 수 있다는 것을 증명하였다.

얼굴이 보이는 충분히 많은 시각적 데이터를 가지고서 이 알고리즘은 실제 배우가 결코 실행할 수 없는 언어를 전달하기 위해서 톰 행크스에 대한 디지털 모델을 애니메이션화할 수 있게 되었다.

“톰 행크스를 톰 행크스처럼 보이게 만들 수 있는 방법에 대한 한 가지 대답은 톰 행크스가 할 것이라고 모방하는 컴퓨터 시스템을 가지고 증명하게 되는 것”이라고 UW 컴퓨터 과학 및 공학과의 대학원생인 Supasorn Suwajanakorn은 말했다. 그는 이 연구논문의 주저자이다.

이 기술은 3D 안면 재구성, 추적, 정렬, 멀티텍스처 모델링 및 퍼펫티어링(puppeteering)에 대한 향상에 기반을 두고 있다. 이것은 UW 컴퓨터과학 및 공학과 Ira Kemelmacher-Shlizerman 교수가 이끌고 있는 연구그룹이 지난 5년 동안 개발한 것이다. 새로운 연구결과는 12월 16일 칠레에서 열리는 국제 컴퓨터비전컨퍼런스(International Conference on Computer Vision)에서 이 논문을 발표할 예정이다.

이 연구팀이 최근에 이루어낸 향상에는 표현을 전달하는 능력과 특별한 사람이 어떤 사람의 얼굴을 향해서 이야기하는 방법이 포함되어있다. 예를 들어, 전 대통령 조지 W 부시의 습관을 다른 정치인과 유명인사들의 얼굴에 매핑시키는 것이다.

이것은 UW 컴퓨터 비전 연구원들이 공유하고 있는 큰 목표로 한 단계 다가선 것이다. 즉, 가족사진 앨범 및 비디오, 역사적인 수집품 또는 다른 기존의 시각적 자료를 통해서 완전히 인터랙티브하며, 3차원 디지털 페르소나를 만드는 것이다.

시각적이며, 증강현실 기술이 발전함에 따라서, 그들은 간단하게 2차원적으로 스카이프하는 것보다 해외에 있는 친척이나 멀리 떨어져있는 조부모에 대한 인터랙티브 모델을 만들기 위해서 가족사진과 비디오를 사용하는 것을 생각하였다.

“당신은 어느날 한 쌍의 증강현실 안경을 끼고, 쇼파에서 어머니에 대한 3D 모델을 볼 수 있게 될 것이다. 이러한 기술은 아직까지 존재하지 않는다. 그러나 디스플레이 기술이 실제로 빠르게 발전해감에 따라서 3차원으로 어머니의 모습을 재창조하는 것이 가능할 수도 있을 것”이라고 주저자인 Kemelmacher-Shlizerman은 말했다.

어느날 재구성 기술은 한단계 더 발전할 수 있게 될 것이라고 연구원들이 말했다. “실제로는 개인적으로 만날 가능성이 적은, 르브론 제임스, 버락 오바마, 찰리 채플린과 같은 어떤 사람들과 대화를 할 수 있다고 상상할 수 있을 것이다. 그리고 그들과 상호작용할 수 있다고 상상하게 될 것이다. 우리는 여러 단계의 연구를 통하여 그러한 기술을 갖게 될 수 있도록 노력하고 있다. 실제 테스트 중 하나는 그들이 말하지는 않았지만, 그들처럼 여전히 같은 느낌이라는 것에 대하여 그들에게 말할 수 있느냐는 것이다. 이 논문은 이러한 능력에 대한 것을 증명하고 있다”고 UW 컴퓨터과학 및 공학과의 Steve Seitz 교수가 말했다. 그는 공동저자이다.

자세한 3차원 홀로그램 또는 벤자민 버튼과 같은 디지털 영화 캐릭터를 만들기 위한 기존의 기술들은 사람을 스튜디오 속으로 데려오는 것에 의존하는 것이다. 그들은 모든 각도의 사람들과 움직이는 방법을 캡처하는 것에 어려움을 겪었다. 왜냐하면 이것은 거실에서 할 수 없는 것들이기 때문이다.

다른 방법들도 여전히 비디오 게임 또는 다른 가상 환경을 위한 기본적인 아바타를 만들기 위해서 사람이 카메라를 이용해서 스캔해야 되는 것이 요구된다. 그러나 UW 컴퓨터 비전 전문가들은 기존에 임의적으로 모아진 영상들을 기반으로 디지털적으로 사람을 재구성하기를 원하고 있다.

톰 행크스, 버락 오바마 및 다니엘 크레이그와 같은 유명인사를 재구성하기 위해서 기계학습 알고리즘은 시간이 지남에 따라서 다양한 시나리오와 포즈를 취한 최소 200개 정도의 인터넷 영상을 이용하였다.

“우리는 ‘당신이 인터넷 사진이나 당신의 개인적인 사진 모음을 이용할 수 있으며, 카메라와 상호작용하는 사람들이 없이도 모델을 애니메이션화할 수 있습니까?’라고 물었다. 여러 해 동안 우리는 이와 같이 제약이 없는 데이터를 가지고 동작하는 알고리즘을 개발하였다. 이것은 대단한 것”이라고 Kemelmacher-Shlizerman은 말했다.

Suwajanakorn은 표현에 기반하는 촉감을 캡처하는 기술을 최근에 개발하였다. 이것은 개인이 웃거나 어리둥절한 표정을 짓거나 그 또는 그녀의 입을 움직일 때 발생하는 작은 차이점들을 말하는 것이다.

다른 사진들에서 조명에 대한 조건들을 수정하여 그는 사람들의 특징과 다른 사람의 얼굴에 대한 표현으로부터 차이점을 자세하게 매핑할 수 있는 새로운 방법을 개발하였다. 이러한 혁신들은 연구팀이 다른 사람의 비디오를 가지고 디지털 모델을 제어할 수 있도록 해주었으며, 새로운 애니메이션 및 가상현실 애플리케이션 분야서 잠재적으로 우위를 가질 수 있게 해줄 것이다.

“정체성을 잃지 않고 어떤 사람의 얼굴과 행동을 어떻게 매핑시킬 수 있을까요? 이것이 바로 이 연구의 가장 흥미로운 점 중 하나이다. 우리는 조지 부시의 표현, 입 및 움직임을 가질 수 있을 것이라고 예상하고 있다. 그러나 이것은 여전히 조지 클루니처럼 보이고 있다”고 Seitz가 말했다.

이 연구보고서는 https://homes.cs.washington.edu/~kemelmi/puppetpaper.pdf 에서 온라인으로 확인할 수 있다.