Contents[컨퍼런스] 리콘랩스 'buildSMART CONFERENCE 2023' 발표 참여

2023년 buildSMART Conference는 온•오프라인을 아우르는 형태로 열렸습니다. 이번 행사는 생성형 AI와 스마트 빌딩 기술의 결합에 초점을 맞추었습니다. 리콘랩스의 CTO인 윤경원님은 "3차원 공간 정보 재구성을 위한 XR 및 AI 기술 동향"이란 주제로 연사로 참여하셨습니다.


현재 3차원 AI 기술과 XR 하드웨어의 발전 속도가 빠르게 가속화되고 있는 가운데, 3차원 정보 표현과 재구성 방법의 혁신이 다양한 영역에서 이뤄지고 있습니다. 리콘랩스는 2021년부터 NeRF(Neural Radiance Fields)를 활용한 3차원 재구축 기술을 상용화하기 위한 연구와 개발을 진행 중입니다. 이와 같은 경험을 바탕으로 한 세미나에서는 AI를 기반으로 한 XR 기술이 3차원 공간 정보를 재구축하는 최신 기술 트렌드를 살펴보고 앞으로의 과제와 전망에 대해 논의되었습니다.


30분 이내에 많은 양의 내용을 다루어야 하기 때문에 주제가 빠르게 전환될 수 있다는 점 양해 부탁드립니다. 해당 세미나에서 다뤄진 구체적인 내용에 대해 자세히 소개해 드리겠습니다.



공간 정보 재구축 기술 동향

오늘의 연설은 3D 재구축 과정 중 '추정'과 '표현'에 초점을 맞춰 진행될 예정입니다. 특히, 매쉬(Mesh) 알고리즘이 수행했던 작업들을 어떻게 AI가 해결하고 있는지 간략하게 살펴보겠습니다.

과거에는 다양한 시도가 있었지만, 특정 논문 이전에는 그 결과가 명확하지 않았습니다. 그런데 NeRF(Neural Radiance Fields)라는 기술이 등장하면서 혁신적인 변화가 시작되었습니다.

이 기술의 혁신성은 무엇일까요? 이전에 사람들은 뉴럴 네트워크를 통해 공간을 잘 피팅하는 함수를 만들 수 있지 않겠냐고 생각을 했습니다. 이 아이디어는 사진을 많이 찍으면 공간을 표현할 수 있을 것이라는 가정에서 출발한 것으로, CT 스캐닝 결과를 시각화하기 위한 기술인 볼륨 렌더링 기술이 이와 관련이 있습니다.

일반적으로 CT에서는 몸을 스캔한 후, 각 지점의 색상과 밀도 정보를 이용하여 결과물을 완성합니다.

즉, 공간 전체의 밀도와 색상 함수를 알게 되면 2차원 사진을 쉽게 그릴 수 있다는 개념입니다. NeRF 연구는 이 볼륨 렌더링을 거꾸로 뒤집어, 주어진 2차원 사진으로부터 공간 전체의 밀도와 색상을 추정하는 함수를 만들겠다는 아이디어를 구체화 한 연구로, 오늘날 많은 3차원 인공지능 아이디어의 밑거름이 되고 있습니다.


그리고 이번 8월에 NeRF 방식을 한차례 더 혁신한 새로운 논문이 등장했습니다. 이 논문은 공간상 3D 가우시안을 흩뿌려 공간이 2차원 사진처럼 보이도록 피팅하는 방식을 소개하고 있습니다. 이 연구를 계기로 이제는 공간의 정보를 표현할 때 매쉬(Mesh)가 꼭 필수적인 요소가 아닐 수 있다는 고민을 학계와 산업계에서 논의하게 될 것으로 보입니다.


AI 3D Generative

현재 다양한 생성형 AI가 쏟아지는 가운데, 3D 및 딥테크 분야에서 여러 시도들이 이루어지고 있습니다. 리콘랩스 역시 현재 논문들을 기반으로 어플리케이션화하는 작업이 진행 중입니다. 그리고 이 작업에 디퓨전(Diffusion) 기술을 활용하고 있습니다. 디퓨전은 이미 알고 있는 정보에 일종의 노이즈를 추가한 후 그 노이즈를 제거하여 모델을 만드는 것으로, 이는 학습 과정을 보다 용이하게 만들어줍니다.

우리는 생성형 AI를 2D에서 성공적으로 활용하는 사례를 많이 볼 수 있었는데, 이제 3D에서도 이러한 기술이 점차 활용되고 있습니다.리콘랩스는 현재 카이스트 연구실과의 협업을 통해 Diffusion 을 응용한 3차원 형상 생성 기술을 시범적으로 선보이고 있습니다.


앞으로의 전망과 과제

옷, 가구, 공간 등을 3D로 만드는 것이 효율화될 것이고 단기적으로는 최적화, 퀄리티, 수정 및 보정을 고도화하는 것에 산업계와 학계에서 역량을 집중할 것으로 생각됩니다. 그렇다면 중장기적으로는 어떨까요? 우리는 중장기적으로 구조 이해 및 재조합이 필요할 것으로 전망합니다. 현재 대부분은 3D 재구성 기술은 초기 단계입니다. 리콘랩스에게 디지털 트윈이 가능하냐는 문의가 가끔 들어오곤 합니다. 현재 저희가 갖고 있는 기술과 클라이언트가 상상하는 디지털 트윈 사이에는 격차(GAP)가 있다고 생각합니다. 격차에서 말하는 부분은 원하는 형태로 재조합할 수 있어야 하며 여전히 풀어야 할 과업이라고 생각합니다.

언어 모델을 사용하는 이유는 그 구현이 극도로 우수하기 때문입니다. 예를 들어, '클립'이라는 모델은 그림의 정보와 문장의 정보를 일치시켜 줍니다. 컴퓨터는 그림이든 문장이든 동일한 언어로 정보를 인식합니다. 그래서 이미지와 언어를 동일하게 처리할 수 있도록 학습시킬 수 있습니다.

그렇다면 3D 분야에서는 이러한 개념이 어떻게 적용될까요? 카이스트의 성민혁 교수팀의 연구에서는, 의자에 관해 설명을 한 문장이 있을 때 그것에 내재한 단어들 사이에 상관관계를 추론하는 언어 모델을 응용해서, 의자를 임의로 조각내고 그 안에 있는 요소들이 의미 영역을 언어로부터 찾아내게 하는 데에 성공했습니다. 이를테면, 'Back'과 같은 단어로부터 형상에서 의미 단위로서의 등받이 영역을 분할할 수 있게 됩니다. 이는 언어적 논리 공간과 형태적 논리 공간이 상호작용하도록 학습시키는, 멀티 모달 연구의 핵심 아이디어입니다. 이러한 아이디어가 앞으로 3D 분야에서도 적용될 것으로 기대됩니다.

3세 아이에게 사람을 그리라고 하면 아래의 이미지처럼 그릴 것입니다. 아이는 단순한 동그라미, 삼각형, 선 등만을 인지합니다. 따라서 이러한 단순한 도형들을 결합하여 자신이 보는 사람을 표현하는 것입니다. 재구성(Reconstruction) 역시 이와 유사한 방향으로 나아가야 한다는 의견이었습니다.


지금까지 BuildSMART에서 다뤄어진 경원님 발표 내용을 살펴보았습니다. 발표 내용을 토대로 앞으로의 과제는 3D 공간 정보를 더욱 유연하게 처리하고 이해하는 것입니다. 기존의 3D 재구축 기술이 초기 단계에 머무르는 가운데, 클라이언트가 상상하는 디지털 트윈과 기술 간에 존재하는 격차를 줄이고, 언어 모델을 활용하여 3D 분야에서도 언어적 논리 공간과 형태적 논리 공간이 상호작용하도록 학습시킬 필요가 있습니다. 이는 3D 공간 정보의 재구축과 해석에 있어서 앞으로의 큰 도전과제이며, AI와 XR 기술의 발전을 통해 이러한 영역이 더욱 발전해 나갈 것으로 기대됩니다.