이미지 및 언어 인지에 기반한 로봇 행동 생성을 위한 학습 방법론 연구
안혜민(Ahn, Hyemin)(뮌헨공과대학교 Human-centered Assistive Robotics 그룹) / hyemin.ahn at tum.de
2020-12-03
1. 본인의 연구에 대해서 자세한 소개를 부탁 드립니다. - 저의 주 연구 분야는 로봇의 인지 능력을 형성할 수 있는 딥러닝 기반의 인공 신경망 개발입니다. 또한, 해당 신경망에 기반해 만들어진 로봇의 인지 능력의 결과를 로봇의 적절한 행동 생성을 위해 어떻게 사용할 수 있는지에 대해서도 연구에 포함시키고 있습니다. 여기서 로봇이 ‘인지’ 할 수 있는 정보들은 굉장히 광범위하지만, 그 중에서도 저는 ‘이미지 및 언어 정보’의 인지에 중점을 두고 연구를 진행하고 있습니다. 즉, ‘이미지 및 언어 인지에 기반한 행동 생성’ 이라는 하나의 큰 연구 테마 아래에서 저는 지금까지 다양한 연구들을 진행해왔던 것입니다. 이러한 연구 분야가 최근 더욱 주목받고 중요해지는 이유는, 시각적 및 언어적 정보야 말로 사람을 모방하는 로봇, 또는 사람과 원활한 소통을 이루는 로봇이 꼭 인지할 수 있어야하는 필수요소들이기 때문입니다. 이미지 혹은 언어와 같은 단일 정보 인지 뿐만 아니라, 이미지 및 언어의 동시적 인지와 같은 부분에 대한 연구에 기반해, 로봇이 사람으로부터 입력 받을 수 있는 multi-modal 정보들로부터 적절한 행동을 생성하는 것이야 말로 향후 인간과 공존 가능한 로봇이 갖춰야 할 요소 중 하나라고 볼 수 있겠습니다. 이와 관련해 제가 진행해왔던 대표적인 연구들에 대해 하나씩 짧게 언급해보면 다음과 같습니다. 먼저 제가 제일 처음 시도했던 연구는 ‘사람에게 편안하게 다가갈 수 있는 모바일 서비스 로봇’ 과 관련된 연구입니다. 먼저 Kinect와 같은 RGB-D 카메라에 기반해 사람을 관측한 이미지를 얻은 뒤, 해당 이미지로부터 사람의 위치와 자세를 추정합니다. 추정된 사람의 자세에 기반해 사람의 시선 방향을 예측한 뒤, 시선 방향 및 위치 정보에 기반해 사람의 Personal Space를 반영할 수 있는 Cost Map을 생성합니다. 우리는 이것을 Personal Comfort Field라고 부르며, 로봇의 최종 목표는 같은 사람에게 여러 번 다가가 보며 해당 사람이 가진 고유의 Personal Comfort Field를 학습해가는 것입니다. 그로 인해 로봇은 각 사람이 다르게 가진 로봇에 대한 preference를 반영해 사람에게 다가갈 수 있는 접근 경로를 생성하게 되고, 이로 인해 조금 더 친근한 모바일 서비스 로봇의 개발에 다가갈 수 있게 됩니다. 앞서 언급된 연구에선 이미지에서 얻은 정보에 기반해 인간-로봇-상호작용에 쓰일 수 있는 로봇의 행동 생성에 집중했다면, 이후엔 입력된 정보가 사람의 언어 문장일 때, 해당 문장이 서술하는 행동을 생성할 수 있는 “Text2Action” 인공 신경망을 제안하는 연구를 진행하였습니다. 예를 들어 “한 남자가 바다에서 서핑보드를 타고 있다” 와 같은 언어 문장이 신경망의 입력으로 전해지면, 마치 서핑을 하는 사람의 3차원 상반신 모션이 해당 인공신경망으로부터 출력될 수 있는 것입니다. 생성된 모션은 실제 Baxter 로봇에도 전달될 수 있으며, 해당 신경망에 대한 자세한 내용은 향후 인터뷰 질문에서 더욱 다뤄질 것입니다. 앞에서 이뤄진 연구들이 이미지 혹은 언어와 같은 단일 정보에 의존해 적절한 로봇의 행동을 생성하는 것들이었다면, 이후 이뤄진 연구는 이미지 및 언어 정보를 동시에 받았을 때 그에 적절한 로봇의 행동을 생성하는 연구입니다. 해당 연구의 약어는 Interactive Text2Pickup이며, 이미지 및 언어 정보에 기반해 인간과 상호작용할 수 있는 로봇의 개발에 중점을 두었습니다. 해당 연구는 사람이 로봇에게 특정 물체를 집으라는 명령을 하는 상황을 가정하고 있습니다. 여기서 중요한 건, 저를 포함한 연구진들은 사람이 로봇에게 항상 정확하고 맞는 명령만 내리지 않을 수도 있다는 가정을 하였고, 그에 따라 사람이 애매모호한 명령을 로봇에게 내렸을 경우를 고려해 연구를 진행하였다는 것입니다. 만약 사람이 두 가지 이상의 물체를 가리킬 수 있는 언어 명령을 내리게 되면, 로봇은 제안한 모델에 기반해 해당 물체들을 시각적으로 인지하고 입력된 언어 명령으로 인해 발생하는 불확실성을 측정합니다. 측정된 불확실성에 기반해, 제안된 모델은 해당 불확실성을 감소시킬 수 있는 질문을 선택할 수 있고, 선택된 질문에 대해 사람이 정확히 답변을 내리게 되면 로봇은 해당 과제를 성공적으로 수행할 수 있게 됩니다. 이미지 및 언어의 인지 뿐만 아니라, 최근에는 음악 정보의 인지에 기반해 사람의 형태를 띤 agent의 3차원상의 춤 동작 정보를 생성해내는 연구 또한 진행한 바 있습니다. 자세한 내용은 향후 인터뷰 질문에서 더욱 다뤄질 것입니다 :) 2. 최근 연구에서 Text2action은 사람의 언어를 로봇이 이해하고 행동 시키기 위한 매우 창의적인 연구인 거 같습니다. 연구에 대한 자세한 설명을 부탁드립니다. 또한 이와 관련하여 소개해주실만한 다른 연구 사례가 있는지 궁금합니다. - 칭찬해 주셔서 감사합니다 :) 해당 Text2Action 연구에선, 사람의 행동을 묘사하는 문장이 입력으로 들어왔을 때 해당되는 사람의 다양한 3차원 상반신 행동들을 생성할 수 있는 인공 신경망 기반 모델을 제시했습니다. 해당 모델은 Sequence-to-Sequence 모델 및 Generative Adversarial Network (GAN) 모델에 기반하고 있습니다. 사람의 언어 문장은 ‘단어’의 순차적 정보이고, 사람의 행동은 ‘자세’의 순차적 정보이기 때문에, Sequence-to-Sequence 라는, 다른 도메인에 존재하는 순차적 정보들 사이의 연관성을 배우기에 그 당시 state-of-the-art였던 구조에 기반해 언어 문장과 행동 간의 연관성을 학습시켰습니다. 이에 기반해, 단어의 sequence (언어 문장)를 입력으로 받으면 자세의 sequence (행동)를 출력하는 Generator를 구축할 수 있었습니다. 하지만 Sequence-to-Sequence 구조에만 기반한 모델은 생각처럼 실제 데이터와 유사한 동작을 생성할 수 없었습니다. 따라서 추가적으로 제시한 것이 GAN에 기반해 해당 Generator를 학습시키는 것이었습니다. GAN은, 진짜와 가짜 데이터를 구분하는 Discriminator, Discriminator를 속일 수 있을 정도의 진짜 같은 데이터를 생성하는 Generator의 한 쌍으로 이루어져 있습니다. 이 둘을 대립관계에 놓을 수 있는 Loss function에 기반해 둘을 학습시켜, 더욱 진짜 같은 데이터를 생성하는 Generator를 학습시키는데 성공할 수 있었습니다. 여기서 Discriminator 또한 Sequence-to-Sequence에 기반한 구조를 갖고 있습니다. 하지만 처음부터 GAN에서 제시하는 Loss function에 기반해 학습을 진행하면 모델이 아무것도 배우지 못한다는 것을 확인할 수 있었습니다. 따라서, pre-training 과정이 필수적이라고 느꼈고, 이를 위해 Generator를 Supervised Learning에 기반해 Pre-training 시키는 과정을 선행해 GAN에 기반한 Generator학습을 성공적으로 이룰 수 있었습니다. 제가 이 연구를 수행할 당시, 가장 관련된 연구는 KIT에서 수행했던 “Learning a bidirectional mapping between human whole-body motion and natural language using deep recurrent neural networks” 였습니다. 저희 연구의 해당 연구와의 차별점은 (1) GAN에 기반해 더욱 사실적인 인간 행동을 생성해 낼 수 있었다는 것이며, (2) CMU-MoCap과 같은 실험실 내부의 사람 행동이 아닌, 사람의 일상 생활과 관련된 유튜브 영상에 기반한 MSR-VTT (Microsoft Research Video to Text) 데이터셋으로부터 모델을 학습시켰다는 것입니다. 저희의 연구와 조금 결이 다르지만 유사하면서 흥미로운 다른 사례를 꼽아본다면, 한국의 ETRI 및 KAIST에서 올해 SIGGRAPH Asia에 발표한 “Speech Gesture Generation from the Trimodal Context of Text, Audio, and Speaker Identity” 연구를 언급할 수 있을 것 같습니다. 해당 연구는 특정 발화를 하는 사람의 제스처를 생성해내는 모델을 제시하고 있는데, 사람의 언어 문장뿐만 아니라 언어 음성 및 발화자에 대한 정보 또한 입력으로 사용하고 있습니다. 언어, 음성과 같이 행동과는 다른 도메인에 존재하는 순차적 정보들에 기반해 사람의 행동을 생성하는 연구에 대한 확장이 사람의 제스쳐 생성으로도 이루어 질 수 있다는 것을 볼 수 있으며, 영상으로 보시면 더욱 결과가 흥미로우니 꼭 찾아보시길 권장합니다 :) 3. 음악에 맞춰 인간처럼 자연스럽게 춤을 추는 로봇이 만들어질 거 같습니다. 연구의 최종목표는 무엇이며, 현재 어느 수준까지 도달했는지 궁금합니다. - 제가 한 연구 중 “Generative Autoregressive Networks for 3D Dancing Move Synthesis From Music” 이라는 논문은, Text2Action이라는 연구를 발표하고 난 뒤 음악공학과 관련해 TU Delft에서 곧 박사학위를 취득하실 김재훈 연구자와 함께 협업한 결과물입니다. 해당 연구는 음악 오디오 정보를 입력으로 받은 뒤, 미리 학습한 딥러닝 기반의 music feature encoder에 기반해 음악과 관련된 feature를 추출하고, 해당 feature 및 특정 기간동안 앞서 생성된 3D pose 정보에 기반해 미래 3D dance motion을 생성해내는 모델을 제안하고 있습니다. 하지만 본 연구는 로봇보다는 사람 형태를 띤 가상 agent의 춤 동작 생성에 조금 더 초점을 맞추고 있어, 생성된 춤은 로봇에게 transfer하기엔 조금 적합하지 않을 수도 있다는 단점이 있습니다. 생성된 ‘춤’이라는 역동적인 full-body motion을 로봇에게 전달해 주는 것은 굉장한 도전 과제이기 때문입니다. 그리하여 시도해볼 수 있는 연구의 최종목표는 향후 휴머노이드 로봇에게 생성된 춤 동작을 전달해 주는 것일수도 있을텐데요, 하지만 저는 그보다 조금 더 컨트롤하기 용이한 바퀴가 달린 모바일 네비게이션 로봇과 같은 비-휴머노이드 로봇 하드웨어에 전달해 줄 수 있는 춤 동작 생성을 고려하고 있습니다. 물론 지금은 저와 김재훈 연구원 둘 다 다른 연구주제로 바쁜 상황이기 때문에, 관련 연구에 대한 진행이 더딘 상황이지만, 각자의 상황이 안정되면 우선 기존 연구의 Official Github Code 공개를 위한 작업을 시작하는 것부터 관련 연구를 다시 시작할 것 같습니다. 4. 영향을 받은 연구자가 있다면? 또한 어떤 영향을 받으셨는지 궁금합니다. - 가장 영향을 받은 연구자는 저의 석박사통합과정 동안 지도를 해 주셨던 서울대학교 전기정보공학부 로봇학습연구실의 오성회 교수님입니다. 연구에 대해 아무것도 접해본 적 없던 학부생 시절의 제가 6년의 시간동안 여러가지를 배울 수 있도록 격려해주신 분입니다. 교수님께 가장 큰 영향을 받은 점이 있다면, 연구 주제를 선택할 때 `내가 정말 하고 싶어 하면서 잘 할 수 있는 것인가’를 최우선으로 두게 되었다는 것입니다. 제가 있던 서울대 로봇학습 연구실은 하고 싶은 연구가 명확히 있다면 학생이 역량을 발휘할 수 있도록 지지를 해주는 분위기가 형성되어 있었습니다. 그러한 분위기 속에서, 성과를 내기 위해 단기간내에 억지로 만들어낸 연구 주제가 아닌 본인이 진정 하고 싶으면서 잘 할 수 있는 연구 주제가 무엇인지 생각해 볼 수 있는 과정을 여러 번 거칠 수 있었습니다. 그러한 과정은 저를 조금 더 self-motivated된 연구자로 만들어주는데 크게 기여했으며, 내 마음이 향하는 방향의 연구가 무엇인지, 이 연구들을 통해 나는 결국 무엇을 이루고 싶은 사람인지에 대해서도 여러 번 생각할 수 있게 만들어 주었습니다. 그 다음으로 영향을 받은 연구자가 있다면 UC Berkeley의 Anca Dragan 교수입니다. 실제로 만나서 이야기를 나누거나 한 적은 없지만, 대학원 생활을 시작할 때부터 이 교수님의 논문들을 찾아 읽어가면서 여러가지들을 배우곤 했습니다. Anca Dragan 교수님이 이룬 연구들의 큰 공통점이 있다면 연구들을 형성하는 주아이디어들이 대부분의 연구자들이 갖고 있는 생각에서 벗어나 발상의 전환을 이루고 있다는 것입니다. 예를 들어, 2013년 즈음 당시 연구자들이 Learning from Demonstration에 몰두하면서 ‘로봇이 사람의 행동을 어떻게 이해하게 만들 수 있을까’에 집중했을 때, 그녀는 이를 반대로 뒤집어 ‘사람이 로봇의 행동을 어떻게 이해하게 만들 수 있을까’에 초점을 두어 ‘Generative Legible Motion’ 이라는 연구를 진행하기도 하였습니다. 그 논문을 보면서 `이렇게 방향을 틀면 새로운 것이 보이기도 하는구나’ 라고 생각하게 되었고, 그 때부터 지금까지 현재 Anca Dragan 교수님이 이끄는 그룹의 다양한 인간-로봇-상호작용 관련 논문들을 팔로우 하면서 재미나게 읽어보고 있습니다. 그로 인해, 저 또한 남들이 생각하지 못했던 아이디어의 구성 및 실현에 대해 저 또한 많은 고민을 해보고 나름 시도해보게 되는 등 많은 영향을 받았던 것 같습니다. 5. 현재 소속된 Human-centered Assistive Robotics에서 어떤 연구들을 진행하고있는지 소개를 부탁드립니다. - 제가 올해 4월부터 일하기 시작한 Human-centered Assistive Robotics (HCR) 그룹은 정말 다양한 분야의 연구자들이 모여 시너지를 내는 곳입니다. 로봇의 Perception 뿐만 아니라 로봇의 실제 Dynamic Control까지 고려한 연구를 시도해 볼 수 있다는 것이 가장 큰 매력으로 다가왔던 그룹에서 실제 일하고 있다는 사실에 큰 행운을 느끼며 지내고 있습니다. 현재 이 그룹에서 저는 우선 인간 행동 인식에 대한 연구를 진행중에 있습니다. 해당 연구는 향후 사람의 행동을 인지한 로봇이 향후 어떤 상호작용 행동을 수행할 지와 연관될 예정입니다. 현재 연구의 메인 아이디어는, 지능을 가진 agent가 언어를 인지하는 과정에 기반해 사람의 행동을 인지하는 방법론을 유사하게 모델링 해보자는 것입니다. 사람의 언어를 구성하는 요소를 단계적으로 생각해보면, (문자)-(단어)-(문장)이라는 세 가지 단계로 분리할 수 있을 것입니다. 이러한 단계를 비디오 기반의 사람 action 인지 과정에서도 적용해, (하나의 이미지 프레임) - (Low-level Action을 이루는 이미지 프레임들) - (Low-level Action들로 구성된 하나의 High-Level Action) 이라는 구조 하에서 인간의 행동 인식을 시도해보자는 것이 주 골자입니다. 이를 위해 Language modeling에서 사용되는 BERT (Bidirectional Encoder Representations from Transformers) 와 같은 방법론들을 접목해보고 있고, 2021년 ICCV 제출을 목표로 연구를 진행중에 있습니다. 6. 연구활동 하시면서 평소 느끼신 점 또는 자부심, 보람 - 제가 학부생이었던 시절, 연구에 대해 잘 모르고 있었을 때, 저는 연구가 조금 더 좁은 분야를 깊이 공부하는 과정이라고 생각하고 있었습니다. 물론 그것도 틀린 생각은 아니지만, 지금의 전 연구는 지식에 기반을 둔 창작활동이라고 생각합니다. 기존에 존재했던 지식을 습득하는 것이 아니라, 타인이 습득할 수 있는 지식을 만들어 내는 과정이야말로 연구라고 생각하고, 그러한 점이 만드는 매력이 저를 포함한 많은 분들을 연구자의 길로 이끄는 것이라고 생각합니다. 이러한 점에 있어서 저는 제 자신이 하나의 습득 가능한 지식을 만들어 내는 주체가 될 수 있다는 점에서 큰 보람을 느끼고 있습니다. 물론 아직 앞으로 갈 길이 먼, 막 박사학위를 취득한 연구자이지만, 앞으로도 더 많은 연구들을 이루고, 다양한 연구자분들과 함께 시너지 또한 만들어 낼 수 있는 사람이 되었으면 좋겠습니다. 7. 이 분야로 진학(사업) 하려는 후배들에게 조언을 해 주신다면? - 딥러닝 기반의 로봇 인지 및 행동 생성이라는 연구 주제에 국한하지 않고 ‘연구’ 라는 좀 더 포괄적인 개념을 염두에 두어 짧은 조언을 적어보겠습니다. 제가 강조하고 싶은 건, ‘연구’라는 것이 생각과는 다르게 정말 다양한 분야에서의 잡다한 노력들을 요구한다는 것입니다. 책상에 앉아서 실험해보고 논문을 쓰면 끝이 나는게 아니라, 정말 생각했던 것 보다 다양한 분야에 대한 시도 및 실패의 경험을 요하는 작업이 ‘연구’ 라고 생각합니다. 제가 했거나 주변에서 인공지능 관련 연구실 친구들로부터 들은 이야기로 조금 예를 들어본다면, 웹에서 얻은 자료에 기반해 데이터 라벨링을 하기 위해 웹 크롤링 및 HTML parsing을 배워야 한다거나, 유저 스터디를 원활히 하기 위한 애플리케이션 및 사이트 제작을 위해 HTML/CSS 코딩을 배워야 한다거나, 연구 결과물의 시각화를 위해 UNITY를 배워야 한다거나, 로봇 실험을 위한 부품이 없어서 3D 프린터로 부품을 출력하기 위해 3D 모델링 프로그램을 배워야 한다거나, 등등의 새롭게 배워야 할 일들이 정말 많이 발생합니다. 즉, 내가 집중하고 싶은 연구뿐만 아니라 그를 뒷받침해주기 위한 부가적 작업을 위해 수많은 시간을 투자해야하는 상황이 정말 생각보다 많이 발생한다는 것입니다. 또한, 그러한 연구 외의 일들을 효율적으로 마무리하고 다시 연구에 몰두할 수 있는 능력 또한 좋은 연구자를 만드는 요소 중 하나입니다. 만약 ‘연구’라는 직종에 종사하게 될 마음이 있다면, 앞으로 내가 추구하는 연구 분야 뿐만 아니라 다른 분야에 대해서도 수많은 일들을 하게 될 거라는 것을 염두에 두어 주시면 정말 좋을 것 같습니다. 저는 그렇지 못해서 처음에 갈피를 못 잡고 우왕좌왕했기 때문에, 만약 연구자를 목표로 하는 후배가 있다면 더욱 이 부분에 대해 강조를 하고 싶네요. 8. 앞으로 진행할 연구 방향이나 목표가 있으시다면? - 지금까지 제가 해왔던 연구들의 특징은, 다른 연구자들이 많은 관심을 가지지 않았던 연구들에 속한다는 것입니다. 그로 인해 저는 사용하기 적절한 기존의 데이터셋을 찾을 수 없었고, 제가 원하는 데이터셋을 직접 만들어 연구를 하는 등 처음부터 모든 것을 만들어가는 과정을 종종 거치곤 했습니다. 이러한 연구는 독창성이 있다는 장점이 있겠지만, 다른 사람들이 집중하는 분야와 조금 멀어진 부분이 있어 주목받기 힘들고, 성과를 냈을 때 비교할 대상이 부족해 자신의 contribution을 강조하기 힘들다는 단점이 있습니다. 앞으로의 연구에 대한 욕심이 있다면, 지금까지 해왔던 것과는 조금 다르게, 다른 연구자들과 성능 부분에서 비교했을 때 더 나은 결과를 낼 수 있는 분야들에 집중해 성과를 이뤄내 보고 싶다는 것입니다. 예를 들어, 현재 제가 집중하고 있는 Human Action Recognition 연구와 같이, 다양한 연구자들이 공통적으로 사용하는 데이터셋들에 (Kinetics, Charades, HMDB51, Epic Kitchen…) 기반해 모델의 성능을 측정하고 비교하는 등, 객관적 수치로 인해 연구의 성과를 증명할 수 있는 부분에 집중해보고 싶습니다. 사람들이 집중하고 있는 분야에서도 괄목할 만한 성과를 낸 뒤 제가 꽤나 괜찮은 연구자라는 것을 다시금 보이고 싶은 게 현재 목표입니다. 9. 다른 하시고 싶은 이야기들. - 올해 CoRL (Conference of Robot Learning) 학회에 논문을 제출했었습니다. 신생 로봇학회지만 34%의 경쟁률을 보였고, 안타깝게 저는 떨어지고 말았지만, 그 와중에 저에게 정말 놀라웠던 건 저자들의 rebuttal을 위한 reviewer들의 리뷰 공개 즈음에 받았던 메일입니다. 9월 7일에 받은 그 메일에는 9월 9일에 review들을 공개할 예정이었지만, 리뷰 중 무려 20%나 제출되지 않아 공개 기한을 9월 16일로 연장한다고 적혀있었습니다. 저는 이 메일을 받고 나서, 현재 코로나로 인한 판대믹으로 인해 전 세계 사람들이 무기력해지고 일에 대한 효율이 떨어졌고, 이는 연구자들 또한 마찬가지라는 생각이 들었습니다. 시대가 시대인 만큼 다들 일하기 힘든 환경속에서, 모든 학회가 가상 학회로 전환되고, 연구자들간의 소통이 더욱 힘들어진 환경속에서, 오늘도 홈 오피스 혹은 연구실에서 노력하며 성과를 만들어 낼 모든 연구자들 분에게 정말 응원한다는 말을 남기며 인터뷰를 마무리하고 싶습니다. * 안혜민 박사의 최근 대표논문 - Ahn, Hyemin, et al. "Online learning to approach a person with no regret." IEEE Robotics and Automation Letters 3.1 (2017): 52-59. - Ahn, Hyemin, et al. "Text2action: Generative adversarial synthesis from language to action." 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018 - Ahn, Hyemin, et al. "Interactive text2pickup networks for natural language-based human?robot collaboration." IEEE Robotics and Automation Letters 3.4 (2018): 3308-3315. - Ahn, Hyemin, et al. "Generative Autoregressive Networks for 3D Dancing Move Synthesis From Music." IEEE Robotics and Automation Letters 5.2 (2020): 3500-3507. |
- Human Robot Interaction
- Machine Learning
- Robot Perception
전체댓글 0