본문 바로 가기

로고

국내 최대 정보 기계·건설 공학연구정보센터
통합검색 화살표
  • STAR-CCM+®
  • 신진연구자인터뷰

    신진연구자인터뷰는 기계및 건설분야의 세계적인 과학 학술지에 논문을 게재한 한국인 연구자들의 연구성과와 연구자 정보를
    여러 연구자와 기관 등에 소개하고자 기획되었습니다. 대상은 주로 대학원 석사이상의 최근 5년이내 관련분야의
    대표 학술지나 학술대회에 논문을 투고한 사람입니다. 대상문의(ariass@naver.com)

    • 오준혁 (Junhyuk Oh)
      Deep Reinforcement Learning을 통한 AI의 일반화와 계획 능력 향상
      오준혁 (Junhyuk Oh)(Univ. of Michigan)
      이메일:junhyuk at umich.edu
      4101 1 3
    1. 본인의 연구에 관해서 소개를 부탁드립니다.

    강화 학습(Reinforcement Learning)은 기계 학습의 한 분야로 환경(Environment)과 상호작용하며 보상(Reward)을 최대화하는 에이전트(Agent)를 학습시키는 것이 주된 목표입니다. 강화 학습에서는 현재 상태(State)가 입력으로 주어지면 에이전트가 어떤 행동(Action)을 할지 결정하고 해당 행동에 대한 보상을 받으면서 다음 상태로 넘어가는 과정이 반복됩니다. 입출력 예시가 데이터로 주어지는 지도 학습(Supervised Learning)과는 다르게 보상을 통해 에이전트가 학습하게 되고, 어떤 행동에 대한 보상이 항상 즉각적으로 주어지지 않기 때문에 어떤 행동이 좋은 행동인지 학습하기 어려운 문제가 발생합니다. 예를 들면, 인간이 수렵채집사회에서 씨앗을 심고 (행동) 수개월을 기다리면 많은 식량을 수확할 수 있다는 걸 (보상) 깨닫고 농경사회로 넘어가기까지 엄청난 시간이 걸렸듯이, 강화 학습의 에이전트도 현재의 어떤 행동이 미래에 어떤 보상으로 연결되는지 깨닫기까지 수많은 경험과 시간이 필요합니다. 게다가, 현재 상태 정보가 미가공된 형태로 (e.g., 시각 이미지) 주어지면 학습이 훨씬 더 어려워지고 오래 걸리게 됩니다.

     

    최근 몇 년 사이에 Google DeepMind 중심으로 여러 연구자가 딥 러닝(Deep Learning)을 강화 학습에 적용하면서, 인간의 지식을 최소한으로만 주입하고 기계가 최대한 스스로 미가공된 상태 정보로부터 학습하는 것을 목표로 하는 Deep Reinforcement Learning (Deep RL) 이라는 새로운 연구 분야가 발생하였습니다. 한국에서도 유명한 바둑 인공지능 알파고(AlphaGo)나 아타리 게임을 사람 수준으로 플레이하는 AI가 연달아 Nature에 게재되면서 많은 관심을 받는 분야입니다. 하지만, 초창기 Deep RL의 연구는 딥 러닝을 이용해서 얼마나 더 복잡하고 어려운 문제를 풀 수 있는지에 초점을 맞추어 왔고, 여전히 에이전트가 학습하기까지 많은 경험과 시간을 많이 필요로 하므로, 위에서 언급했던 학습의 효율성 문제가 여전히 해결 과제로 남아있습니다.

    저는 박사 과정 동안 딥 러닝을 이용해서 이러한 학습의 효율성 문제를 개선하는 방향으로 연구를 해왔습니다. 그중에서도 주로 에이전트가 학습 중에 경험한 적이 없는 상황을 학습 시에 비슷한 상황으로부터 일반화(Generalization)하여 다루는 능력을 연구해왔습니다. 이렇게 에이전트가 일반화를 잘 할 수 있다면, 일부 상황에 대해서만 학습시켜도 경험한 적 없는 다른 많은 상황도 다룰 수 있기 때문에 학습의 효율성 문제가 많이 개선될 수 있습니다.

    예를 들어, 아래 동영상에 요약된 프로젝트에서는, 3D 환경에서 에이전트가 어떤 중요한 단서를 보고 기억한 후에 해당 단서에 따라 목적지를 찾아가는 작업(Task)을 수행해야 합니다. 그리고 에이전트가 새로운 3D 환경에 처했을 때도, 일반화를 통해 학습 때와 같은 작업(즉, 단서를 기억하고 목적지를 찾아가는 것)을 수행하도록 하는 방법을 연구하였습니다.

    [동영상 링크: 3D 환경에서의 일반화 https://youtu.be/jQg8p-V8jF4]


    [MIT Technology Review에 게재된 연구 요약 링크: https://www.technologyreview.com/s/601646/the-ai-machines-undergoing-behavioral-psychology-tests/]


    앞선 연구에서는 에이전트가 수행할 작업이 고정되어 있고 환경이 바뀌는 것이었다면, 또 다른 연구에서는 에이전트가 학습한 작업 이외의 새로운 작업을 일반화를 통해 수행하도록 하는 방법을 연구하였습니다. (아래 동영상 참고)  

    [동영상 링크: 일반화를 통한 새로운 작업 수행 https://youtu.be/L7cumHGI4uM]


    일반화 능력 향상 외에도 제가 주로 연구해온 주제는 미래를 예측해서 미리 계획하는 능력입니다. 즉, 에이전트가 어떤 행동을 취하면 미래에 어떤 상태가 되는지, 그리고 어떤 보상을 받을 수 있는지 예측하는 것을 학습하면, 가상으로 여러 행동과 상황을 시뮬레이션해볼 수 있기 때문에 더 좋은 행동을 취할 수 있게 됩니다. 그리고 미래를 예측할 수 있다면 직접 행동하지 않고도 시뮬레이션만으로도 스스로 학습할 수 있기 때문에 더욱 효율적인 학습을 할 수 있게 됩니다. 저는 어떻게 하면 더 정확하게 미래를 예측할 수 있는지, 어떻게 하면 불확실성이 있는 환경에서도 미래를 예측하고 계획할 수 있는지에 대해서 연구해왔습니다.

     

    [동영상 링크: 에이전트의 미래 예측 시뮬레이션 https://youtu.be/4e-PqfpS8_4]


    2. 본인의 대표 논문(최신논문, 논문 링커 or 논문 첨부):

    [1] Junhyuk Oh, Satinder Singh, Honglak Lee, Value Prediction Network, NIPS 2017.

    [2] Junhyuk Oh, Satinder Singh, Honglak Lee, Pushmeet Kohli, Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning, ICML 2017.

    [3] Junhyuk Oh, Valliappa Chockalingam, Satinder Singh, Honglak Lee, Control of Memory, Active Perception, and Action in Minecraft, ICML 2016.

    [4] Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard Lewis, Satinder Singh, Action-Conditional Video Prediction using Deep Networks in Atari Games, NIPS 2015.


    3. 연구 중에 어떤 극복해야 할 문제가 있었고 이를 어떻게 해결하셨는지?

    Deep Reinforcement Learning 분야는 상대적으로 신생 분야이기 때문에 선행 연구가 많이 없어서 연구 주제를 잡는 데에 어려운 점이 많았고, 강화 학습(Reinforcement Learning)과 딥 러닝(Deep Learning)이라는 서로 다른 두 분야의 전문가들이 모두 이해할 수 있는 논문을 써야 하는 점이 어려웠습니다. 게다가 연구실 내에서도 이 분야를 연구하는 박사과정 학생이 저밖에 없었기 때문에 토론을 통해 제 연구에 대한 구체적인 조언을 얻기가 매우 어려웠습니다. 이 문제를 해결하기 위해서 각 분야의 최신 논문부터 오래된 책과 논문, 대가의 강의 자료까지 최대한 많이 읽어보았습니다. 이것이 두 분야의 시각을 모두 이해하는 데 도움이 되었을 뿐만 아니라 실험하며 겪는 구체적인 문제를 까지도 상당 부분 해결해주었습니다. 그리고 각 분야의 전문가이신 두 지도교수님으로부터 정말 많은 도움을 받아왔습니다.

     

    4. 연구 활동과 관련된 앞으로의 계획이 있으시다면?

    앞으로는 학습 중에 새로운 것을 시도해보는 탐색(Exploration) 능력이나 특정한 보상이 없이도 의미 있는 능력을 습득하는 에이전트를 구현하는 연구를 해보고 싶습니다. 졸업 후에는 DeepMind에서 일할 예정인데 그곳의 풍부한 리소스를 이용하여 좀 더 도전적이고, 대규모의 연구를 해보고 싶습니다.



    5. 본인이 영향을 받은 다른 연구자나 논문이 있다면?

    가장 영향을 많이 받은 지도 교수님 두 분을 제외하면 현재 DeepMind에 있는 Alex Graves의 논문들을 읽으면서 딥 러닝에 주로 쓰이는 뉴럴 네트워크(Neural Network)에 대한 깊은 통찰을 배웠습니다. Alex Graves의 시계열 데이터 모델링 (Sequence Modeling) 연구, 뉴럴 튜링 머신(Neural Turing Machines), Adaptive Computation Time 등의 연구들 모두 제가 주로 쓰는 뉴럴 네트워크에 대해서 새로운 관점으로 다시 생각할 수 있게 해준 신선한 충격을 준 논문들이었습니다. 그 외에는 Deep RL을 초창기부터 연구하고 알파고를 주도적으로 연구한 DeepMind의 David Silver와 아타리 게임을 강화 학습 플랫폼으로 개발하고 탐색 능력에 관한 이론 연구를 많이 해온 Google Brain의 Marc Bellemare의 영향을 많이 받았습니다.


    6. 연구를 진행했던 소속기관 또는 연구소, 지도교수에 대해 소개 부탁 드립니다.

    저는 University of Michigan 에서 이홍락(Honglak Lee) 교수님과 Satinder Singh 교수님에게 공동 지도를 받고 있습니다. 이홍락 교수님(http://web.eecs.umich.edu/~honglak/)은 딥 러닝 분야를 초창기부터 근본적인 연구를 해오신 세계적으로 유명한 분이십니다. 이홍락 교수님 밑에서 박사 입학 초기에 딥 러닝에 대해 기초부터 최신 연구 주제까지 정말 꼼꼼하게 배울 수 있었습니다. 반면에 Satinder(http://web.eecs.umich.edu/~baveja/)는 강화 학습 분야를 초창기부터 연구해 온 대가입니다. 본인 자신을 인지과학자라고 할 만큼 인지과학의 시점에서 강화 학습을 연구하시는 분인데, 이 교수님으로부터 강화 학습에 대한 철학과 깊고 넓은 시야를 배울 수 있었습니다. 최근 몇 년 사이에 두 지도 교수님들이 공동 연구를 하면서 Deep RL 분야를 개척하고 계시는데 제가 두 분과 같이 일하게 되면서 그 혜택(?)을 누리고 있는 것 같습니다.



    7. 연구활동 하시면서 평소 느끼신 점 또는 자부심, 보람

    제가 연구하는 분야(Deep RL)가 현재 다양한 분야와 미디어에서 관심이 있다는 사실에 연구하면서 기쁨을 느끼고 있습니다. 2014년까지만 해도 기계 학습 분야의 가장 큰 학회인 NIPS에서 수십 명이 모이는 워크숍도 없을 정도로 작은 분야였는데, 이제는 1,000명 이상 참석하는 심포지엄이 생길 정도로 큰 관심을 받는 분야가 되었습니다. 이렇게 주목받는 분야의 초기 연구자로서 논문을 쓰고 있다는 점에 보람을 느끼고 있습니다. 그리고 논문으로만 알고 있던 유명한 연구자들이 제 논문들을 잘 읽었다고 이야기해줄 때에도 많은 보람을 느꼈습니다.



    8. 이 분야로 진학하려는 후배(또는 유학 준비생)에게 도움이 되는 말씀을 해 주신다면?

    제가 유학 준비할 때는 학점이나 영어 점수 등에 대부분 시간을 쏟아서 준비했습니다. 하지만 돌이켜보니 그것보다는 관련 분야의 연구 경험을 쌓는 것이 훨씬 중요한 것 같습니다. 연구 경험을 쌓으려면 관심 있는 교수님들께 만나 인턴으로 연구하는 것이 가장 좋은 방법인데, 본인이 소속한 학교뿐만 아니라 해외라도 본인이 관심 있는 연구를 하는 곳이라면 용기 내어 만나보시기를 추천합니다. 특히 신임 교수님들의 랩에는 인턴으로 채용될 가능성도 크고 연구 지도도 긴밀하게 받을 수 있기 때문에 더욱 좋을 것 같습니다. 만약 상황이 여의치 않아 인턴을 할 수 없다면, 최대한 이 분야 논문을 많이 읽어 보는 것과 직접 구현해서 실험을 돌려보는 것을 추천합니다. 요즘에는 공개된 소스 코드나 강의도 많기 때문에, 이러한 것들을 적극적으로 활용하면 좋을 것 같습니다.


    9. 다른 하시고 싶은 이야기들

    제가 혼자 유학을 준비할 때 너무 막막해서 당시 미국에서 유학 중이신 비슷한 분야 선배님들께 무작정 이메일을 보냈었는데, 그때 현재 MIT에서 박사과정 중이신 이기석 선배님(http://kisuklee.wikidot.com)과 이제는 KAIST에 계신 김주호 교수님(https://juhokim.com)께서 아무 연고도 없는 제게 정말 친절하고 자세하게 답변해주셔서 용기도 얻고 실질적으로 도움도 많이 받았던 기억이 납니다. 이 자리를 빌려서 두 선배님께 다시 감사드리고 싶고 저도 비슷한 처지에 있는 후배들께 기회가 된다면 작게나마 도움을 드리도록 하겠습니다.

    • 페이스북아이콘
    • 트위터 아이콘

    전체댓글 3

    사용자 프로필 이미지
    |2018.11.23
    빅 데이터가 앞으로 세상을 뒤집어 놓을 것을 상상해 보면서 현재의 한걸음 한걸음이 후일엔 큰 울림으로 작용 하겠군요.
    댓글 입력란
    프로필 이미지
    0/500자
    사용자 프로필 이미지
    |2018.03.08
    어려운 학문인듯. 좀 쉽게 접근할수 있었으면.....
    댓글 입력란
    프로필 이미지
    0/500자
    사용자 프로필 이미지
    |2018.03.05
    알파고는 아니지만. 그에 못지 않은 연구를 하고 계신거 같습니다. 좋은 결과도 있었으면 좋겠습니다.
    댓글 입력란
    프로필 이미지
    0/500자
    댓글 입력란
    프로필 이미지
    0/500자

    서브 사이드

    서브 우측상단1