(주)마이크로시스템 소프트웨어 개발자 채용
MERRIC인
조회수 6476 좋아요 4 댓글 0
강화학습을 이용한 보행 로봇 제어
황보제민(Hwangbo, Jemin)(KAIST 기계공학과) / jhwangbo at kaist.ac.kr
1. 본인의 연구에 대해서 자세한 소개를 부탁드립니다.

저는 크게 세 가지 분야에서 연구합니다. 첫 번째 분야는 강화학습을 이용한 보행 로봇 제어입니다. 여러 모터를 이용하여 자연스러운 보행 모션을 얻어내는 것은 굉장히 복잡한 문제입니다. 특히 실제 환경에서 오는 다양한 외란에도 안정성을 유지하려면 복잡한 제어 알고리즘이 필요합니다. 저는 이 문제를 강화학습을 이용해서 풀어가는 연구를 하고 있습니다. 강화학습으로 학습된 인공 신경망을 이용하여 모터를 제어하면 보행 로봇이 더 강건하고 효율적으로 움직일 수 있습니다. 딥러닝을 이용하여 연구된 지는 얼마 되지 않아 앞으로 많은 발전이 있을 거라고 기대하고 있습니다. 두 번째 분야는 접촉 동역학입니다. 보행 로봇을 위한 신경망을 학습하기 위해서는 너무나도 긴 시간의 데이터가 필요합니다. 이를 대체하기 위해 효율적인 동역학 엔진 이론을 개발하여 더 정확하고 빠르게 데이터를 얻는 것이 목표입니다. 접촉 동역학을 풀기 위해서는 정확한 접촉 모델링이 필요하며 그 모델의 해를 찾아주는 알고리즘 또한 필수입니다. 다양한 환경을 만들어 내야 하므로 알고리즘의 안정성 또한 높아야 합니다. 제가 박사과정 개발한 동역학 엔진은 raisim.com에서 배포 중입니다.
세 번째 분야는 보행 로봇 설계입니다. 석사 때부터 연구실에서 로봇 구동기 설계를 해왔으며 ANYmal의 구동기 설계에도 참여하였습니다. 보행 로봇의 파워 아웃풋을 최대한 높이기 위해 풀리 메커니즘을 이용하여 디자인된 Capler 로봇을 공개하기도 했습니다. 현재는 Rai Lab에서 학생들과 사족 보행 로봇을 만드는 데 힘쓰고 있습니다.




2. 4족 보행 로봇에 관심이 많으신 거로 알고 있습니다. 2016년에 연구에 참여하신 Anymal 개발 이후 4족 보행에 관련된 많은 연구를 하신 거로 되어 있는데, 현재까지 어떤 연구를 진행하였으며 얼마나 개선이 되었는지, 또한 추가로 극복해야 할 문제는 무엇인지 궁금합니다.

ANYmal 개발 이후 보행 로봇 제어에 관해 많은 연구를 하였습니다. 특히 강화학습 방법을 이용하여 제어하는 방법으로 연구가 진행되었습니다. 전에는 느리고 제한된 환경에서만 사용할 수 있었다면 현재는 더 빠르고 효율적이며 복잡한 험지에서도 강건하게 제어 할 수 있습니다. 최근에 공개된 두 Science Robotics 페이퍼를 통해서 자세한 내용을 공개하였습니다.
하지만 현재 ANYmal은 아주 느리게 보행합니다. 이 문제는 제어와 설계 두 가지 측면에서 모두 발전시켜야만 해결할 수 있습니다. 더 빠르고 더 먼 목표를 향해 가기 위해서는 현재의 강화학습 방법으로는 한계가 있습니다. 강화학습 알고리즘, 신경망 설계, 실제 로봇에 적용 등에 많은 개선이 필요합니다. 또한, ANYmal에 사용되는 탄성 구동기에서는 빠른 모션을 만들기에 한계가 있습니다. 따라서 Rai Lab.에서 저 감속비 구동기를 설계하고 있으며 이를 이용하여 4족 보행 로봇을 제작할 계획입니다.


3. RL(Deep Reinforcement Learning)을 이용하여 쓰러진 4족 보행 로봇이 일어나게 연구도 진행한 것으로 알고 있습니다. RL의 이용하는 방법과 이를 통해 어느 정도 수준으로 동작이 가능한지 궁금합니다.


위의 비디오에서는 강화학습을 이용하여 학습된 제어기가 1km 정도의 산길을 넘어지지 않고 걷는 것을 보여줍니다. 이미 지형을 인지하지 않고 걷는 Blind Locomotion에서는 강화학습 기반 제어가 최고 수준에 이르렀습니다. 따라서 이제는 지형을 인지하며 걸을 수 있는 Perceptive Locomotion을 해결해야 합니다. 아래 보이는 것처럼 시뮬레이션 공간에서는 고성능의 Perceptive Locomotion이 학습이 가능합니다.






문제는 Mapping에서 오는 에러들이 보행 제어기의 성능을 떨어트린다는 점입니다. 이를 더 효율적인 학습 방법으로 해결하고자 합니다. 또한, 경로 최적화의 학습에서는 아직 연구가 미비한 상황입니다. 보행 로봇의 경로 최적화는 다이나믹한 모션을 생성할 때 특히 복잡한 문제가 됩니다. 저는 더 먼 지형을 내다보고 최적의 경로를 찾는 문제를 강화학습을 통해 풀어 보고자 합니다. 이를 이용해서 징검다리, 암벽지형 등 더 어려운 보행 문제를 풀어보고자 합니다.



4. 영향을 받은 연구자가 있다면, 또한 어떤 영향을 받으셨는지 궁금합니다?

가장 영향을 많이 받은 연구자는 당연하지만, 저의 지도교수님이신 Marco Hutter 교수님입니다. 젊은 나이에 교수가 되셨지만 이미 학계에 크게 인정받고 계십니다. 제가 만나본 연구자 중에서는 최고의 행동력과 결단력을 가지고 계십니다. 너무 고민하기 전에 빨리 행동에 옮기시고 실패해도 다시 시도하시는 분입니다. 자신의 장단점도 잘 아시며 이를 이용해서 효율적으로 일을 하십니다. 제가 고민만 하고 머뭇거릴 때 교수님의 모습을 생각하며 빨리 행동에 옮기곤 합니다. 저와 많이 다른 성향을 가지고 있어서 배울 점이 더 많은 분입니다.





5. 2020년 최근에 RAI LAB.을 만드신 걸로 알고 있습니다. 어떤 분야를 연구하는지 간단한 소개와 현재 구성원, 그리고 앞으로 어떤 학생이 지원하면 좋을지 소개를 부탁드립니다.

Rai Lab에서는 보행 로봇 설계와 학습을 주로 연구하게 될 것입니다. 앞에서 얘기했듯이 사족 보행 로봇을 설계하고 있으며 강화학습을 이용하는 연구 방법도 연구 중입니다. 현재 네 명의 석사생분들과 함께 배우면서 연구하고 있습니다. 강화학습과 보행 로봇에 관심이 있으신 분들은 우리 연구실에 지원 부탁드립니다.


6. 연구 활동 하시면서 평소 느끼신 점 또는 자부심, 보람이 있다면?

2019년도에 발표한 사이언스 로보틱스 논문이 기대 이상으로 많은 관심을 받았습니다. 네이처지가 선정한 2019년도 놀라운 논문 10선에 들어가기도 했으며 얼마 전까지도 사이언스 로보틱스의 역사상 가장 많이 읽은 논문으로 알고 있습니다. 연구자이기 때문에 제 연구가 관심을 받을 때 보람을 느끼는 것 같습니다.


7. 이 분야로 진학(사업)하려는 후배들에게 조언해 주신다면?

융합 분야이기 때문에 공부할 내용이 상당히 많습니다. 학부나 석사 과정 중 관련 과목들을 많이 들으면서 기반을 쌓는 것이 중요합니다. 기계학습, 통계학, 강화학습 등 인공지능 분야 과목뿐 아니라 로봇공학, 로봇 동역학, 로봇 제어, 최적화 이론 등 로봇 분야 과목들도 공부하시면 좋습니다.
또한, 프로그래밍 능력이 굉장히 중요합니다. 아이디어가 있어도 그것을 빨리 프로그래밍하여 결과를 얻어 낼 수 있는 능력이 없어서 고생하는 분들을 많이 보았습니다. C++과 파이썬 언어를 공부하시는 것을 추천해 드립니다.


* 황보제민의 최근 대표 논문

[1] Hwangbo, Jemin, et al. "Learning agile and dynamic motor skills for legged robots." Science Robotics 4.26 (2019).

[2] Hwangbo, Jemin, et al. "Control of a quadrotor with reinforcement learning." IEEE Robotics and Automation Letters 2.4 (2017): 2096-2103.

[3] Hwangbo, Jemin, Joonho Lee, and Marco Hutter. "Per-contact iteration method for solving contact dynamics." IEEE Robotics and Automation Letters 3.2 (2018): 895-902.

[4] Hwangbo, Jemin, et al. "Cable-driven actuation for highly dynamic robotic systems." 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2018.

[5] Hwangbo, Jemin, et al. "Probabilistic foot contact estimation by fusing information from dynamics and differential/forward kinematics." 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2016.
 
  • Robotics
  • Machine Learning
  • Learning Based Control
  • Legged Robotics
인쇄 Facebook Twitter 스크랩

  전체댓글 0

[로그인]

댓글 입력란
프로필 이미지
0/500자