지식나눔

강화학습 트렌드에 대해 질문드립니다.

안녕하세요.

현재는 딥러닝이 성과를 내는 영역이 뚜렷해지고있는데,
과학계에서 강화학습이 딥러닝을 대체할 수 있는 영역이 있을까요?

 
  • 딥러닝
  • 강화학습
지식의 출발은 질문, 모든 지식의 완성은 답변! 
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.
답변 10
  • 답변

    안병태님의 답변

    안녕하세요
    한국기계연구원 인공지능기계연구실의 안병태 선임연구원입니다.

    일단 개념정리를 좀 해야겠는데요.
    강화학습이 딥러닝을 대체할 수 있는 영역을 물으셨는데,
    현재로서는 강화학습도 딥러닝에 포함된다고 할 수 있습니다. (DQN 알고리즘)
    현재 좋은 성능을 보이고 있는 강화학습 알고리즘(ex. 알파고)은 그 구현에 딥러닝이 들어갑니다.
    [ 인공지능 > 머신러닝 > 딥러닝(교사학습, 비교사학습, 강화학습) ] 이렇게 종속적인(포함) 개념입니다.

    질문의 의도를 미루어 짐작해보건데,
    딥러닝 분야 안에서 데이터가 없이 규칙과 보상만을 가지고 하는 강화학습이 현재 좋은 성능을 보이고 있는 교사학습과 비교사학습을 대체 할 수 있는 영역이 있을까요? 라고 해석하고 답을 드리면,

    현재 각 3개의 분야(교사/비교사/강화 학습)가 각각 잘하는 영역이 있고 그렇게 발전하고 있습니다. 어느 방법론이 경쟁을 통해 다른 방법론을 대체하는 것은 아니고요.
    이를테면, 교사학습 분야는 정답이 있는 데이터가 있을 때 좋은 방법론이고요(CNN계열, RNN계열). 이들은 분류, 추정, 예측 등의 문제를 다룹니다.
    비교사학습 분야는 데이터는 있지만 정답이 없을 때 사용하는 방법론들인데(GAN계열, Autoencoder계열) 정답이 없기 때문에 당연히 정답을 추론하는 분류/추정/예측 등의 문제는 풀지 못하며, 보유하고 있는 데이터들을 분석하여 데이터의 특성을 추출하는 문제를 해결합니다. 데이터 군집화 및 현실 문제의 차원축소 등을 하는 것이죠.
    마지막으로 강화학습은 데이터는 없지만 규칙과 보상이 분명한 분야에 특화되어 있습니다. 알파고나 알파스타 같은 게임들에서 두곽을 나타내는 이유가 있는 것이죠.

    대체할 수 있느냐? 라는 관점보다
    어떤 한 문제를 내가 교사학습적으로 정의 할 때 잘풀수 있느냐 혹은 강화학습적으로 정의할 때 더 잘풀수 있느냐의 관점이 더 맞는 표현이겠네요. 좋은 예로 이세돌과 대결한 알파고의 경우 교사학습 방법으로 수많은 유명한 바둑가들의 기보를 모조리 학습한 후에 이세돌과 대결하여 4:1의 성적을 거둔것이고, 그 후에 알파고 제로 버전은 이미 존재하는 바둑의 기보를 학습하는 것이 아니라, 그냥 어린아이에게 바둑을 가르치듯이 바둑의 규칙과 보상만을 가지고(강화학습) 반복적으로 학습을 했습니다. 그 후 이세돌과 대결한 알파고와 강화학습으로 학습한 알파고 제로의 대결에서 강화학습 기반의 알파고 제로가 백전백승을 거두었습니다. 내가 가진 문제(바둑)를 이 경우엔 교사학습적으로 정의 했을 때 보다 강화학습적으로 정의했을때 더 훌륭한 결과를 거두었고 올바른 접근법이었다는 것이지요.

    이처럼 현재 딥러닝 기법들 중 한 기법이 다른 기법을 대체할 것이다라고 생각하기 보다 각 방법론들이 문제를 해결하는 방식을 이해하고 가장 알맞는 방법론을 적용시키는 것이 중요하다는 결론이었습니다.
    그건 그렇고 현재 딥러닝 기법들이 발전해서 미래에 강인공지능(strong AI) 방법론이 등장한다면 그것이 모든 방법론들을 대체 할 수 있을지는 모르겠네요 ㅎㅎ

    짧게 쓰려고 키보드를 두드렸는데 많이 길어졌네요;;ㅎㅎ
    감사합니다 수고하세요!
    안녕하세요
    한국기계연구원 인공지능기계연구실의 안병태 선임연구원입니다.

    일단 개념정리를 좀 해야겠는데요.
    강화학습이 딥러닝을 대체할 수 있는 영역을 물으셨는데,
    현재로서는 강화학습도 딥러닝에 포함된다고 할 수 있습니다. (DQN 알고리즘)
    현재 좋은 성능을 보이고 있는 강화학습 알고리즘(ex. 알파고)은 그 구현에 딥러닝이 들어갑니다.
    [ 인공지능 > 머신러닝 > 딥러닝(교사학습, 비교사학습, 강화학습) ] 이렇게 종속적인(포함) 개념입니다.

    질문의 의도를 미루어 짐작해보건데,
    딥러닝 분야 안에서 데이터가 없이 규칙과 보상만을 가지고 하는 강화학습이 현재 좋은 성능을 보이고 있는 교사학습과 비교사학습을 대체 할 수 있는 영역이 있을까요? 라고 해석하고 답을 드리면,

    현재 각 3개의 분야(교사/비교사/강화 학습)가 각각 잘하는 영역이 있고 그렇게 발전하고 있습니다. 어느 방법론이 경쟁을 통해 다른 방법론을 대체하는 것은 아니고요.
    이를테면, 교사학습 분야는 정답이 있는 데이터가 있을 때 좋은 방법론이고요(CNN계열, RNN계열). 이들은 분류, 추정, 예측 등의 문제를 다룹니다.
    비교사학습 분야는 데이터는 있지만 정답이 없을 때 사용하는 방법론들인데(GAN계열, Autoencoder계열) 정답이 없기 때문에 당연히 정답을 추론하는 분류/추정/예측 등의 문제는 풀지 못하며, 보유하고 있는 데이터들을 분석하여 데이터의 특성을 추출하는 문제를 해결합니다. 데이터 군집화 및 현실 문제의 차원축소 등을 하는 것이죠.
    마지막으로 강화학습은 데이터는 없지만 규칙과 보상이 분명한 분야에 특화되어 있습니다. 알파고나 알파스타 같은 게임들에서 두곽을 나타내는 이유가 있는 것이죠.

    대체할 수 있느냐? 라는 관점보다
    어떤 한 문제를 내가 교사학습적으로 정의 할 때 잘풀수 있느냐 혹은 강화학습적으로 정의할 때 더 잘풀수 있느냐의 관점이 더 맞는 표현이겠네요. 좋은 예로 이세돌과 대결한 알파고의 경우 교사학습 방법으로 수많은 유명한 바둑가들의 기보를 모조리 학습한 후에 이세돌과 대결하여 4:1의 성적을 거둔것이고, 그 후에 알파고 제로 버전은 이미 존재하는 바둑의 기보를 학습하는 것이 아니라, 그냥 어린아이에게 바둑을 가르치듯이 바둑의 규칙과 보상만을 가지고(강화학습) 반복적으로 학습을 했습니다. 그 후 이세돌과 대결한 알파고와 강화학습으로 학습한 알파고 제로의 대결에서 강화학습 기반의 알파고 제로가 백전백승을 거두었습니다. 내가 가진 문제(바둑)를 이 경우엔 교사학습적으로 정의 했을 때 보다 강화학습적으로 정의했을때 더 훌륭한 결과를 거두었고 올바른 접근법이었다는 것이지요.

    이처럼 현재 딥러닝 기법들 중 한 기법이 다른 기법을 대체할 것이다라고 생각하기 보다 각 방법론들이 문제를 해결하는 방식을 이해하고 가장 알맞는 방법론을 적용시키는 것이 중요하다는 결론이었습니다.
    그건 그렇고 현재 딥러닝 기법들이 발전해서 미래에 강인공지능(strong AI) 방법론이 등장한다면 그것이 모든 방법론들을 대체 할 수 있을지는 모르겠네요 ㅎㅎ

    짧게 쓰려고 키보드를 두드렸는데 많이 길어졌네요;;ㅎㅎ
    감사합니다 수고하세요!
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    감사합니다.
    감사합니다.
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    강화학습은 쉽지 않은 분야인것 같습니다.
    강화학습은 쉽지 않은 분야인것 같습니다.
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    답변입니다.
    답변입니다.
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    답변드립니다.
    답변드립니다.
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    경제학이라던가...?
    경제학이라던가...?
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    다시 답변 드립니다.
    다시 답변 드립니다.
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    테스트용 답변입니다.
    테스트용 답변입니다.
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    답변드려요!
    답변드려요!
    등록된 댓글이 없습니다.
  • 답변

    진승교님의 답변

    경제학 쪽에서도 최적해를 찾는 분야에 적용가능합니다.
    경제학 쪽에서도 최적해를 찾는 분야에 적용가능합니다.
    등록된 댓글이 없습니다.