KOSEN - 강화학습 트렌드에 대해 질문드립니다.

더 많은 혜택을 위해
로그인 하세요.

로그인

홈
- 네트워크
- 지식나눔
- 커뮤니티
- 동향
- 코센
마이네트워크

지식나눔

강화학습 트렌드에 대해 질문드립니다.

2020-08-27 org.kosen.entty.User@921425e 진승교(t4716)

안녕하세요.

현재는 딥러닝이 성과를 내는 영역이 뚜렷해지고있는데,
과학계에서 강화학습이 딥러닝을 대체할 수 있는 영역이 있을까요?

딥러닝
강화학습

지식의 출발은 질문, 모든 지식의 완성은 답변!
각 분야 한인연구자와 현업 전문가분들의 답변을 기다립니다.

답변하기

답변내용 필수입력

첨부파일

답변 10

답변

안병태님의 답변
2020-09-03
- 0
답변내용 필수입력

안녕하세요
한국기계연구원 인공지능기계연구실의 안병태 선임연구원입니다.

일단 개념정리를 좀 해야겠는데요.
강화학습이 딥러닝을 대체할 수 있는 영역을 물으셨는데,
현재로서는 강화학습도 딥러닝에 포함된다고 할 수 있습니다. (DQN 알고리즘)
현재 좋은 성능을 보이고 있는 강화학습 알고리즘(ex. 알파고)은 그 구현에 딥러닝이 들어갑니다.
[ 인공지능 > 머신러닝 > 딥러닝(교사학습, 비교사학습, 강화학습) ] 이렇게 종속적인(포함) 개념입니다.

질문의 의도를 미루어 짐작해보건데,
딥러닝 분야 안에서 데이터가 없이 규칙과 보상만을 가지고 하는 강화학습이 현재 좋은 성능을 보이고 있는 교사학습과 비교사학습을 대체 할 수 있는 영역이 있을까요? 라고 해석하고 답을 드리면,

현재 각 3개의 분야(교사/비교사/강화 학습)가 각각 잘하는 영역이 있고 그렇게 발전하고 있습니다. 어느 방법론이 경쟁을 통해 다른 방법론을 대체하는 것은 아니고요.
이를테면, 교사학습 분야는 정답이 있는 데이터가 있을 때 좋은 방법론이고요(CNN계열, RNN계열). 이들은 분류, 추정, 예측 등의 문제를 다룹니다.
비교사학습 분야는 데이터는 있지만 정답이 없을 때 사용하는 방법론들인데(GAN계열, Autoencoder계열) 정답이 없기 때문에 당연히 정답을 추론하는 분류/추정/예측 등의 문제는 풀지 못하며, 보유하고 있는 데이터들을 분석하여 데이터의 특성을 추출하는 문제를 해결합니다. 데이터 군집화 및 현실 문제의 차원축소 등을 하는 것이죠.
마지막으로 강화학습은 데이터는 없지만 규칙과 보상이 분명한 분야에 특화되어 있습니다. 알파고나 알파스타 같은 게임들에서 두곽을 나타내는 이유가 있는 것이죠.

대체할 수 있느냐? 라는 관점보다
어떤 한 문제를 내가 교사학습적으로 정의 할 때 잘풀수 있느냐 혹은 강화학습적으로 정의할 때 더 잘풀수 있느냐의 관점이 더 맞는 표현이겠네요. 좋은 예로 이세돌과 대결한 알파고의 경우 교사학습 방법으로 수많은 유명한 바둑가들의 기보를 모조리 학습한 후에 이세돌과 대결하여 4:1의 성적을 거둔것이고, 그 후에 알파고 제로 버전은 이미 존재하는 바둑의 기보를 학습하는 것이 아니라, 그냥 어린아이에게 바둑을 가르치듯이 바둑의 규칙과 보상만을 가지고(강화학습) 반복적으로 학습을 했습니다. 그 후 이세돌과 대결한 알파고와 강화학습으로 학습한 알파고 제로의 대결에서 강화학습 기반의 알파고 제로가 백전백승을 거두었습니다. 내가 가진 문제(바둑)를 이 경우엔 교사학습적으로 정의 했을 때 보다 강화학습적으로 정의했을때 더 훌륭한 결과를 거두었고 올바른 접근법이었다는 것이지요.

이처럼 현재 딥러닝 기법들 중 한 기법이 다른 기법을 대체할 것이다라고 생각하기 보다 각 방법론들이 문제를 해결하는 방식을 이해하고 가장 알맞는 방법론을 적용시키는 것이 중요하다는 결론이었습니다.
그건 그렇고 현재 딥러닝 기법들이 발전해서 미래에 강인공지능(strong AI) 방법론이 등장한다면 그것이 모든 방법론들을 대체 할 수 있을지는 모르겠네요 ㅎㅎ

짧게 쓰려고 키보드를 두드렸는데 많이 길어졌네요;;ㅎㅎ
감사합니다 수고하세요!

첨부파일

답변수정

안녕하세요
한국기계연구원 인공지능기계연구실의 안병태 선임연구원입니다.

일단 개념정리를 좀 해야겠는데요.
강화학습이 딥러닝을 대체할 수 있는 영역을 물으셨는데,
현재로서는 강화학습도 딥러닝에 포함된다고 할 수 있습니다. (DQN 알고리즘)
현재 좋은 성능을 보이고 있는 강화학습 알고리즘(ex. 알파고)은 그 구현에 딥러닝이 들어갑니다.
[ 인공지능 > 머신러닝 > 딥러닝(교사학습, 비교사학습, 강화학습) ] 이렇게 종속적인(포함) 개념입니다.

질문의 의도를 미루어 짐작해보건데,
딥러닝 분야 안에서 데이터가 없이 규칙과 보상만을 가지고 하는 강화학습이 현재 좋은 성능을 보이고 있는 교사학습과 비교사학습을 대체 할 수 있는 영역이 있을까요? 라고 해석하고 답을 드리면,

현재 각 3개의 분야(교사/비교사/강화 학습)가 각각 잘하는 영역이 있고 그렇게 발전하고 있습니다. 어느 방법론이 경쟁을 통해 다른 방법론을 대체하는 것은 아니고요.
이를테면, 교사학습 분야는 정답이 있는 데이터가 있을 때 좋은 방법론이고요(CNN계열, RNN계열). 이들은 분류, 추정, 예측 등의 문제를 다룹니다.
비교사학습 분야는 데이터는 있지만 정답이 없을 때 사용하는 방법론들인데(GAN계열, Autoencoder계열) 정답이 없기 때문에 당연히 정답을 추론하는 분류/추정/예측 등의 문제는 풀지 못하며, 보유하고 있는 데이터들을 분석하여 데이터의 특성을 추출하는 문제를 해결합니다. 데이터 군집화 및 현실 문제의 차원축소 등을 하는 것이죠.
마지막으로 강화학습은 데이터는 없지만 규칙과 보상이 분명한 분야에 특화되어 있습니다. 알파고나 알파스타 같은 게임들에서 두곽을 나타내는 이유가 있는 것이죠.

대체할 수 있느냐? 라는 관점보다
어떤 한 문제를 내가 교사학습적으로 정의 할 때 잘풀수 있느냐 혹은 강화학습적으로 정의할 때 더 잘풀수 있느냐의 관점이 더 맞는 표현이겠네요. 좋은 예로 이세돌과 대결한 알파고의 경우 교사학습 방법으로 수많은 유명한 바둑가들의 기보를 모조리 학습한 후에 이세돌과 대결하여 4:1의 성적을 거둔것이고, 그 후에 알파고 제로 버전은 이미 존재하는 바둑의 기보를 학습하는 것이 아니라, 그냥 어린아이에게 바둑을 가르치듯이 바둑의 규칙과 보상만을 가지고(강화학습) 반복적으로 학습을 했습니다. 그 후 이세돌과 대결한 알파고와 강화학습으로 학습한 알파고 제로의 대결에서 강화학습 기반의 알파고 제로가 백전백승을 거두었습니다. 내가 가진 문제(바둑)를 이 경우엔 교사학습적으로 정의 했을 때 보다 강화학습적으로 정의했을때 더 훌륭한 결과를 거두었고 올바른 접근법이었다는 것이지요.

이처럼 현재 딥러닝 기법들 중 한 기법이 다른 기법을 대체할 것이다라고 생각하기 보다 각 방법론들이 문제를 해결하는 방식을 이해하고 가장 알맞는 방법론을 적용시키는 것이 중요하다는 결론이었습니다.
그건 그렇고 현재 딥러닝 기법들이 발전해서 미래에 강인공지능(strong AI) 방법론이 등장한다면 그것이 모든 방법론들을 대체 할 수 있을지는 모르겠네요 ㅎㅎ

짧게 쓰려고 키보드를 두드렸는데 많이 길어졌네요;;ㅎㅎ
감사합니다 수고하세요!

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2020-11-13
- 0
답변내용 필수입력

감사합니다.

첨부파일

답변수정

감사합니다.

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2021-02-23
- 0
답변내용 필수입력

강화학습은 쉽지 않은 분야인것 같습니다.

첨부파일

답변수정

강화학습은 쉽지 않은 분야인것 같습니다.

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2021-03-03
- 0
답변내용 필수입력

답변입니다.

첨부파일

답변수정

답변입니다.

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2021-04-20
- 0
답변내용 필수입력

답변드립니다.

첨부파일

답변수정

답변드립니다.

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2021-06-22
- 0
답변내용 필수입력

경제학이라던가...?

첨부파일

답변수정

경제학이라던가...?

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2021-11-02
- 0
답변내용 필수입력

다시 답변 드립니다.

첨부파일

답변수정

다시 답변 드립니다.

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2022-01-13
- 0
답변내용 필수입력

테스트용 답변입니다.

첨부파일

답변수정

테스트용 답변입니다.

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2022-01-13
- 0
답변내용 필수입력

답변드려요!

첨부파일

답변수정

답변드려요!

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개
답변

진승교님의 답변
2022-03-23
- 0
답변내용 필수입력

경제학 쪽에서도 최적해를 찾는 분야에 적용가능합니다.

첨부파일

답변수정

경제학 쪽에서도 최적해를 찾는 분야에 적용가능합니다.

댓글쓰기

등록된 댓글이 없습니다.

이름 비공개

KOSEN 한인과학기술자네트워크

홈

마이네트워크

지식나눔

공유하기

댓글쓰기

댓글쓰기

댓글쓰기

댓글쓰기

댓글쓰기

댓글쓰기

댓글쓰기

댓글쓰기

댓글쓰기

댓글쓰기