알파고 제로 출현 by 바죠

지난번 이세돌 9단(4:1 승, 커제 9단, 지난 5월, 3:0 승, 알파고 마스터)과의 바둑 대결에 사용된 컴퓨터 프로그램 "알파고 리", 이것이 엄청난 뉴스를 만들어내었다. 이번에 새롭게 개발된 "알파고 제로"라는 프로그램은 더 놀라운 것이라고 본다. 왜냐하면, 더이상 사람들이 만들어낸 기보같은 데이터에 의존하지 않기 때문이다. 게임의 룰을 알려주고나면, 이 프로그램이 스스로 바둑 게임에서 이기는 방법을 찾기 때문이다.

더 이상 사람들의 행동을 흉내내지 않는다. 스스로 어떻게해야만 이기는지를 찾아낸다. 백지 상태(tabula rasa)에서 시작한다는 것이 핵심이다.

사람의 도움이 없이 단순히 36시간 독학으로 공부하고 알파고 리 성능을 뛰어 넘는다고 한다.
사람들이 둔 기보를 전혀 보지 않기 때문에 사람들 보다 더 강하다고 한다.
“강화학습 방식으로 만들어진 알파고 제로는 지금까지 나온 알파고 버전들 중 가장 강력하며 컴퓨팅 파워도 덜 든다”
 
“인간 지식의 한계에 더이상 속박되지 않기 때문”
"인공지능이 단백질 접힘(각 단백질에 고유한 접힌 구조가 만들어지는 과정)이나 신소재 설계 등 현실의 문제를 해결하는 데 혁신을 이뤄낼 수 있기를 희망한다"


알파고 리에 100전 100승

3일만에 알파고 리 성능 돌파
21일만에 알파고 마스터 성능 돌파

기존 알파고 : 기보 기반 학습
알파고 판 : 2015년 판 후이 2단(유럽 챔피언)을 이긴 버전, 가치망, 정책망 두 개의 deep neural networks
알파고 리 : 경기전 7개월 동안 기보 16만건을 학습함. (18회 국제 대회 우승자 이세돌에 승리를 거둠.)
알파고 마스터: 올해 1월 온라인 대국 사이트에 등장해 인간 고수들을 60전 전승으로 꺾은 것은 '알파고 마스터(Master)'다. 세계 랭킹 1위 커제에게도 3:0으로 승리한 버전
알파고 제로 : 가상 기보를 두면서 학습. 스스로 빅데이터를 구성함.  단 하나의 neural network만을 사용함. 간결한 tree search를 사용함. 알파고 마스터와의 승부, 100전 89승 11패로 알파고 제로 승리. 스스로 학습하는 것은 지도학습에 비해서 결과적으로 더 뛰어난 결과를 준다. 다만, 학습 초반에는 지도 학습이 더 뛰어난 것처럼 보인다. 한 수를 두는데 5초를 소요한다.


days                                                               <  momths
4 Tensor Processing Units (US$25 million 상당)   <  40 TPUs
3 days    :   전문가 수준에 도달 
40 days   :  새로운 수준에 도달, 기존의 바둑 수준에서 탈피
네트워크는 완전히 승자를 예측하는 것을 수행한다.
알고리듬이 계산, 데이터 보다 더 중요하다.


                     
동양에서 개발한 문제 풀이 방식은 사람들이 만들어낸 문제 풀이방식이다.
경험적으로 이러할 때에는 이렇게 하면 된다는 것들을 모두 모아 두었다.
여러 가지 변형이 있을 수 있고, 체계적으로 정리를 할 수 있다.
장기, 체스같은 게임은 이미 그 풀이과정이 잘 알려져 있고, 아주 빠른 시간안에 문제풀이가 가능했다.

바둑 게임의 정복의 아주 먼 미래의 것으로만 여겨왔지만, 동양이 아닌 서양에서 새로운 방식으로 사실상 정복을 했다.

남겨진 문제는, 하사비스가 언급한 것처럼, 어떻게 다른 도메인에서도 이와같은 성공을 이루어내는냐이다.
각 도메인에서는 보다 더 복잡한 '경기 룰'을 요구한다.
예를 들어, 양자역학을 이용하는 도메인에서는 각각의 시도마다 훨씬 더 많은 계산시간을 요구한다. 많은 경우, 5초 안에 한 수를 둘 수 있는 바둑과는 다르다. 바둑은 2시간 안에 경기가 끝이난다. 다시 말해서, 도메인에서 요구하는 기본단위의 시간은 타협의 대상이 될 수 없다. 따라서, 다양한 응용에는 여전히 갈길이 멀다. 결코 쉽지 않은 도전이다.  

-----------------------------------------------------------------------------------------------------------------
스스로 깨우친 바둑
Mastering the game of Go without human knowledge

David Silver1*, Julian Schrittwieser1*, Karen Simonyan1*, Ioannis Antonoglou1, Aja Huang1, Arthur Guez1,
Thomas Hubert1, Lucas Baker1, Matthew Lai1, Adrian Bolton1, Yutian Chen1, Timothy Lillicrap1, Fan Hui1, Laurent Sifre1,
George van den Driessche1, Thore Graepel1 & Demis Hassabis1
 
A long-standing goal of artificial intelligence is an algorithm that learns, tabula rasa, superhuman proficiency in
challenging domains. Recently, AlphaGo became the first program to defeat a world champion in the game of Go. The
tree search in AlphaGo evaluated positions and selected moves using deep neural networks. These neural networks were
trained by supervised learning from human expert moves, and by reinforcement learning from self-play. Here we introduce
an algorithm based solely on reinforcement learning, without human data, guidance or domain knowledge beyond game
rules. AlphaGo becomes its own teacher: a neural network is trained to predict AlphaGo’s own move selections and also
the winner of AlphaGo’s games. This neural network improves the strength of the tree search, resulting in higher quality
move selection and stronger self-play in the next iteration. Starting tabula rasa, our new program AlphaGo Zero achieved
superhuman performance, winning 100–0 against the previously published, champion-defeating AlphaGo.


tabula rasa
정해진 의견이 없는 상태
텐서 플로우:


핑백

덧글

  • 2017/10/19 08:28 # 삭제 답글

    압 이니시오 알파고군요ㅋㅋ
  • 바죠 2017/10/19 08:30 #

    말하자면 그런것이군요. 경기룰만 알고 시작하는 것. 경험적 데이터를 전혀 사용하지 않는 것.
  • 바죠 2017/10/19 10:09 #

    정해진 의견이 없는 상태
    tabula rasa

    starting tabula rasa

  • 로그온티어 2017/10/19 12:32 # 답글

    이제 자기의지로 목표를 변경한다면 인간과 가까워지겠네요.
  • 바죠 2017/10/19 13:27 #

    각각의 전문 분야에서 인간의 행위를 뛰어넘는 새로운 돌파구가 마련될 수 있을 지 기대가 큽니다. 인간의 방해를 최소화 시킬 수 있는 환경이 필요할 지도 모르겠습니다.
  • Moment 2017/10/19 13:38 # 삭제 답글

    저게 퍼포먼스 상 로컬 맥시마일까요 글로벌 맥시마일까요 ㅎㅎ
  • 바죠 2017/10/19 13:40 #

    여전히 문제점은 존재합니다.
    알파고 마스터와의 승부에서 전승을 기록하지는 못합니다.

    알파고 마스터와의 승부: 100전 89승 11패로 알파고 제로 승리
  • 당연히 2017/11/01 21:40 # 삭제

    로컬입니다.
  • 허어 2017/11/01 21:45 # 삭제 답글

    그래프를 보니 재미있는 점이 보이네요. 기력이 초반에는 빠르게 증가하다가 속도가 점점 느려지고 정체하는데 특정 구간에서 갑자기 쑥 상승합니다. 정말 사람이랑 비슷한 듯 합니다. '인공신경망'이라는 이름이 헛 것이 아닌듯.
  • 바죠 2017/12/07 14:23 # 삭제 답글

    https://arxiv.org/pdf/1712.01815.pdf

    Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
댓글 입력 영역

최근 포토로그



MathJax