oro 세계 인터넷바둑의 허브
  • 겜임&채널
바둑에 관해 인간에게 어떤것도 상속받길 거부한 알파고제로 | 오로광장
Home > 커뮤니티 > 오로광장
바둑에 관해 인간에게 어떤것도 상속받길 거부한 알파고제로
글쓴이 제주행KTX      조회 483   평점 1100    수정일 2018-06-15 오후 7:22:00


 




 알파고 Zero는 


상속포기자로서  무(無)에서 출발했다는 의미로

붙여진 이름일 것이다.





알파고 Zero는 바둑에 대해서
아무것도 모른 채로 태어났고,
 아무에게도 배우지 않았다.



스스로 좋은 수를 깨우치는
강화학습 과정이 있었을 뿐이다.




알파고는 처음부터 바둑의 신으로 태어나지 않았으며, 
학습 초기에  완전 18급 수준의  바둑을 두었다.

그러다가 강화학습을 시작한지 19시간이 되자
돌의 사활, 세력과 실리를 알기 시작했다.



이때 이미 아마 초단 정도의 실력이 된 것으로 보인다. 그리고
72시간의 수련을 마친 알파고 Zero는 세계 최고 레벨이 되어있었다.



 알파고는 아무런 사전 지식 없이 스스로 포석, 맥, 사활, 패, 끝내기,
수상전, 선수, 세력과 실리를 모두 깨우쳤다.
하지만 놀랍게도 알파고 Zero는  아주 나중에야 축을  깨달았다고
 한다.  ...참   희안하다.




알파고 Zero는 빠르게 바둑을 익혔다.
알파고 Zero는 불과 36시간 만에 인간의 기보를 학습한 알파고를
추월하고, 3일 만에 알파고 Lee의 수준에 올랐다.
 
알파고 Lee가 이세돌과의 대결을 앞두고 7개월 동안 학습했던 것을
생각하면 놀라운 속도다.

알파고 Zero가 알파고 Lee보다 140배 빨리 배운 셈이다.
이 바둑 천재에겐 세계 최고가 되는데 72시간이면 충분했다.
 


    


강화학습은 인간을 포함한 동물들의 뇌에서 실제로 작동하는
방식이다.

특히 강아지 조련사들은 개를 훈련시킬 때 강화학습 패러다임을
활용한다.

이거 해라, 저거 해라 잔소리 할 필요가 없다. 잘 하면 간식을 주고
못 하면 외면하는 방식으로 좋은 행동과 나쁜 행동을 스스로
배우게 한다.

이와같이  강화학습을 통해  알파고는 자신이 둔 수의 가치를
예상 승률 값으로 판단한다.




신의 경지에 올라 있는 알파고 Zero는
인간이 만든 바둑 이론과 기보 데이터를 모두 갖다버렸다.

알파고 Zero는 마치 원숭이가 바둑을 배우는 것처럼
완전히 무작위적인 바둑을 두기 시작해서,
오로지 셀프 대국 강화학습에 의해서만 실력을 향상시킨다.




강화학습 과정에서 알파고 Zero는 셀프 대국에 신중하게 임한다.
 우선 아무 곳에나 바둑돌을 놓고, 자기 나름대로 다음 수를 생각한다.

셀프 대국에서 한 수를 놓기 위해 0.4초씩 생각하고
1600번의 몬테카를로 트리 서치를 반복한다.

바둑 한 판이 끝날 때까지 자기 나름대로의 바둑을 둔다.



여러 번 두고 승률을 계산한다. 승률을 대충 알았으면,
 또 다른 곳에 바둑돌을 놓았다 치고 나름대로 바둑을 두어 본다.

또 승률을 계산한다. 아까 두었던 곳과 이번에 두었던 곳 중에
어느 곳이 더 좋은지 승률을 보고 깨닫는다.

그리고 자신의 바둑 이론도 수정한다. 새롭게 알아낸 좋은 수에
 대한 특징을 신경망의 값을 업데이트하여 저장한다.


신경망에 좋은 수에 대한 이해가 차곡차곡 쌓이면서
다음 번 나름대로의 바둑은 조금씩 수준이 올라간다.
셀프 대국 수준이 올라가는 만큼 승률 예측도 정확해진다.


그렇게 3일 동안 4백9십만 판의 바둑을 두다 보면
어느덧 세계 최고의 실력에 도달한다.

알파고 Zero는 강화학습에 매진하고
나머지 구조를 모두 간결하게 정리했다.



그림이  아닌   사진임 (내셔날 지오그래픽' ) -  첫눈에   동양환줄  알았음.....








알파고 Zero는 기본규칙 외에 바둑에 관한
어떠한 지식도 사용하지 않는다.

알파고 Zero 이전의 알파고는 바둑 격언을 활용했다.
알파고 Fan, Lee, 마스터가 채택한 롤아웃 정책은
‘붙이면 젖혀라’, ‘젖히면 뻗어라’, ‘모자는 날일자로 벗어라’와
같은 바둑 격언에 대한 것이었다.


하지만 알파고 Zero는 정책망과 가치망을 하나로 통일하고,
롤아웃 정책망을 버렸다.

자신만의 바둑 이론을 하나의 신경망에 담았다.
알파고 Lee가 크게는 두 개, 세부적으로는 네 개의 신경망을
활용한 것에 비하면 간결한 구조다.



또한, 알파고 Fan과 알파고 Lee는 16만 건의 기보를 학습했고,
3천만 개의 착점 문제를 풀었다.

사람이 두었던 기보를 바탕으로 작성한 정답과 비교하며
좋은 수를 익혀나갔다.



그런데 알파고 Zero는 단 한 건의 기보도 참고하지 않았다.
16만 건의 기보가 바둑을 익히기에 턱없이 부족한 경험이라고
생각했지만, 사실은 이마저도 필요 없는 것이었다.



2017년 1월 알파고 마스터는 세계 최고 프로기사들을 상대로
60전 전승을 거뒀다.

하지만,  신의 경지라 여겼던  알파고 마스터가 오른 봉우리는
정상이 아니었다.



알파고 Zero는 밑바닥부터 출발해서 24시간 만에
기보를 학습한 버전을 따라잡고, 3일째 알파고 Lee를 추월했다.


한 달이 되자 알파고 마스터가 오른 봉우리보다 더 높은 곳이
있다는 것을 알았다. 그리고 열흘 후에 정상을 확인하고
깃발을 꽂아 버렸던 것이다.



 


알파고에게는 사람처럼 둔다는 것이 미덕이 아니다.
당연하지만 흥미로운 사실은, 알파고 Zero가
인간의 바둑과 가장 많이 다르다는 점이다.



그래서,  알파고 Zero는
기보를 학습한 알파고와 비교해서
인간의 바둑을 잘 예측하지 못 한다.

단적으로 말해서,
알파고 Zero는  인간의 바둑에는  별 관심이 없다.



그러나? 


혹은  


그래서인지?





상속포기의  백지상태에서 시작한

알파고 Zero는 정상에 올랐지만,



중간부터 오르기 시작한

상속자 알파고와,   한정승인자 마스터는

정상까지 닿는 길을  결국엔  찾지못했다.






알파고 Zero는 인간과는 다른 길을 갔다.


그리고 인간은 오르지 못할   신의 경지에 올랐다.




휴먼에게는   무슨 문제나  근본적 한계라도

존재하는 것인가?



어떠한  제약 조건이   휴먼종으로 하여금

그런 신의 경지로 가는 길을   막고 있는 것일까?  



순간적 기분에  휩싸이는... 그  어떤  감정일까?

장점으로 믿어왔던   그  '감각'   줄여서   '감'이라 

부르는  것의    정확한  실체는  또  과연  무엇인가?






바둑이 끝난뒤, 대국자는 바둑을 복기한다.

서로에게 수의 의미를 물으며, 서로에 대해

'이해'를 한다.





인간이 기계에  진  그 날 이세돌은 습관처럼,

바둑을 복기했다.

그런데 이세돌을 이해시켜줄 대상은 없었다.





자신이 왜 졌는지, 상대의 수가

어떤 의도를 가지고 두어졌는지   

물을   대상조차 없었다.





이세돌이 졌다는 사실보다  이세돌이 왜 졌는지조차

알수없었던, 그 날의 그 광경은   한마디로 

비인간적인  풍경이였다.



점차, 인간은

위로받지 못하는 존재가 되어간다.




기계화된 공장은 인간을 부속품처럼

만들어 버렸고 ,  효율성에 인간성조차

내려놓게 되면서..

거꾸로
,  인간은 점점 더 

이해받지 못하는 존재가 되어간다.






 




[곡명]  너는 도대체가  뭐 하고 자빠진  인간이니? 






이전 다음 목록
현재평점[총점:1100]  [평가:13명]   윗글을 점수로 평가한다면?  
누적 포인트: 6,572,795,000점 | 기부자 보기   포인트 기부
 
 
 
┃꼬릿글 쓰기
삼나무길 | 2018-06-13 오전 6:11  [동감 0]    
아..
자객행 | 2018-06-13 오전 6:38  [동감 0]    
그럴듯합니다^^ 이쪽 방면을 잘 모르지만 아주 흥미롭네요. 동시에 이런 소개가 가능한 님의 내공이 흥미롭습니다. 제주행 케이티 엑스 ㅎ
자객행 | 2018-06-13 오전 6:54  [동감 0]    
연대기적으로 흘러가는 크로노스의 시간속에서 카이로스의 시간을 찾는 것은 얼마나 허망하고 또 절실한 것일까요^^..
삼소로운 | 2018-06-13 오전 9:10  [동감 0]    
알파고 제로야 말로 바둑신의 영역에 첫발을 내딧었다고 하겠네요..
조만간 제로를 이길수있는버전이 또나올수도 있겠지요...
제로를 뛰어넘는 버젼들 끼리 바둑을 두면 누가선수가 되는냐에 따라서
내생각에는 첫수는 무조건 천원에 착점하지 않을까? ....
그야말로 바둑신들의전쟁...^^ 좋은 정보글 잘보았습니다
過猶不及 | 2018-06-13 오전 9:29  [동감 0]    
대화명을 요리조리 바꾸면서 시선을 분산시키는 의도가 뭔지 ? 정체가 궁금하다! 오로 광장
대화명 제로 버전인가?
제주행KTX
06-13 오후 00:41
대화명 제로 ... 기발하신 발상이십니다. ㅎㅎ

운영자에게 물어보세요.. 저도 궁금합니다.

매주마다 쫓아내서 대화명 바꾸게해 오로볼사용케 하려는건지?

구려땜시죠 뭐..... ㅋ
자객행
06-14 오후 4:01
구려도 정지 먹은 모양이군요 안보이네요?
화자유민 | 2018-06-13 오전 10:03  [동감 0]    
반갑습니다. 제주행KTX님의 그전 대화명이 제가 생각하는 분이 맞다면, 광장에서 개인적으로 제일 꼭 한 번이라도 뵙고 싶은 분입니다. 저는 겸손이 아니고 실제 가방끈이 짧아 학연이 없어서 궁금한 것이 있어도 온라인 이외에는 전문적?인 부분에서 궁금한 점이 있어도 해결할 길이 없습니다.
이미 삭제했지만 인공지능에 대해서 2월과 5월에 수차례 글을 올렸지만, 님의 댓글은 보지를 못 했습니다.
저는 아직도 알파고에 대하여 궁금증 내지는 그 한계에 의문을 가지고 있지만 이를 해소할 방법을 모르겠습니다. 인공지능 알파고에 대한 인간의 한계는 최소한 바둑인과 컾퓨터 프로그래머가 공동 연구를 하여서 어디까지는 죽어도 인간이 알파고를 따라갈 수가 없다거나, 시간이 걸리는 부분은 인간이 컴퓨터를 계산기처럼 사용했을 경우 등의 조건이 따랐을 때의 결과가 어떠할 것이다 라는 것에 대한 선언이 나와야 한다고 봅니다.
저도 분야는 다르지만 컴퓨터 프로그램만 30년을 한 사람으로서, 인간과 컴퓨터의 장단점은 어느 정도는 알고 있습니다. 그중에 의외의 부분에서, 인간이 어려운 것은 컴퓨터에게는 쉽지만, 어떠한 부분은 의외로 인간에게는 간단한 부분이 컴퓨터에게는 매우 어렵?고 어떤 부분은 현재로서는 불가능한 부분도 많습니다.

너무 길어서 일단 한 가지만 답해주시든지, 아니면 알아봐 주시면 고맙겠습니다.
혹 알파고든 알파고제로든 바둑줄이 19x19가 아니고 20x20, 18x18, 15x25 등으로 바꾸었을 때, 19x19에서의 학습 이외의 학습 없이 바둑을 두면 어떤지를 알 수가 있을까요?
이는 매우 중요한 문제입니다. 알파고가 여기에서 차이를 보인다면 진정한 인공지능의 바둑정복이 아니라는 겁니다. 왜냐면 인간 이세돌은 바둑 줄수가 바뀌어도 상대적으로 그 실력이 바뀌지는 않는다는 겁니다. 이 부분에 대한 님의 답변을 듣고 싶습니다.
過猶不及
06-13 오전 9:58
별 것도 아닌 것 같은데요! 그냥 놓아 보기의 차이입니다. 수백만 수천만번 이상
의 시뮬레이션을 통해서 놓아보고 놓아보고 그걸 다시 형세 판단 알고리즘으로
유불리를 계산한 후에 착점하는 거죠. 알파고 제로나 알파고 이전 버전이나 또이
또이. 수억번 이상 놓아보고 형세 판단하고 인간 프로 기사가 그런 계산을 할 수
있다면 인공 지능보다 더 잘 둘 듯. 삼삼의 재발견이나 중앙 두터움 계산 등. 놓
아 보기와 형세 판단을 수도 없이 원없이 할 수 있으면 가능할 듯. 그냥 계산의 힘
그 이상도 그 이하도 아님!
화자유민
06-13 오전 10:08
過猶不及님. 그리 간단한 문제가 아니라고 봅니다. 19x19에서의 학습 이외의 학습 없이 곧장 다른 줄수의 바둑을 둔다는 문제입니다.
過猶不及
06-13 오전 10:20
9줄 바둑판이나 25줄 바둑판이나 바둑의 원리가 둘러싸고 나의 영토를 확정짓는
다. 어떻게 둘러싸고 어떻게 상대의 영역을 완전히 둘러싸기 전에 부수는지 수천
번 수억번 시뮬레이션하고 형세 판단하고 착점하고 의미없는 계산 작업입니다. 1
9줄이나 25줄이나 똑같고 인간이 계산할 수 없는 것을 인공 지능은 컴퓨팅 파워
를 이용해서 계산이 가능하다는 것 그리고 인간이 만든 알고리즘. 그리고 인공 지
능 스스로의 강화 학습, 강화 학습 능력이 인간 지능조차 뛰어 넘는다면 강인공
지능이 출현하겠죠. 스스로 생각하는 인공 지능의 지능 수치가 관심의 대상입니
다. 아이큐 500까지 나올른지...
제주행KTX
06-13 오후 3:59
19X19상의 인간기보 상속자 알파고는 물론이고 한정승인자 마스터까진
화자유민님 말씀이 정확한 지적이시고 옳습니다.
그런데, 제가 이글서 강조한 점 또한 제로는 인간기보 상속포기자로서
27X36줄의 반상이든 어떤 변형규칙을 대입하든 상관없이 72시간만 지나면
현존 최고 고수자리에 오르는게 따논 당상이란 겁니다.
동일한 조건서 출발했을때 인간이 오히려 새 게임에 적응하는데 훨씬 더 오래
걸릴 공산이 더 크다는 얘기죠. 그래서, 알파제로는 실로 무서운 얘기라는 것 입니다.
강인공지능까진 아니더라도 그 그림자가 언듯 비춘듯한 등골이 서늘해지는 광경
이라는 것이죠. 그래서, 이 글의 주제는 알파고나 A.I. 가 아니라 비인간화 인간소외
에 점점 내몰리고 있는 인간이 주제입니다.
제주행KTX
06-13 오후 3:57
광장에서 개인적으로 제일 꼭 한 번이라도 만나고싶으시다는 말씀은 감사합니다만
송구스럽게도 전 나쓰메 소세키의 그 소세키처럼 일종의 말장난의 언어유희나 즐기는 개구쟁이로서 전문지식은 허당 그자체인 놈입니다. ㅜㅠ
제주행KTX | 2018-06-13 오후 1:50  [동감 0]    
자폐증의 일종인 서번트 증후군인 사람과 또 사고로 뇌를 다치면서 하루아침에 그 비슷한 기이한 능력을 가지게되는 사람들이 있죠. 자폐증 뇌를 가진 서번트 증후군인 사람이 보통사람에 쉬운 건 어렵고 정상인에겐 난해하고 불가능에 가까운 것은 쉽게 해내는게 마치 알파고제로를 비롯한 여러 인공지능바둑프로그램들이 보여주는 인간이면 누구나 바둑배우면서 가장 먼저인 그 쉬운 축의원리를 눈치못채거나 가장 늦게 이해하는 경우랑도 유사하지 않을까 ?하고 안그래도 저또한 생각해왔습니다.
화자유민 | 2018-06-13 오후 00:56  [동감 0]    
위에. 지금의 답변이 인공지능 개발자의 의견인지 아니면 제주행KTX님의 개인적인 생각인지를 물어봐도 될까요?
제주행KTX
06-13 오후 4:01
제 대답입니다. 화자유민님...

<제로는 또 다르다>는게 이글 강조점이고요... 인간소외를 걱정해얄지도
모를 단계에 진입했다는 우려를 담은 감상문였습니다..
제주행KTX | 2018-06-13 오후 4:05  [동감 0]    
인간이 A.I.를 만들었다 해도 그 만든 원리는 과연 인간의 것일까?
이 우주에 존재하는 원리와는 뭔가 다르게 , 생명체 특히 휴먼이라는
고등생물체의 뇌는 우주의 원리의 일종인 A.I.가 돌아가는 것관 판이하게 차이를 보인다.
A.I.가 인간이 쉬운건 어렵고 그반대는 쉽게해낸다고 말하는건 우리기준의
순전히 왜곡된 시각이 아닐까? 오히려 우주보편적 원리에서 아주 동떨어진
특이한 능력과 약점한계 ( 분노 불안 사랑 격정 같은 감성 , 예술 철학의 지성, 종교의 영성 등등 )
을 지닌 휴먼종이라는 존재가 일종의 서번트신드롬에 거꾸로 해당되는 것은 아닐까? 그런 생각에서
들 출발 해보잔 글이였습니다.
제주행KTX | 2018-06-13 오후 4:06  [동감 0]    
서번트증후군 자폐환자나 사고로 뇌 다친이가 특수능력을 보이는게 초능력자일수도 있지만 반대로 생각해보면 인간이라는 조건의 <정상범주>에서 선천적으로나 사고로 이탈되어져버려 우주보편원리로 돌아가 버린 <탈인간화 현상>으로 해석할 수도 있지 않을까.... 원래 그 능력들은 아주 일반적 이 우주 능력이고 인간은 무슨 이유로 핸디캡이 주어진 존재인지도 모른다. 그게 아니면 우연히 그런 봉인된 존재가 지구라는 적절한 환경서 운좋게 지금과같은 문명을 꽃피우며 우주원리를 찾아나서 구현하는 과정에서 A.I.와의 필연적 조우를 하고 있는것일지도........

드라마 주인공들이 알고보니 남매간이고 잃어버린 회장아들로 밝혀지고 또, 괴팍한 인간적 약점들로 특별나게 설정되는것처럼 휴먼도 이 우주에서 게임이나 劇을 만들어낼 특수설정된 캐릭터로 온갖 핸디캡의 장치를 입힌 성격배우로서 생겨난건 아닐까.. .... 생명체는 특별하고 공히 Actor의 역할이 주어져 생겨난 것이고 그중 고등생물은 호기심의 주체에도 스스로를 놓고 있다는 것으로서 그밖에 우주 모든 만물은 의식 없는 관람자 일지도..... 이건 너무 나갔나?? ㅋㅋㅋㅋ



중언부언해서 죄송.... ㅠㅜ

막 자다일어나 댓글에 답하느라 아직 커피한잔 못했네여......
bigd | 2018-06-14 오후 7:41  [동감 0]    
좋은 글, 계속 부탁드리며... 감사드립니다.
포인트 선물^^ 합니다.
제주행KTX
06-14 오후 7:56
감사합니다. 大 BIGD님 꾸벅 ~^*^












* 띄어쓰기 포함 200자까지 쓰실 수 있습니다. (000 / 400바이트)
대국실입장하기
다운로드 이용안내 고객센터
정회원가입
오로볼구매
댓글이 가장 많은 게시물