알파고는 어떻게 바둑을 둘까

바둑은 전쟁, 아니면 땅따먹기

바둑은 흑과 백으로 편을 나누어 가로세로 19줄의 보드판에서 승부를 겨루는 게임이다. 흑과 백은 서로 얽혀 싸우기도 하고 적절한 선에서 경계를 만들고 사이좋게 땅을 나누기도 한다. 그런데 바둑에서 승부를 가르는 방법은 간단하지 않다. 바둑이 전쟁을 본 따서 만든 것이라면 반상(전쟁터) 위에 남은 돌(병사)을 세어 승부를 결정할 것이고, 바둑을 땅따먹기로 본다면 돌(기둥)로 둘러싼 공간(집)이 큰 쪽이 이기게 될 것이다.

전쟁으로서의 바둑을 채택한 것이 중국 규칙이고, 땅따먹기로서의 바둑을 채택한 것이 일본 규칙이다. 중국에서는 바둑판 위에 살아 있는 돌이 많으면 이긴다. 일본과 한국에서는 집이 많은 쪽이 이긴다. 이러한 관점의 차이는 특수한 상황에서 돌의 생사가 달라지기도 하며, 끝내기 계산에서 미묘한 차이를 만들어 내기도 한다. 알파고와 이세돌 9단의 시합은 중국 규칙으로 치러진다. 걱정할 필요는 없다. 이세돌 9단은 중국 프로 리그 경험이 있는 국제적인 기사다. 반면에 알파고는 일본 규칙으로 바둑을 둘 수 없다. 중국 규칙으로 학습되어 있으니 심각한 오류를 출력할 수 있다.

바둑은 운보다 실력

빈 바둑판을 마주한 플레이어에게는 무한한 자유가 주어진다. 선택지가 많다는 뜻이다. 또 바둑은 포커나 고스톱과 달리 모든 정보가 쌍방에게 공개된다. 바둑에 히든카드는 없다. 카드게임이나 주사위 게임처럼 바둑통에서 점수가 높은 돌을 뽑을 수 있는 것도 아니다. 모든 돌은 평등하다.

바둑에서의 승부는 운보다는 실력으로 가려진다. 그래서 핸디캡(접바둑)으로 균형을 맞춘다. 이세돌 9단이 알파고의 기보를 보고 두 점 아래로 본다고 하는 것은, 알파고가 두 점을 먼저 놓아야 승부가 된다는 말이다. 경기 규칙대로 호선(실력이 동등하여 흑백을 번갈아 두며 먼저 두는 흑의 이득을 상쇄하기 위해 백에게 덤으로 7.5집을 준다)으로 대결할 때 이세돌의 승률은 90% 이상일 것으로 보인다. 물론 5개월 전 판후이와 대결했던 알파고에 해당하는 얘기다.

패러다임의 전환

2천 년이 넘는 바둑의 역사에서 두 번의 패러다임 변화가 있었다. 변혁의 시기에 등장한 새로운 이론은 기존의 이론을 압도했다. 하수가 고수를 이기지 못하듯, 오래된 이론은 새로운 이론에게 상대가 되지 않았다. 바둑은 진화한다.

기원 전부터 17세기 이전까지의 바둑은 힘바둑 패러다임에 의존해왔다. 바둑을 부분과 부분의 합으로 보고 전투와 전투의 연속으로 보았던 시대다. 힘바둑 패러다임에서는 부분적인 수법과 수읽기 싸움이 중요했다. 이 때의 바둑은 전쟁의 모형이었고 돌의 사활이 중요했다.

근대 바둑은 구조주의 패러다임와 함께 17세기의 명인 도우사쿠에 의해서 시작되었다. 구조주의에서 전체는 부분의 합 이상이며 전체가 부분을 결정한다. 비로소 한 판의 바둑이라는 관점, 전국적인 시각이 생겼다. 싸움이 아니라 집이 중요하고 돌의 효율이 중요하다. 돌의 능률을 따지기 위해 수나누기라는 계산법이 제안되었다.

현대 바둑은 신포석 패러다임. 20세기 초 우칭위엔이 열었다. 신포석의 핵심은 중앙의 발견이다. 귀나 변을 중시했던 구조조의에서는 중앙을 등한시 했던 것이다. 우칭위엔은 중앙에서의 세력을 적극적으로 활용하였고, 승률로 증명했다. 포석에서 4선의 착수가 많아졌다. 구조주의에서 신포석으로의 전환을 일컬어 조훈현 9단은 “고전주의가 저물고 낭만주의가 시작되었다”고 표현하기도 했다. 견고한 땅에 지어진 비율 좋은 건축물이 아니라 힘과 역동성을 추구하는 현대 바둑과 비교하니 적절한 비유다.

‘개체 발생은 계통 발생을 반복한다’라는 속설이 있다. 생물학에서는 오해로 밝혀지긴 했지만, 경험적으로 바둑에서도 이러한 양상이 관찰된다. 바둑을 처음 배울 때 단수부터 배운다. 그 다음에는 축, 장문, 패, 환격, 촉촉수, 회돌이를 배운다. 부분적인 수싸움과 기본적인 사활이 재밌기도 하다. 이때의 바둑에서는 상대방의 곤마(두 집 없이 떠도는 말)를 쫓을 때 기어이 잡겠다는 각오로 달려든다. 포석을 익히고 기력이 늘면 돌의 효율과 분배를 생각하게 된다. 구조주의로 접어든 것. 이때의 바둑에서 상대방의 곤마를 쫓을 때는 반드시 잡으려고 하지 않는다. 곤마를 쫓는 척 하면서 퇴로를 따라 형성되는 집, 그러니까 실제로는 잿밥에 관심이 있는 것이다. 기력이 더 늘면 또다시 새로운 세상을 만나게 된다. 두터움. 후지사와 슈코 9단은 “바둑을 안다는 것은 두터움을 아는 것”이라고 했다. 신포석에서 강조하는 중앙과 세력이 전체 반상에 미치는 영향력, 당장 집으로 환산되지는 않지만 장기적으로 판에 미치는 영향력이 두터움이다. 두터움은 부분이 아니라 전체에 영향을 미친다. 두터움은 공간과 형상에 대한 감각이다. 두터움은 현대 바둑에서 가장 중요한 개념이다. 두터움에 대한 이해 없이는 고단자의 반열에 오를 수 없다.

바둑은 모양 싸움

반상(盤上)은 흑과 백이 춤을 추는 형상의 세계다. 바둑이 전쟁이든 땅따먹기든 중요한 것은 돌과 돌의 연결이다. 홀로된 돌은 살아남을 수도 없고 집을 만들 수도 없다. 연결은 바둑의 기본이며, 돌과 돌이 연결되는 형태가 모양이다.

수읽기 없이 모양으로만 바둑을 둘 수 있다. 아마추어들의 바둑은 종종 30분 내로 끝나기도 한다. 깊은 수읽기 없이 거의 모든 수를 모양으로 두었다고 보면 된다. 돌을 연결할 때는 두 가지 장점을 모두 살려야 한다. 튼튼하면서도 날렵하게. 균형점을 찾는다면 효율적인 행마가 나온다. 호구, 한 칸 뜀, 날일자와 같이 모양 좋은 연결은 대개 효율이 좋다. 두터움은 힘이 좋은 모양에서 나온다.

모양이 좋지 않은 우형(愚形)의 대표적인 예는 빈삼각이다. 빈삼각은 기역자로 튼튼하게 꼬부린 형태인데 좁은 공간에 돌이 중복되어 효율이 좋지 않고, 튼튼히 연결될지언정 뻗어나감이 없어 힘이 좋다고도 할 수 없는 모양이다. 입문자에게는 빈삼각을 두지 못하도록 가르친다.

그런데 가끔은 나쁜 모양이 묘수가 되기도 한다. 대개의 경우 빈삼각은 악수. 하지만 “빈삼각에 묘수 있다”. 빈삼각이 되는 자리라면 평소에는 일감에서 배제되는데, 가끔가다 빈삼각이 묘수가 되기도 한다. 조훈현 9단은 1988년 제1회 응씨배 준결승에서 린하이펑 9단을 상대로 한 판에 세 번의 빈삼각을 두고 승리했다. 승부를 위해서는 좋지 않은 모양도 기꺼이 둘 각오가 되어 있어야 한다.

바둑 고수가 된다는 것

바둑은 운보다 실력이다. 바둑을 잘 두려면 수읽기, 감각, 평정심을 고루 갖춰야 한다. 불확실한 상황에서 여러 시나리오를 미리 그려보고 수순을 정확히 읽어내는 것(수읽기), 서로 다른 형태의 돌이 가지는 가치의 무게를 저울질하고 우선순위를 정하는 것(감각), 상대의 심리를 흔들고 상대의 도발에 흔들리지 않는 것(평정심)이 모두 중요하다.

수읽기는 특히 부분적인 전투나 끝내기에서 유용하다. 여러 시나리오를 머릿속에서 상상으로 진행할 수 있어야 한다. 컴퓨터의 램에 해당하는 작업기억과 논리적인 추론이 요구된다.

감각은 형태와 모양에 대한 것, 추상적인 것이다. 프로기사들은 다음 착수할 곳을 한 눈에 두세 곳으로 압축한다. 반상의 모든 경우의 수를 계산할 수는 없는 노릇. 사람은 우선 감각으로 착점할 곳의 후보를 빠르게 추린다. 한 눈에 들어오는 큰 자리를 일감이라고 한다. 하수들의 바둑은 지나치게 일감에 의존한다. 대개 습관적으로 익숙한 모양을 만드는 수준이다. 하수들의 일감은 정답이 아니다. 세련된 감각이 필요하고 수읽기도 필요하다.

평정심에 관해서는 한마디로 ‘반외팔목(盤外八目)’이라 하겠다. 바둑판 밖에서 보면 8집이 더 유리하다는 뜻이다. 감정은 원래 빠르게 판단하고 행동하기 위해 진화한 것이나 바둑에서는 대체로 무용하다. 이전에 두었던 수가 아까워서 작전을 고집하거나, 당했다는 느낌에 발끈해서 무리한 수를 두게 되는 경우에 바둑을 그르친다. 감정에 휩싸이지 않으면 형세 판단이나 수읽기가 더 정확하다. 감정의 소용돌이에서 자유로운 알파고가 과연 얼마나 유리하다고 보아야 할지는 애매하지만, 첫 판 패배 이후 감정적으로 흔들린 판 후이 2단에게 핸디캡으로 작용한 것만은 분명하다.

사람처럼 두는 알파고

컴퓨터는 계산이 뛰어나다. 하지만 체스와 달리 바둑은 천문학적인 경우의 수를 다룬다. 사람은 감각으로 세 곳 정도의 후보를 추리고 그 경우에 대해서만 수읽기를 한다. 하지만 알파고는 모양을 보고 판단하는 능력, 감각을 지니지 못했다.

알파고가 기존의 인공지능 바둑 프로그램과 가장 크게 다른 점은 사람의 감각을 학습하는데 뛰어나다는 점이다. 계산 기계인 컴퓨터가 어떻게 감각을 모방할까. 알파고는 기보 16만 건에 나타난 3천만 수를 학습했다. 사람은 대개 모양을 해치지 않으려 애쓴다. 대부분의 바둑은 그럴듯한 모양으로 진행된다. 알파고는 입력된 대국을 통해 자연스럽게 모양에 익숙해 진 것이다.

판 후이 2단은 알파고와 대국 후에 “사람들이 얘기해주지 않았다면 약간 특이하지만 아주 강한 기사와 대국을 하고 있다고 생각했을 것”이라고 했다. 중국랭킹 1위 커제 9단은 “어느 쪽이 인공지능인지 알 수가 없었다”고 했다. 이 대목에서 뭔가 연상되는 것이 있지 않은가. 알파고는 인공지능 바둑 프로그램 최초로 튜링 테스트를 통과한 것이다. 튜링 테스트는 기계의 행동을 사람과 구분할 수 없을 때 기계가 생각한다고 말할 수 있다는 기준을 제시한 시험 방법이다. 게다가 알파고는 인공지능 바둑 프로그램이 패싸움이나 사석작전을 할 수 없을 거라는 편견도 깼다. 알파고는 사람처럼 바둑을 둔다.

컴퓨터처럼 바둑을 두는 사람도 있다. 전성기 시절 이창호 9단의 바둑이 그랬다. 상대의 도발에 좀처럼 말려들지 않고 답답하다 싶을 정도로 안정적인 국면을 운영하여 돌부처라 불리던 이창호 9단. 특히 끝내기 계산은 신의 경지로 여겨졌다. 이세돌 9단은 이창호 9단과는 전혀 다른 바둑을 둔다. 수읽기에 강한 이세돌 9단은 유리한 상황에서도 모험을 감수한다. 오죽하면 이세돌 9단의 자서전 제목이 ‘판을 엎어라’겠는가. 이세돌 9단은 안정적이기보다는 모험적이며 창의적이다. 다른 프로기사들도 예상하지 못한 수로 판을 흔드는 것이 특기다. 창의성이야말로 컴퓨터가 아닌 사람에게만 있는 능력으로 여겨진다. 이세돌 9단은 가장 인간다운 바둑을 두는 기사다.

알파고는 뛰어난 하드웨어로 무장한 컴퓨터 프로그램이다. 컴퓨터처럼 바둑을 두는 인간과의 승부와 창의적인 수로 변화무쌍한 국면을 만들어내는 인간과의 승부 중 어느 쪽이 더 흥미로울까.

알파고는 바둑을 어떻게 배웠을까

바둑의 진행은 트리 구조로 표현할 수 있다. 한 수를 선택하면 또 다른 선택이 이어진다. 트리 구조로 표현되는 모든 경우의 수를 대국 종료 순간까지 시뮬레이션 하고 승패를 미리 보고 올 수 있다면 필승의 수순을 발견할 수 있다. 하지만 바둑에서 이것은 불가능하다. 경우의 수가 현재의 컴퓨터 계산 용량을 넘어 선다. 그래서 알파고를 비롯한 기존의 바둑 프로그램은 트리 중 일부를 무작위로 탐색하여 시뮬레이션 하여 승률을 추정하는 방법을 쓴다. 방송국에서 TV 프로그램 시청률을 집계하기 위해 일부 가구만 조사하는 것과 같은 이치다. 이러한 방식을 몬테카를로 트리 서치(MCTS)라 한다. 하지만 이런 정도의 방법으로는 프로 바둑 수준에 이르지 못한다.

[그림 1 ] 몬테카를로 트리 서치. 가상 대국을 진행하여 각 수순의 승률을 추정한다. [1]

알파고는 몬테카를로 트리 서치를 좀더 효율적으로 하기 위해 네 개의 신경망(神經網)을 활용했다. 크게는 두 종류다. ‘정책망’은 몬테카를로 트리 서치를 수행할 때 사람처럼 다음 착점의 후보를 빠르게 선별하기 위한 것이고, ‘가치망’은 매 경우마다 승률을 정확하게 추정하여 형세를 판단하기 위한 것이다. 알파고가 다른 인공지능에 비해 월등히 뛰어난 이유는 정책망과 가치망이 시뮬레이션에 비약적인 효율 개선을 가져왔기 때문이다.

알파고는 몇 가지 간단한 규칙이 입력된 ‘롤아웃’ 정책망, 아마추어 6~9단의 실력자들이 둔 바둑 16만 건으로 공부한 ‘지도학습’ 정책망, 가상의 바둑을 무수히 진행한 다음 좋은 결과만을 익힌 ‘강화학습’ 정책망 학습을 거치며 단계적으로 실력이 향상된다. 마치 학생들이 수학을 배울 때 공식을 외우고, 연습 문제를 푼 뒤, 스스로 증명에 도전하는 방식과 닮았다.

정책망의 핵심은 지도학습이다. 지도학습 정책망은 사람의 바둑으로 연습문제 풀이를 하는 것이다. 구글 딥마인드 개발자들은 알파고에게 16만 건의 기보를 던져 주고 그 안에 나타난 3천만 착점을 익히도록 했다. 알파고가 사람처럼 둘 수 있는 것은 지도학습 정책망이 효과적으로 작동하기 때문이다.

사람은 모양 좋은 행마를 격언으로 배운다. 붙이면 젖혀라, 젖히면 뻗어라, 궁하면 붙여라, 2립3전, 2선은 패망선, 모자는 날일자로 벗어라 등이 모두 행마와 모양에 대한 격언이다. 하지만 알파고에게는 이런 가르침을 주지 않았다. 알파고는 많이 보았기 때문에 저절로 안다. 사람처럼 두려다 보니 모양을 익히게 돈 것이다. 알파고는 KGS 온라인 대국 사이트를 이용한 16만 명의 고수들(아마추어 6단~9단)을 스승으로 둔 셈이다.

하지만 아마 최고수 10명이 머리를 맞대도 프로 기사 한 명을 이기기 힘들 듯이 16만 명의 의견을 종합한다고 최선의 수가 나온다는 보장이 없다. 그래서 알파고는 배운 것을 하나하나 따져보고 검증하는 ‘강화학습’을 한다. 수천 만 가상 대국을 두면서 어떤 수가 좋은 결과를 가져오는지 배운다.

학생들이 공부한 결과가 뇌의 시냅스가 재조직되거나 재연결되면서 저장되듯이, 알파고의 학습 결과는 네 개의 신경망에 각 노드의 연결 강도가 조정되는 형태로 저장된다. 알파고가 바둑을 학습하는데 필요한 시간은 4주 정도였다. 알파고는 기보를 좋아하기로 유명한 박영훈 9단이 보았다는 15만 건보다 많은 분량을 4주 만에 학습할 정도로 말랑말랑한 머리를 가졌다. 4주 동안 배운 바둑으로 유럽 챔피언 판 후이 2단을 꺾은 것이다.

[그림] (a) 가치망으로 추정한 각 착점의 승률 (d) 지도학습 정책망으로 사람의 다음 수를 예측값 (f) 최선의 수순 [1]

알파고는 첫 수를 어떻게 둘까

바둑의 초반 진행을 포석(布石)이라고 한다. 인공지능에게 가장 어려운 것이 포석이다. 알파고는 판후이 2단과 진행한 공개 대국에서 흑이든 백이든 다섯 번 모두 첫 수를 화점(花點)에 놓았다. 어쩌면 알파고의 첫 수는 화점으로 정해져 있는지도 모른다. 빈 바둑판에서 시뮬레이션을 하거나 형세 판단을 하기는 어렵기 때문이다. 현대 바둑에서 화점으로 시작하는 포석이 승률이 높다는 통계에 근거한 결정일 수도 있고, 알파고가 학습한 16만 건의 기보에 화점이 많이 나타났을 수도 있다. 첫 수만이 아니라 초반 몇 수 포석까지 시뮬레이션과 형세 판단 없이 16만 기보에서 가장 많이 등장한 형태로 둘 가능성이 크다. 첫 수와 초반 포석에서 알파고가 착수하는 시간 간격을 보면 힌트가 될지 모르겠다.

알파고는 다음 한 수를 어떻게 결정할까

대국이 진행되면 알파고는 매 수마다 복잡한 결정 과정을 거친다. 사람은 직감에 따라 빠르게 둘 때도 있고 수읽기를 거듭하며 장고하기도 한다. 사람이라면 당연한 필순도 알파고는 매번 충분한 시간을 들여 수읽기를 해야 한다.

수읽기는 가능한 수순을 탐색하는 것인데, 몬테카를로 트리 서치를 효율적으로 하기 위하여 정책망과 가치망을 활용한다. 정책망은 몇 가지 수로 다음 진행을 압축하고, 가치망은 각 수의 승률을 보다 정확하게 추정한다[그림 2, a]. 정책망과 가치망은 각각 모양과 형세를 보는 사람의 감각에 해당하고, 몬테카를로 트리 서치 시뮬레이션은 수읽기에 해당한다. 수읽기가 끝나면 알파고는 쌍방 최선의 수순을 예측하여 진행한다.

재밌는 장면이 있다. 판 후이 2단과의 대국[그림 2(f)]에서 알파고는 흰색 네모의 자리를 판 후이 2단의 다음 수로 보고 이후 진행을 번호의 수순으로 예측했다. 이는 쌍방 승률이 높은 수를 두었을 때 나오는 수순이다. 하지만 실전에서 판 후이 2단은 백1의 자리에 두었는데, 대국 후에 판 후이 2단은 실전보다 알파고가 예측한 곳이 더 나은 자리였음을 인정했다.

반면에 30초 안에 무조건 한 수를 두는 방식으로 진행된 판 후이 2단과의 비공식 대결에서 알파고가 두 번을 진 것은 충분히 시뮬레이션하지 못했기 때문으로 보인다. 하지만 얕은 수읽기와 정책망과 가치망에 의존하여 3승을 거둔 것을 보면 알파고의 감각도 프로 기사 못지 않은 것 같다. 16만 선생의 가르침이 헛되지 않았다. 알파고가 이세돌과의 대국에서 하드웨어를 보강한다면 동일한 제한시간 내에 더 많은 시뮬레이션이 가능할 것이다. 하지만 하드웨어를 늘린다고 실력이 무한정 늘지는 않는다. 고수의 반열에 오르고서도 최고수가 되기까지는 시간이 오래 걸리는 법이다.

알파고는 동일한 장면에서 똑같이 둘까

알파고는 정책망과 가치망을 혼합하여 몬테카를로 트리 서치로 시뮬레이션 하고 가장 승률이 높은 수순을 택한다. 한 번 학습을 하고 나면 대국 중에 정책망과 가치망이 변하진 않는다. 하지만 몬테카를로 트리 서치는 무작위적인 요소가 있으므로 매번 똑같을 수는 없다. 하지만 몬테카를로 트리 서치가 효과적인 이유는 그것이 통계적으로 최적의 결과를 내기 때문이다. 이론적으로는 다르게 둘 여지가 있다 하더라도, 실질적으로 알파고는 동일한 장면에서 대부분 같은 수를 둘 것으로 보인다. 그러한 징후를 판 후이 2단과의 3국과 5국에서 볼 수 있다. 판 후이 2단은 흑을 잡고 둔 3국과 5국에서 동일하게 미니중국식 포석을 선택했다. 백을 잡은 알파고는 흑의 진행에 동일하게 응수했다. 변화가 생긴 것은 판 후이 2단에 의해서였다. 흑21의 자리를 다르게 둔 것. 판 후이 2단은 [참고도 3]의 흑21로 또 한 판의 바둑이라고 보았던 것 같다.

[참고도 3] 알파고 vs. 판 후이 2단 3국(좌)과 5국(우). 흑을 잡은 판 후이 2단은 흑19까지 동일한 포석을 시도했고 알파고는 백20까지 똑같이 응수했다.

알파고는 의외로 계산에 약하다

부분적인 전투나 사활 문제에서는 수읽기 싸움이다. 그런데 판 후이 2단과의 두 번째 대국에서 알파고는 사활 문제를 실수했다. 판 후이 2단의 돌을 잡을 수 있는 상황에서 모양 좋게 받다가 살려주고 만 것이다. [참고도 4(좌)]의 장면에서 흑으로 둔 수(노란색 세모)는 모양 좋은 일감이지만 [참고도 4(우)]처럼 두었으면 백 다섯은 두 집을 낼 방도가 없다.

알파고는 다섯 번째 대국에서도 자신의 사활이 걸린 장면에서 실수를 한다. [참고도 5]에서 백54와 흑55의 교환은 명백한 잘못이다. 이 교환이 없었다면 좌변 백돌은 살아 있지만 교환 이후 생사가 불투명하게 되었다. 결국 판 후이 2단이 추궁하여 좌변 백이 갈라지고 쫓기는 신세가 되었다.

[참고도 4] 알파고 vs. 판 후이 제2국. (좌) 알파고의 실수(노란색 세모). 좌하귀 백 다섯 점이 두 집을 내고 살게 된다. (우) 흑1로 두면 좌하귀 백 다섯 점은 잡혔다

[참고도 5] 알파고 vs. 판 후이 5국. (좌) 백54(알파고)와 흑55 교환이 알파고의 결정적인 실수. 살아 있던 좌변 백돌의 생사가 불투명 해졌다. (우) 쫓기는 신세

알파고가 보인 프로의 감각

사활 장면에서 보인 두 번의 실수와는 대조적으로 알파고가 프로급 감각으로 맥을 짚어낸 장면도 있었다. 목진석 9단이 바둑TV에서 기보를 해설하며 감탄했던 장면이다. [참고도 6] 백58 이후에 백64로 붙여간 것이 상당히 좋은 맥이었다. 백64에 판 후이 2단이 [참고도 7(좌)] 흑1로 순순히 받아준다면 이후 백12까지의 진행으로 백 우변 세력이 상당히 커진다. 이것은 상변 백 다섯 점을 주는 대가로 세력을 얻는 이른바 사석 작전(일부 돌을 희생하면서 더 큰 이익을 취하는 것)으로 볼 수 있는데, 알파고가 이러한 장면을 의도했다면 프로급 감각을 갖춘 것으로 보인다. 판 후이 2단이 이에 반발하여 실전에서는 [참고도 7(우)]처럼 진행되었는데 상변 흑집을 파괴하여 알파고도 불만이 없다.

[참고도 6] 알파고 vs. 판 후이 2단 제 5국. 알파고의 맥점. 사석 작전을 염두에 두고 붙인 프로급 감각.

[참고도 7] 알파고 vs. 판 후이 5국. (좌) 사석 작전으로 진행되었을 때의 장면 (우) 판 후이 2단의 반발로 진행된 실전.

알파고의 끝내기 실력

알파고의 끝내기 실력에 대해서는 정보가 거의 없다. 판후이 2단과의 대국에서 대부분 불계승을 거뒀기 때문이다. 복잡한 패가 남아있거나 사석을 활용할 뒷맛이 남아 있는 상황이 되면 알파고의 실력을 보게 될 것이다.

끝내기로 가면 경우의 수가 줄어 계산이 가능할 것이라고 생각하기 쉽다. 하지만 알파고가 끝내기를 이창호 수준으로 할 수 있을 것이냐 하면 대답하기 쉬운 문제가 아니다. 끝내기라고 만만하게 보면 안 된다. 알파고는 초중반부터 이미 경우의 수를 효과적으로 줄여 왔다. 그렇지 못했다면 알파고는 다른 인공지능 바둑 프로그램처럼 이세돌에게는 4점 정도 뒤지는 실력에 머물렀을 것이다. 끝내기 상황에서도 반상에 빈 곳은 여전히 많고 변화도 많다. 알파고가 아무리 계산을 잘 해도 끝내기에서 이창호를 능가하기는 어렵지 않을까.

알파고가 엉뚱한 수에 말려들까

많은 사람들이 또한 이세돌이 엉뚱한 수를 두면 예상치 못한 알파고가 실수할 가능성이 있다고 생각하는 듯하다. 예컨대 첫 수를 천원에 놓으면 알파고가 혼란에 빠질 것으로 기대하는 것이다. 하지만 알파고에게 예상치 못한 수가 무엇일까. 알파고는 사람과 달리 예상을 하지 않는다. 그때그때 주어진 상황을 입력하고 정책망과 가치망을 동원하여 시뮬레이션을 돌려볼 뿐이다.

프로 기사들의 랭킹 시스템으로 Elo 레이팅이라는 것이 있다. 알파고의 Elo 레이팅은 3140점인데 이는 세계 랭킹 283위에 해당하는 실력이다. 판 후이 2단은 3085점(랭킹 371)로 알파고보다 아래다. 알파고와 이세돌(3527점)의 Elo 레이팅 점수 차이는 387점이다. 대략 승률 90% 안팎이다. 알파고는 열 판에 한 판 정도 이세돌을 이길 수도 있는 실력이다. 아무리 인공지능이라도 엉뚱한 수는 가볍게 무시하거나 호되게 응징할 것이다.

궁금하긴 하다. 하지만 이세돌 9단이 악수를 두어가면서까지 알파고를 테스트할 의도가 있을지 모르겠다. 이세돌 9단으로서는 한 판도 지고 싶지 않을 테고 최선의 기보를 남기려 할 것이다. 이세돌이 자신의 저서 <판을 엎어라="">에서 남긴 명언이 있다. “바둑의 끝이 어디인지는 모르지만, 내가 가장 완벽한 수를 두고 상대도 가장 완벽한 수를 둔 바둑에서 승리하고 싶다.”

알파고와 기존 바둑 프로그램의 Elo rating [1]

알파고는 예절을 갖춘다

프로 기사들은 승부가 기울었다 싶으면 돌을 던진다. 몇 집이라도 확실하게 졌다고 생각하면 불계패를 선언하기도 한다. 패배의 순간을 스스로 결정짓는 것이 최선을 다하지 않는 것처럼 보이기도 하지만, 바둑에서는 일종의 예절이다. 상대방의 실수를 기다리며 판을 끌고 가기 않고 돌을 던지고 복기를 하는 것이 보통이다.

그렇다면 알파고는 어떨까. 판 후이와의 공식 대국에서는 알파고가 5:0으로 전승했기 때문에 알파고의 예절을 확인할 수 없었지만, 비공식 대국에 힌트가 있다. 알파고는 판 후이 2단과 대결한 다섯 판의 비공식 대국에서 두 판을 졌는데 그중 한 판은 불계패로 기록되어 있다. 알파고는 예절까지 학습한 것으로 보인다.

인류 집단지성 알파고 vs. 인간계 최고수 이세돌

인공지능 알파고와 이세돌 9단의 대국을 인간에 대한 기계의 도전으로 보아야 할까. 알파고는 뛰어난 하드웨어로 무장한 컴퓨터 프로그램이다. 하지만 알파고는 집단지성이기도 하다. 알파고는 16만 명의 기보에서 평균을 취하여 그들의 감각을 습득했다. 집단지성의 힘은 세다. 어떤 사람의 키나 나이, 몸무게를 추정할 때 여러 사람의 의견을 평균 내면 꽤 정확하게 맞는다. 알파고의 바둑은 이러한 전략을 따른다. 그래서 무척 사람 냄새가 난다.

최근 딥드림(Deep Dream)이나 쿨리타(Kullita)처럼 그림이나 음악을 창작하는 인공지능에 사람들이 크게 놀라는 이유는 예술이야말로 인간 고유의 영역이라고 생각했기 때문이다. 과연 바둑에도 인간 고유의 창의성이 남아 있을 것인가. 알파고가 하나의 주체로서 한 판의 바둑을 창조할 수 있을까.

알파고에게 우리가 흔히 기풍이라고 부르는 일관된 스타일은 없을 지도 모른다. 하지만 기풍의 유무나 이세돌 9단과의 승부와는 무관하게, 알파고는 집단지성의 힘을 빌어 탄생한 인류의 위대한 성취로 기록될 것이다.

참고문헌

D. Silver et al. “Mastering the game of Go with deep neural networks and tree search.” Nature 529.7587 (2016): 484-489.
문용직, 바둑의 발견, 1998
문용직, 수담과 무언 1, 2002
조환규, 이세돌과 인공지능 알파고의 ‘반상 결투’, 경향신문

Brunch에서 발행한 원문