이세돌과 대국 준비하는 인공지능 '알파고'는 어떻게 바둑을 두는 걸까?

그동안 진행했던 간담회 사상 가장 흥미로웠던 시간이라는 소회를 밝힌 구글 코리아 홍보 이사의 의견에 이의를 달고 싶지 않을 만큼 28일 오후 5시부터 1시간 동안 구글 코리아에서 진행된 알파고 간담회는 시간이 너무 짧게 느껴질 만큼 흥미로운 이야기가 많았습니다. 물론 모든 기술적 내용을 다 알아들어서 그런 것이 아니라 바둑을 두는 인공 지능의 출현과 아울러 프로 기사에게 도전하는 것 자체가 충분히 재미있는 이야기였기 때문이지요. 더구나 28일 새벽에 유럽 바둑 챔피언인 판 후이 2단을 내리 다섯 판 이긴 인공 지능 알파고에 대한 소식이 네이처에 게재된 데다 3월에 이세돌 9단과 인공지능의 바둑 대국을 준비 중이라는 소식까지 겹치며 다른 때보다 이 간담회의 취재 열기를 더 뜨겁게 만든 것 같더군요.

이처럼 화제를 모은 알파고를 다듬고 있는 곳은 구글이 인수한 2014년 인수한 딥마인드(DeepMind)입니다. 시뮬레이션과 게임, 전자 상거래 등 범용 학습 알고리즘을 연구해왔고, 이미 인공 지능 스스로 스페이스 인베이더와 퐁, 팩맨 등 아타리 게임을 하는 법을 터득하는 알고리즘을 공개하기도 했던 그곳입니다. 어제 간담회는 영국에 있는 딥마인드 창업자 데니스 하사비스와 프로젝트 책임자 데이빗 실버를 행아웃으로 연결해 화상 통화 형식으로 진행했는데, 이들은 알파고가 바둑을 어떻게 둘 수 있는지는 물론 인공 지능과 관련한 여러 질문에 성실히 답했습니다.

사용자 삽입 이미지 — 딥마인드 창업자 데니스 하사비스(왼쪽)과 고 프로젝트을 맡은 데이빗 실버(오른쪽)

게임은 인공지능 알고리즘을 실험할 수 있는 가장 좋은 수단인데, 그 중에서도 “왜 바둑을 택했는가?”라는 질문을 던지기 전에 두 사람이 그 이유를 밝혔습니다. 바둑에 복잡하고 심오한 두 가지가 존재하기 때문이라더군요. 우주에 존재하는 원자의 수보다 많은 변수가 바둑에 있다고 합니다. 체스가 각 차례마다 20여 개의 브랜칭 팩터(다음 단계에서 가능한 행동)가 있는 반면 바둑은 그게 200개나 되는데, 바둑판 위에 올려 놓는 돌의 수를 감안하면 어마어마한 변수입니다. 더구나 체스는 이미 판 위에 올려진 각 말들의 역할, 그러니까 퀸이나 킹 같은 가치가 부여된 반면, 바둑은 돌을 하나씩 올려 놓을 때마다 그 돌의 가치를 하나씩 평가해야만 합니다. 바둑판 위에서 일어나는 수많은 변수를 고려하고 그 가치를 판단해 이기는 법을 터득해야 하는 것이죠.

때문에 알파고는 승리를 위해 바둑의 복잡성을 단순화하기 위한 심화 신경망 기법을 씁니다. 먼저 정책망은 지금 두고 있는 바둑에서 승리를 안겨다 줄 수 있는 가장 좋은 수로 축소합니다. 가치망은 현재 돌이 놓인 상황의 승률을 평가하지요. 이 둘을 합쳐 알파고는 가장 성공적인 수를 시뮬레이션한 뒤 다음 수를 실행합니다. 그러니까 이기는 데 유리한 수만 찾아내도록 하고 돌이 놓인 위치를 평가함으로써 그 순간의 승자를 판단한 뒤 그 이후에 알맞은 수를 실행하는 것이지요.

그런데 알파고는 그냥 알고리즘을 입력하고 반복 훈련시키는 게 아닙니다. 이기는 법을 자체 학습하는 것이지요. 과거 체스 인공 지능이었던 딥블루는 무작위의 20여 개 경우의 수를 모두 넣어서 답을 찾았고, 제퍼러디 인공 지능이었던 왓슨은 IBM이 특성 사례를 입력해 단순하고 계측화된 프로세스를 거쳐 답을 찾았던 것이었습니다. 즉, 사람이 정해놓은 인공 지능 알고리즘에 따라 답을 찾아간 것이지요. 하지만 알파고는 알고리즘을 사람이 일일이 넣는 게 아니라 이기는 알고리즘 자체를 인공지능 스스로 찾아낸다는 것입니다.

이기는 알고리즘을 찾기 위해 알파고는 바둑 기사가 기보를 보며 대국 연습을 하는 것처럼 스스로 연습 게임을 합니다. 전원이 공급되는 한 결코 지치지 않는 체력을 바탕으로 끊임 없이 신경망을 훈련하는 것이지요. 물론 알파고의 연습 상대는 이미 실전을 치렀던 대국들입니다. 그들의 수를 미리 입력한 뒤 알파고에게 연습 대국을 시켜 이기는 법을 찾으라 했던 것이죠. 알파고가 4주 동안 중단 없이 치른 대국만 해도 1백만 번쯤 된다더군요. 기사 1명이 1년에 1천번을 둔다고 가정하면 거의 1천년에 이르는 학습량이라고 합니다.

그렇다면 알파고의 현재 바둑 수준은 모든 기사를 이길 수 있는 수준일까요? 아직은 아닙니다. 앞서 말한 대로 모든 상황에서 이기는 법을 다 알고 있는 것은 아닙니다. 딥마인드 측의 자료에 따르면 5단 정도라는 군요. 더구나 학습 대국에서 시간을 오래 잡을수록 알파고가 유리한 것은 사실이나 짧게 잡으면 알파고 역시 약점은 있습니다. 그래도 500개의 연습 대국에서 딱 한번만 빼고 모두 승리를 했는데, 이는 지금 나온 인공 지능 중 가장 좋은 성과라고 자부하고 있더군요.

그래서 이세돌 9단과 대국은 흥미롭습니다. 최고의 바둑 기사인 이세돌 9단은 변칙 바둑에도 능한 것으로 알려졌는데, 이에 알파고가 어떻게 대응할지 궁금한 것이지요. 물론 이세돌 9단은 이 소식이 나간 이후 여러 인터뷰에서 이길 것을 자신하고 있는데, 이세돌 9단과 붙을 즈음에 알파고가 얼마나 더 학습했을 지에 따라 결과는 달라질 수도 있긴 합니다. 특히 문제를 해결하기 위해 다양한 지식을 복합해 해결하려는 사람과 오직 바둑만 이기려는 인공 지능은 어쨌든 충분히 흥미로운 이벤트인 것은 부인할 수 없습니다.

하지만 사람과 인공 지능의 바둑 대결이 흥미롭기는 해도 사실 구글과 딥마인드가 이 인공지능 알고리즘을 개발한 목적이 따로 있습니다. 알파고가 바둑을 두는 것으로 눈길을 끌고 있지만, 사실은 다른 문제를 해결하기 위한 범용 인공지능 방법론을 훈련시키고 있는 것이지요. 이를 테면 인간이 직면한 기후나 의료 같은 문제의 해결에 인공 지능의 능력을 활용해 예측과 해결 과정 수립 등 같은 목적으로 활용하고 싶다는 점을 분명히 했습니다. 우리는 지금 인간과 바둑을 두는 인공 지능에 대한 흥미로운 이슈를 접하지만, 어디까지나 바둑만 두려는 이유로 인공 지능을 만드는 데 시간과 비용을 허비하는 것은 아니라는 것을 알아둬야 할 듯합니다.

연관글

이세돌과 대국 준비하는 인공지능 ‘알파고’는 어떻게 바둑을 두는 걸까?

Be First to Comment

답글 남기기 응답 취소