메인메뉴로 이동 본문으로 이동

컨텐츠 내용

  1. 고객센터
  2. OSS뉴스

OSS뉴스

OSS뉴스 조회 페이지
페이스북 AI, 인간을 뛰어넘는 포커 실력을 보여주는 AI '레블(ReBeL)' 오픈 소스로 공개 관리자 / 2020.12.11

페이스북 AI, 인간을 뛰어넘는 포커 실력을 보여주는 AI '레블(ReBeL)' 오픈 소스로 공개

 

 

사진:페이스북 AI

이미지 출처: 인공지능 신문(페이스북 AI)

 

 

체스에서 인간을 능가하는 AI를 만들 수 있다. 그러나 진정으로 원하는 것은 어떤 게임이나 과제를 내놓아도 간단히 뛰어넘을 수 있는 AI 시스템이다. AI가 더 유용하게 쓰이려면 추가 도움 없이 발생하는 새로운 상황을 일반화하고 학습하며, 이해할 수 있어야 한다.

불행히도, 인간으로서 체스와 포커 둘 다를 가장 넓은 의미에서 게임으로 인식하지만, 그러나 하나의 AI가 둘 다 플레이하도록 가르치는 것은 매우 어렵다.

페이스북 인공지능(AI) 연구팀이 인간을 뛰어넘는 포커 실력을 보여주는 AI '레블(ReBeL)'을 3일(현지시간) 오픈 소스로 공개했다. 강화학습과 검색을 결합한 RL+Search를 최초로 가능하게 하는 알고리즘이다.

연구팀이 ‘ReBeL’로 명명된 이 AI는 게임에 참여하는 플레이어가 취할 수 있는 행동의 확률을 따지는 방법으로, 지금까지 AI가 취약했던 종류의 게임에서도 뛰어난 실력을 보여줬다. 또 이 알고리즘은 미래에 부정행위 감지나 사이버 보안 분야 등의 분야에서의 활약을 기대할 수 있다고 밝혔다.

게임 이론에서, 게임은 장기나 체스처럼 각 플레이어가 상대의 의사결정 내용이나 게임 전개 과정을 완전히 파악할 수 있는 ‘완전 정보 ​​게임’과 포커처럼 각 플레이어가 자신의 패를 숨겨 과정을 알 수 없는 ‘불완전한 정보 게임’으로 분류된다.

연구팀에 따르면 AI가 ‘불완전 정보 ​​게임’에서 약점은 AI가 지닌 ‘강화학습(RL)+검색(Search)’라는 알고리즘이 ‘불완전 정보 ​​게임’에서는 작동하지 않는 점이다.

알파고 등도 채용하고 있는 ‘RL+Search’ 알고리즘은 특정 행동이 선택될 확률에 관계없이 각 행동에 고정 값을 할당해 계산해 버리는 경향이 있다. 체스 같은 게임에서는 플레이어가 자주 사용하는 손인지 아닌지에 관계없이 묘수는 묘수, 악수는 악수이기 때문에, 이런 문제는 그다지 표면화하지 않는다. 하지만 포커에서는 ‘허세’를 자주 사용하면 ‘허세’가 읽히듯이 특정 행도의 가치는 사용 빈도에 따라 변동이 생기기 때문에 행동이 선택되는 확률이 매우 중요하다.

그래서 페이스북이 이번에 발표한 AI ReBeL는 각 플레이어가 가질 수 있는 다양한 ‘신념 (belief)’의 확률 분포를 계산해 행동을 결정하도록 했다.

즉, 각 플레이어의 신념을 설명함으로써, ReBeL은 완벽한 정보 게임과 같은 불완전한 정보 게임을 다룰 수 있다. 그러면 ReBeL은 불완전한 정보 게임의 더 복잡한 (고차원) 상태와 액션 공간을 다루기 위해 RL+Search 알고리즘을 활용할 수 있다.

그 결과, ReBeL은 포커에서 가장 인기 있는 텍사스 홀덤(Texas hold'em)과 2016년 카네기멜론대학에서 개발한 포커 AI인 타르타니안(Tartanian)의 업데이트 버전인 '베이비 타르타니안(Baby Tartanian8)' 등 2개의 포커 AI를 물리치고, 인간 톱 플레이어도 뛰어넘는 성적을 거두었다고 한다. 또한 상대의 거짓말을 간파하는 게 필요한 주사위 게임인 라이어스 다이스(Liar's dice)에서도 내쉬 균형(게임 이론)에 가까운 결과를 보여, 포커 이외의 ‘불완전 정보 ​​게임’에서도 강자임을 입증했다.

결론적으로 ReBeL은 이전의 어떤 포커 AI보다 훨씬 덜 전문적인 도메인 지식을 사용하여 달성함으로써 향후 사기 탐지, 사이버 보안과 같은 숨겨진 정보를 포함하는 다양한 복잡한 실제 업무를 처리할 수 있는 일반화된 AI를 구축하는 데 기여한다. 연구팀은 이 문제에 대한 추가 연구를 용이하게 하기 위해 ReBeL을 오픈 소스로 공개했다.

페이스북 연구팀은 “ReBeL은 종래의 AI에 비해 주어진 정보가 훨씬 적은 상황에서도 초인적 인 성능을 보여주었다. 이것은 보편적이고 폭넓은 용도를 가진 기술을 개발하는 데 있어 큰 성과이며, 부정행위 감지나 사이버 보안과 같은 현실 세계에서 활약하는 AI의 개발을 향한 전진이라고 생각한다”고 말했다.

[출처] 인공지능신문(http://www.aitimes.kr/news/articleView.html?idxno=18573)