Poker GTO & AI — Research History

1944

폰 노이만 & 모르겐슈테른

Theory of Games and Economic Behavior

GTO이론

블러핑의 수학적 구조를 최초로 형식화. 단순화된 2인 포커 모델(0~1 실수 카드, 1회 베팅)로 혼합 전략과 내쉬 균형의 필요성을 증명. 모든 포커 AI 연구의 이론적 뿌리. 텍사스 홀덤이 아닌 추상적 2인 카드 게임이 분석 대상.

1950s

존 내쉬 — Nash Equilibrium

내쉬 균형 이론 정립

GTO이론

비제로섬 게임으로 확장된 균형 이론. "어떤 플레이어도 전략을 바꿔 이득을 볼 수 없는 상태" = GTO의 직접적 수학 기반. 1994년 노벨 경제학상 수상. 폰 노이만이 씨앗을 심었다면 내쉬가 꽃을 피운 셈.

1970s

Nicholas Findler

최초의 포커 프로그램

봇연구

5카드 드로우 포커를 대상으로 인간의 인지 과정을 컴퓨터로 모델링. 강한 플레이어 수준에는 미치지 못했으나 컴퓨터 포커 연구의 역사적 시작점.

1984

Mike Caro — Orac

최초의 홀덤 봇 시도

봇연구

헤즈업 노리밋 홀덤 프로그램 Orac을 제작해 강한 인간 플레이어와 최초로 공식 대결. 통계적으로 유의미한 성과는 없었으나 실전 대결의 첫 사례.

1995

Darse Billings 석사논문

앨버타 대학교 CPRG 설립

GTO이론봇연구

포커가 심리나 블러핑 같은 인간적 요소에 의존한다는 통념에 도전. 완벽한 포커는 확률과 전략 원리에 기반한다는 점을 학문적으로 제시. 앨버타 대학교 Computer Poker Research Group(CPRG) 설립의 씨앗.

1997

Loki (앨버타 CPRG)

첫 GTO 기반 포커 봇

봇연구

앨버타 CPRG의 첫 번째 포커 봇. 핸드 강도와 상대 모델링 기반 휴리스틱 전략. IRC 포커에서 실전 테스트. GTO보다는 규칙 기반에 가까웠으나 이후 연구의 발판이 됨.

1999

Poki + Cactus Kev 알고리즘

상대 모델링 강화 / 소수 핸드 이밸류에이터

봇연구알고리즘

Poki: Loki 후속작, 유효 핸드 강도를 입력받아 (폴드/콜/레이즈) 확률 트리플 출력. Poker Academy에 라이선스 판매. / Cactus Kev(Kevin Suffecool): 카드 랭크에 소수를 배정해 5장 곱으로 패를 유일하게 식별하는 핸드 이밸류에이터 개발. 산술의 기본 정리(소수 곱의 유일성) 활용.

2000

추상화 기법 (Shi & Littman)

버킷 추상화 도입

GTO이론알고리즘

핸드와 베팅 사이즈를 버킷으로 묶는 추상화 기법 개발. 수십억 개의 게임 상태를 관리 가능한 크기로 압축. 이후 모든 GTO 솔버의 핵심 기술이 되는 개념.

2003

GTO 최초 학술 논문 ★

Billings et al. — IJCAI

GTO이론봇연구

Approximating Game-Theoretic Optimal Strategies for Full-scale Poker. 추상화를 사용해 헤즈업 리밋 홀덤에서 GTO 전략을 근사. 게임 트리 10^6 규모 문제를 처음으로 다룬 역사적 논문. 빌 첸 책보다 3년 앞선 최초의 포커 GTO 학술 연구.

2005

Gilpin & Sandholm

Rhode Island Poker 완전 해결 (LP)

GTO이론봇연구

선형 프로그래밍(LP, Sequence Form)으로 단순화된 포커 변형인 Rhode Island Poker의 균형 전략을 완전히 계산. CMU의 Sandholm이 처음으로 포커 연구에 등장하는 시점.

2006

ACPC 창설 + 빌 첸 책 출판

The Mathematics of Poker / 연간 컴퓨터 포커 대회

GTO이론봇연구

빌 첸 & 앤컨먼의 The Mathematics of Poker 출판으로 GTO를 일반 플레이어에게 최초 대중화. 동시에 앨버타·CMU 공동으로 Annual Computer Poker Competition(ACPC) 창설, 전 세계 연구자 경쟁의 장 마련.

2007

CFR 알고리즘 탄생 ★★

Zinkevich et al. — 앨버타 대학교

알고리즘

Counterfactual Regret Minimization. "만약 다른 선택을 했다면 얼마나 나았을까?"를 반복 계산하며 내쉬 균형으로 수렴. 10^12 규모 게임 해결 가능. 현대 모든 포커 솔버의 핵심 엔진. 매 반복마다 전체 게임 트리를 탐색하는 구조.

2009

MCCFR 탄생 ★★

Lanctot et al. — 앨버타 대학교, NIPS

알고리즘

Monte Carlo CFR. 전체 게임 트리 대신 샘플링된 일부만 탐색하면서도 CFR과 동일하게 내쉬 균형으로 수렴함을 증명. Chance / External / Outcome Sampling 세 방식. CFR 대비 수백 배 효율화. 현대 상용 솔버의 실질적 엔진.

2014

CFR+ 알고리즘

Tammelin — 앨버타 대학교

알고리즘

음수 후회값을 0으로 클리핑하는 단순한 변형으로 MCCFR 대비 수렴 속도 10배 이상 개선. Cepheus 개발의 직접적 기반. 단순한 수정이지만 성능 향상이 극적이었던 사례.

2015

Cepheus + Claudico

리밋 홀덤 완전 해결 / 인간에게 패배

봇연구

Cepheus(앨버타): CFR+를 사용해 헤즈업 리밋 텍사스 홀덤을 수학적으로 완전 해결. 정보집합 10^14 규모. 딜러가 게임당 0.088 빅블라인드 이점을 가짐을 증명. / Claudico(CMU Sandholm & Noam Brown): 첫 노리밋 홀덤 봇, 프로 4명에게 패배.

2017

Libratus (CMU) ★★★

헤즈업 노리밋 홀덤 최초 인간 격파

봇연구

Science 저널 게재(2018). 피츠버그 Rivers Casino 20일 12만 핸드. 147 mbb/hand 차이로 프로 4명 완파. 3단계 구조: 블루프린트 전략 + 실시간 서브게임 솔빙 + 자기개선 모듈. 전문 도메인 지식 없이 자가 학습으로만 달성.

2019

Pluribus (CMU + Facebook AI) ★★★★

6인 멀티플레이어 인간 격파

봇연구

Science 표지 논문. 13명 챔피언 대상 1만 핸드 압도적 승리. 블루프린트 계산 비용 약 150달러(vs AlphaGo의 GPU 수백 대). Donk betting 전략 발견. 불완전 정보 다중 에이전트 AI의 이정표. 제한적 선견 탐색이 핵심 돌파구.

현재

상용 솔버 시대

PioSolver / GTO Wizard / Simple Postflop

GTO이론알고리즘

MCCFR·CFR+ 기반 상용 솔버 보급. 일반 플레이어도 GTO 학습 가능. 포커 전략의 패러다임 완전 전환. 수십 년간의 학술 연구 성과가 실전 플레이어의 손에 들어옴. AI 연구 성과의 현장 적용 사례로도 주목.