상세 보기
빅데이터 환경에서 다중 슬롯머신 문제에 대한 톰슨 샘플링 방법
Thompson sampling for multi-armed bandits in big data environments
- Kim Min Kyong;
- Hwang Beom Seuk
Citations
WEB OF SCIENCE
1Citations
SCOPUS
0초록
MAB (multi-armed bandits) 문제는 순차적 의사 결정 상황에서 나타나며, 동적인 환경 내에서 가능한 여러 행동 중 보상을 최대화할 수 있는 최적의 행동을 선택하는 데 중점을 둔다. 통계적 학습 이론의 맥락에서 MAB 문제를 해결하는 대표적인 알고리즘 중 하나인 톰슨 샘플링은 근사 기법을 적용하면 복잡한 상황에서도 유연하게 적용될 수 있다고 알려져 있다. 그러나 실제 상용 서비스 데이터를 이용한 연구는 부족한 상황이다. 본 연구에서는 대중적인 추천 시스템 환경 중 하나인 배너 클릭 데이터를 활용하여 여러 조건의 모의실험 환경에서 톰슨 샘플링에 다양한 근사 기법 적용 여부에 따른 성능을 평가하였다. 실험 결과, 랑주뱅 몬테 카를로 근사 기법을 적용한 톰슨 샘플링의 성능이 빅데이터 환경에서 기존 톰슨 샘플링과 유사한 성능을 보임을 확인하였다. 본 연구는 근사 기법을 적용한 톰슨 샘플링이 근사 기법의 고유한 장점을 가지면서도 기존 모형과 유사한 성능을 낼 수 있음을 실증 확인하였다는 점에 그 의의가 있다고 볼 수 있다.
키워드
근사 기법; 다중 슬롯머신; 베이지안 최적화; 톰슨 샘플링; 통계적 학습; approximation; Bayesian optimization; multi-armed bandits; statistical learning; Thompson sampling
- 제목
- 빅데이터 환경에서 다중 슬롯머신 문제에 대한 톰슨 샘플링 방법
- 제목 (타언어)
- Thompson sampling for multi-armed bandits in big data environments
- 저자
- Kim Min Kyong; Hwang Beom Seuk
- 발행일
- 2024-10
- 유형
- Article
- 저널명
- 응용통계연구
- 권
- 37
- 호
- 5
- 페이지
- 663 ~ 673