Дата просвещение

Search

Search IconIcon to open search

Многорукий бандит

Last updated Sep 19, 2023 Edit Source

# Основные идеи

В машинном обучении задача обычно ставится так:

Однако во многих случая изначально правильных ответов нет, научиться что-то делать возможно только с помощью собственного опыта. Отсюда и обучение с подкреплением (reinforcement learning). Агент взаимодействует с окружающей средой, предпринимая действия. Окружающая среда его поощряет за эти действия, а агент продолжает их предпринимать.

Общая схемы выглядит обучения с подкреплением выглядит так

Многорукие бандиты как частный случай обучения с подкреплением

Многоруких бандитов можно разделить на два типа — в зависимости от того, какую задачу они призваны решить:

# Алгоритмы

Существует несколько алгоритмов применения бандитов.

  1. ε-greedy

    Выбираем стратегию с максимальной средней наградой (средним значением метрики, которую мы оптимизируем) и иногда с определённой заранее вероятностью выбираем случайную стратегию для исследования.

# Смысл применения

Основной смысл применения многоруких бандитов в том, чтобы оптимизировать стратегии на основе имеющегося опыта

Соответственно с помощью бандитов можно с течением времени выбирать наиболее выгодную стратегию.

Как применять в реальных задачах

# Источники