上下文多臂匪徒
英文Contextual Multi-armed Bandits,上下文多臂匪徒,也有称为上下文多臂老虎机,一种线性算法(Algorithm)。
上下文多臂匪徒算法有望在顺序决策任务(例如新闻推荐系统,网页广告放置算法和移动健康)中最大化累积reward。但是,大多数提出的上下文多臂匪徒算法都假定奖励和行为上下文之间存在线性关系。
类似:Multi-armed Bandit Algorithm,多臂匪徒算法,简称MBA。
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
如果您认为本词条还有待完善,请 编辑
上一篇 Disruption 下一篇 Stein方法