计算机研究与发展2023,Vol.60Issue(6) :1385-1395.DOI:10.7544/issn1000-1239.202220279

稳健的重尾线性赌博机算法

Robust Heavy-Tailed Linear Bandits Algorithm

马兰霁弘 赵鹏 周志华
计算机研究与发展2023,Vol.60Issue(6) :1385-1395.DOI:10.7544/issn1000-1239.202220279

稳健的重尾线性赌博机算法

Robust Heavy-Tailed Linear Bandits Algorithm

马兰霁弘 1赵鹏 1周志华1
扫码查看

作者信息

  • 1. 计算机软件新技术国家重点实验室(南京大学) 南京 210023
  • 折叠

摘要

线性赌博机模型是在线学习的基本模型之一,其每个摇臂的平均奖赏可以由线性函数进行参数化.该模型具有坚实的理论保证和良好的实际建模能力,被广泛应用于各个场景.然而在一些现实场景中,数据通常是从开放动态环境中收集得到,因而会存在数据不规范的问题,已有算法缺乏对此的稳健性.特别关注2类数据的不规范性:奖励函数的回归参数可能随时间变化,环境噪声可能无界,甚至不服从亚高斯分布.这2类问题分别被称为分布变化和重尾噪声.为了应对这2类不利因素,提出一种基于置信上界的在线算法,该算法使用均值中位数估计器以处理潜在的重尾噪声,同时采用重启机制来解决分布变化问题.在理论上,首先建立了问题的遗憾理论下界,进一步给出了算法的理论保障,所取得的结果可以回退到已有研究中没有分布变化或没有重尾噪声场景线性赌博机的理论结果.此外,针对未知环境设计了实用的在线集成适应技术,并在合成和真实世界的数据集上进行了广泛的实验来验证其有效性.

关键词

机器学习/开放环境学习/线性赌博机或没有重尾/分布变化/重尾噪声

引用本文复制引用

基金项目

国家自然科学基金(61921006)

国家自然科学基金(62206125)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量1
段落导航相关论文