当前位置:首页> AI教程> 2022年强化学习推荐系统的发展趋势与应用

2022年强化学习推荐系统的发展趋势与应用

释放双眼,带上耳机,听听看~!
2022年是强化学习推荐系统的爆发年,文章综述了强化学习在推荐系统中的应用,讨论了强化学习算法的重要性以及推荐系统中使用强化学习的原因和核心组件。

Reinforced RecSys

2022年是强化学习推荐系统的爆发年,强化学习推荐系统综述“RLRS[1]”在ACM的综述类顶刊发表,从原理到方法解释清楚推荐系统中“为什么用”强化学习算法,同年网易伏羲开源了“雷火游戏”中推荐系统与强化学习算法的“RL4RS工程”[2],从数据到采样到强化学习代码解释清楚推荐系统中“怎么用”强化学习算法。不同于2018年周志华团队虚拟淘宝发表出来时的惊艳,2022年给强化学习推荐系统打足了基础。

如下图我们可以看到,自从2015年nature的DQN发表后,强化学习(RL)步入深度强化学习(DRL)时代,曾经的大规模计算问题被解决,强化学习推荐算法的热度逐年上升,SIGIR、KDD等顶会接受意图愈强。

2022年强化学习推荐系统的发展趋势与应用

今天我们就来浅聊一下”Reinforcement Learning based Recommender Systems: A Survey“这篇文章。

这篇文章是发表在 ACM Computing Surveys 上的综述文章,是计算机领域的权威综述类期刊。作者来自卡尔加里大学 (University of Calgary)。

1. 推荐系统为什么要和强化学习算法沾边?

我们先抛开技术,聊一聊推荐系统为什么需要强化学习。众所周知,随着电子商务平台的商品数量爆发式增长和消费者消费能力提升,推荐系统的作用从对用户推荐一个其最喜欢的商品走向为消费者序列化的推荐一系列商品。

消费者的天性就是在不断的与平台商家互动中完成订单,大数据的技术使得消费者在电子商务的行为具备可记录性并以数据的形式存储下来,深度学习的快速发展使得消费者行为数据具备可分析性以预测消费者未来的消费偏好。这也就使得当前推荐系统的目标不仅是一个预测任务,更是一个序列化决策任务,推荐系统在不断的做“推荐那个商品”这个决策。

因而,传统的深度学习推荐方法就存在局限性,如DIN等单任务推荐模型,MMOE等多任务推荐模型仅能告诉我们“what is good immediately”,但是不能告诉我们“what is good in the long run”。

2. 强化推荐系统的四个核心组件

2.1 强化算法的五个组件

在讲强化推荐系统的四个组件之前,我们先讲强化学习算法的五个组件,强化学习算法可以表示为<S,A,R,P,γ><S,A,R,P,gamma>

  • SS: 状态st∈Ss_tin S被定义为在tt时刻用户偏好及其在系统中的过去历史。
  • AA: 行为at∈Aa_t in A是在tt时刻向用户推荐的商品。
  • RR: 奖励r(st,at)∈Ar(s_t,a_t) in A是RL智能体收到的用户sts_t对所收到推荐商品ata_t的反馈。
  • PP: 状态转移概率矩阵p(st+1∣st,at)∈Pp(s_{t+1}|s_t,a_t) in P表示在状态sts_t时,RL智能体做出行为ata_t后整个环境状态转移到st+1s_{t+1}的概率。
  • γgamma: 折现因子γ∈[0,1]gamma in [0,1],表示未来奖励在当前的折现。

有了如上的模型<S,A,R,P,γ><S,A,R,P,gamma>,强化学习算法的目标就是找到最优的策略(Policy πpi)最大化未来奖励的期望:
maxπE[Σt=0Tγtr(st,at)]max_{pi}mathbb{E}[Sigma_{t=0}^Tgamma^tr(s_t,a_t)]

2.2 强化推荐系统的四个组件

如下图(a)所示,整体的强化学习推荐系统主要含有四个组件,其核心组件是状态表征(State representation)。

2022年强化学习推荐系统的发展趋势与应用

  • State representation: 如上图(b,c,d)所示,状态表征的方法主要有三种,用用户和商品直接表征,用用户、商品和上下文的特征表征,用用户和上下文通过编码器表征。随着步入深度时代,(d)图的编码器表征技术走向主流,可以更好的表征强化学习智能体所处的状态。
  • Policy optimization: 当状态被表征之后,智能体的行动如何影响状态变化可以被建模。那么推荐智能体选择行为的最优策略(policy)可以通过学习得到。强化学习的策略优化方法可以表示为表格方法(tabular method)和估计方法(approximate method),表格方法就是传统强化学习的方法,比如一种策略是“从Q表格中选择当前状态下Q值最大的行为”,估计方法是深度强化学习的方法,比如一种策略是“学习一种函数关系Q=f(s,a)Q=f(s,a)在当前状态下选择Q最大的行为”这个函数可以被梯度优化,也就是经典的fitted Q方法。随着强化学习的深度化,深度强化学习的策略从估计方法出发分为三类:1)value-based方法,典型的为DQN,2)policy-gradient方法,典型的为REINFORCE方法,3)avtor-critic方法,典型的为PPO方法。
  • Reward formulation: 智能体做出行为后,环境会对智能体的行为做出反应,评估智能体的行为是好是坏,比如最简单的奖励就是“用户点击了推荐商品为1,没点为0”。这个评估就是我们常说的奖励(reward),以数值的形式表现在整个强化学习系统中。然而,大部分推荐系统是不存在直接反馈的,不像游戏场景打死了怪就是有积分,消费者的行为往往是非理性的,点击了商品看了详情页其或许满意或许不满意。因此,定义合适的奖励是一个复杂且困难的工作,在工程中往往通过试错法来实现最优的奖励制定。当前的RLRS方法有两个通用思路,1)给予规则制定简单稀疏的数字奖励值,如“用户点击了推荐商品为1,没点为0”,2)学习一个奖励函数,如r=r(s,a)r=r(s,a)
  • Environment building: 大体来说,评估一个推荐算法就是困难的工作,现有的如准确率、新颖度、多样性等指标常常相互影响相互制约,学界与业界至今没有统一的评估规范。更别提在强化学习的场景,建立一个训练与评估强化学习智能体的统一环境是一项复杂的工作。现有的方法可以分为三类,offline、simulation、online。1)offline方法从离线数据集出发,80%的数据训练一个智能体,20%的数据评估,比如ICML发表的“Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”论文就用的此方法。2)simulation方法从离线数据集训练出一个仿真环境,智能体做出a=f(s)a=f(s)行为后,仿真环境模拟用户做出y=g(s,a)y=g(s,a)的行为,比如点击行为、下单行为等,比如VirtualTB、RL4RS、RecSim等论文皆是构建离线的仿真环境。3)online方法,强化学习智能体就是与真实用户实时互动,是最真实也是最昂贵的评估方法,你的RL智能体不行,会直接损伤平台用户活性。

未完待续,接下来继续完善。

[1]Afsar M M, Crump T, Far B. Reinforcement learning based recommender systems: A survey[J]. ACM Computing Surveys, 2022, 55(7): 1-38.
[2]Wang K, Zou Z, Shang Y, et al. Rl4rs: A real-world benchmark for reinforcement learning based recommender system. code

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

使用词向量实现问答匹配

2023-11-27 16:43:14

AI教程

WPS AI:办公、学习最fashion的姿势

2023-11-27 16:50:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索