分类
最好的外汇经纪商

利用强化学习创建自动交易机器人

由马克·扎克伯格领导的Meta目前在元宇宙项目上雇佣了大约1万名员工 (Shutterstock)

MILABOT:基于深度强化学习打造聊天机器人

摘要: 论文介绍了加拿大蒙特利尔大学Yoshua Bengio研究组提出的MILABOT聊天机器人。MILABOT是一种开放域的聊天机器人,使用多种NLP和检索模型组合而成,并应用强化学习在众包数据和真实用户交互数据上训练策略选择模型,从各个响应模型给出的响应集中做出最优选择。MILABOT通过机器学习获取策略,减少了人工参与规则制定,并可使用更多的数据不断地优化模型。在Amazon Alexa开放域聊天机器人竞赛中,通过A/B测试验证了MILABOT的优越性能。

论文标题: A Deep Reinforcement Learning Chatbot,NIPS 2017 Demo

作者: 利用强化学习创建自动交易机器人 Iulian V. Serban, Chinnadhurai Sankar, Mathieu Germain等(Yoshua Bengio组)

编译: 盖磊

正文:

随着移动智能设备的普及,对聊天机器人和智能个人助理的需求日益迫切。一种业界观点认为,由人工智能技术驱动的聊天机器人将成为未来的移动端界面,从根本上改变人机交互的体验。我们已经看到了Amazon Echo和Google Home等产品,它们在日常生活、电子商务、信息获取等领域有广泛的应用。但是实现真正的开放域智能聊天机器人(Socialbot,也称为聊天机器人(Chatbot)或闲聊机器人(Chitchat bot)),依然是人工智能研究领域一个尚待解决的问题,仍然需要工业界和研究领域去努力解决大量挑战。

过去几年中深度学习的发展,尤其是近一年内深度强化学习(Deep reinforcement learning,DRL)的推进,为解决开放域人机交互提供了以一种可能技术途径。强化学习的显著特征是智能体(Agent)从用户处得到反馈并给予用户奖励(Reward),通过学习给出有助于实现整体奖励最大化目标的响应。Alphago的成功使人们看到了强化学习在序列决策上的巨大进步,这些进步进而推动了DRL在自动语音和自然语言理解领域的研究,探索解决自然语言理解及响应等开展对话中存在的挑战。基于深度强化学习的Bot具有扩展到当前尚无法涉足领域的能力,适用于开放域聊天机器人的场景。

本文介绍了加拿大蒙特利尔大学Yoshua Bengio研究组提出的MILABOT的模型、实验和最终系统。论文被NIPS 2017 Demo收录。MILABOT使用深度学习组合了多种NLP模型,在Amazon于2016年组织的开放域Socialbot竞赛取得很好的成绩,优于任何非组合模型。MILABOT的独到之处在于,首先它针对表达(utterance)响应的任务使用强化学习算法,大规模地组合了过去近十年中所有成功的NLP模型和算法,最小化了对手工定制规则和状态的需求。其次在训练参数化模型中,使用了Amazon竞赛提供的机会,在真实用户上训练和测试了当前最新机器学习算法的机会。训练后的系统在A/B测试中得到了显著改进的结果。

图1 DM的控制结构

基于检索的神经网络,包括VHRED models、SkipThought Vector Models、Dual Encoder Models、Bag-of-words Retrieval Models。

模型选取策略

在多种响应模型生成候选响应集后,DM使用策略模型确定选择策略,从候选集中确定将返回给用户的响应。DM必须应能选出提升用户整体满意度的响应,这需要在响应的实时性和用户整体满意度两者间作权衡。此外,响应选取中也应该考虑在用户的即刻满意度和整体满意度间作权衡。论文使用了Richard Sutton 和Andrew Barto提出的经典强化学习框架,将该问题看成是一种序贯决策问题(sequential decision making),形式化定义为:给定时序 ,在t时刻的对话为 ,智能体需要从一组K个响应 中做出选取,并得到奖励 。当系统转移到下一个状态 时,响应为 ,选取响应后得到奖励为 。强化学习的最终目标是最小化 。其中 是折现系数(discount factor)。构建强化学习模型中考虑的因素包括:

行为价值函数的参数化:行为价值函数(action-value function)由参数 定义, 。学习的期望返回值实现参数最大化 。

随机策略的参数化:假定策略是随机的,那么随机分布服从动作的一个参数化分布 。其中, 是以 为参数的打分函数(scoring function)。可使用贪心策略 ,选取具有最大概率的动作。

图2 模型选择策略评分模型的计算图。计算基于行为价值函数和随机策略参数化。

论文将打分函数和行为价值函数参数化,构建了结构如图2所示的五层的神经网络。神经网络的第一层是输入层,该层使用的特征抽取自对话历史和生成响应,用于表示对话历史和候选响应。特征考虑了基于词嵌入、对话、POS标签、Unigram词重叠、Bigrapm词重叠和一些特定于模型特征的组合,合计1458个(可参见详细报告)。第二层包含了500个隐含单元,通过对输入层特征应用线性转换及ReLU激活函数计算。第三层包含了20个隐含层,通过对前面的层应用线性转换计算得到。第四层包含了5个输出概率的单元,通过对前面的层应用线性转换并随后做softmax转换计算得到,并对应到Amazon Mechanical Turk(AMT)给出的标签。第五层是最终输出层,给出一个单标量值。该层通过对第三层和第四层中的单元做线性转换计算得到。为了学习各层的参数,论文深入研究了五种不同的机器学习方法。

  • 使用众包标签的有监督学习。该方法(称为“有监督AMT”)是打分模型学习的首个过程,所得到的模型参数可用于其它方法的启动参数。该方法在众包标签数据上使用有监督的学习,给出对行为价值函数 利用强化学习创建自动交易机器人 的估计。训练所需的数据集由AMT采集,并使用人工给出对响应的打分(从1到5)。研究团队从真实的Alexa用户会话中采集了199,678个标签,并分为训练数据集(137,549)、开发数据集(23,298)和测试数据集(38,831)。在训练模型中,团队使用对数似然优化打分模型参数 ,估计表示AMT标签的神经网络第四层。模型参数优化使用一阶SGD方法。图3给出了对于五种不同的标签类(即对响应打分从最好到最差),使用几种不同策略时的性能对比。从图中结果可见,有监督AMT取得了比其它对比方法(随机、Alicebit、Evibot+Alicebot)更好的性能。

图3 使用不同的策略时,响应AMT标签类的频率情况。

有监督的奖励学习。使用学习得到的奖励函数去学习模型的参数。给定某一时刻的对话历史,以及相应的响应集,可以将某一时刻的奖励建模为一个线性回归模型,预测响应的打分。学习的目标是使得打分分值最大化。模型参数优化使用mini-batch SGD。为增加效率,在组合模型学习中使用了Bagging方法。在训练模型时为避免过拟合,模型在初始化时使用了有监督AMT打分模型的参数,并以最小化平方误差为目标做进一步优化。

离策略(Off-policy)强化学习。一种策略参数化方法就是假定行为具有的离散概率分布,这样可以直接使用系统和真实用户间的对话记录学习随机策略。MILABOT使用了一种重新加权的强化学习算法进行学习,模型的初始化参数同样使用了有监督AMT训练的模型参数。训练中使用的数据集是在一段时间内测试系统和真实用户间的5000条对话记录,策略参数使用SGD在训练集进行优化,并用开发集确定模型的超参数和Early-stop。

使用学习到的奖励函数,做离策略强化学习。该方法类似于有监督的奖励学习,在用于训练的奖励模型上使用离策略强化学习算法。首先,该方法使用经良好调优的行为价值函数,对某一时刻的对话给出更准确的打分预测。然后,将回归模型组合离策略强化学习中,使用mini-batch SGD训练模型参数。训练中使用的数据集同样使用离策略强化学习中的数据集。

使用Markov决策过程(MDP)的Q-learning。上述方法都是在方差和偏差间取得权衡。有监督AMT方法使用了大量的训练集,可以给出最小的方差,但是引入了大量的偏差。另一方面,离策略强化学习在训练中仅使用了数千条对话即学习到的打分情况,因此方差很大。但是由于它直接优化目标函数,因此给出的偏差很小。面对此问题,MILABOT团队提出了一种新的方法,称为“抽象话语”(Abstract Discourse)MDP。抽象话语MDP通过近似Markov决策过程(MDP)中学习策略,意在降低方差的同时给出合理的偏差。

图4 抽象话语MDP的有向概率图模型。

抽象话语MDP的有向概率图模型如图4所示。对于某一时刻t, 是表示对话抽象状态的离散变量, 表示对话历史, 表示系统所采取的动作(即选定的响应), 表示抽样AMT标签, 表示抽样奖励。其中, 的状态被定义为一个离散值的三元组,包括对话行为状态(接受、拒绝、请求、提问等)、情感状态(正向、负向、中立)和表达状态(真、假)。模型的训练可以直接使用模拟数据,训练方法使用具有经验池(experience replay)的Q-learning,策略参数化为行为价值函数。各种策略在AMT上的评估情况如表1所示。

表1 策略在AMT上打分均值和标准偏差的评估情况,置信区间为90%

CN107065881B - 一种基于深度强化学习的机器人全局路径规划方法 - Google Patents

Publication number CN107065881B CN107065881B CN201710346125.3A CN201710346125A CN107065881B CN 107065881 B CN107065881 B CN 107065881B CN 201710346125 A CN201710346125 A CN 201710346125A CN 107065881 利用强化学习创建自动交易机器人 B CN107065881 B CN 107065881B Authority CN China Prior art keywords robot neural network layer deep neural movement Prior art date 2017-05-17 Legal status (The legal status is an assumption and is not a legal conclusion. Google has not 利用强化学习创建自动交易机器人 performed a legal analysis and makes no representation as to the accuracy of the status listed.) Active Application number CN201710346125.3A Other languages English ( en ) Other versions CN107065881A ( zh Inventor 刘华平 韩建晖 王博文 孙富春 Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.) Tsinghua University Original Assignee Tsinghua University Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.) 2017-05-17 Filing date 2017-05-17 Publication date 2019-11-08 2017-05-17 利用强化学习创建自动交易机器人 Application filed by Tsinghua University 利用强化学习创建自动交易机器人 利用强化学习创建自动交易机器人 filed Critical Tsinghua University 2017-05-17 Priority to CN201710346125.3A priority Critical patent/CN107065881B/zh 2017-08-18 Publication of CN107065881A publication Critical patent/CN107065881A/zh 2019-11-08 Application granted granted Critical 2019-11-08 Publication of CN107065881B publication Critical 利用强化学习创建自动交易机器人 patent/CN107065881B/zh Status Active legal-status Critical Current 2037-05-17 Anticipated expiration legal-status Critical

元宇宙世界 未来会给我们带来什么?

元宇宙是我们工作、学习、娱乐、赚钱和花钱的虚拟场所 (Shutterstock)

元宇宙的吸引力

由马克·扎克伯格领导的Meta目前在元宇宙项目上雇佣了大约1万名员工 (Shutterstock)

元宇宙和社交活动

几年前,《堡垒之夜》的开发者推出一个名为“Sound Wave”的系列。而在2020年4月,歌手特拉維斯·斯科特(Travis Scott)在游戏《堡垒之夜》举办了一场虚拟演唱会,有1230万人观看。

“Sound Wave”系列虚拟演唱会包含了来自世界各地的歌手,在其中一集中,埃及歌手穆罕默德·哈马基(Mohamed Hamaki)表演了包括歌曲“Lailat Omar”在内的音乐节目。

元宇宙将改变零售网站目前的网页状态 (Shutterstock)

元宇宙与电子商务

元宇宙和虚拟会议

元宇宙与协同设计

韩国首尔将成为世界上第一个采用元宇宙平台的主要城市 (Shutterstock)

元宇宙和政府

元宇宙提供了传统上难以实施的训练场景,除非付出非常高的财务成本 (Shutterstock)

元宇宙和培训中心

元宇宙和人工智能

一项研究预计,30%的公司将在元宇宙空间中分享他们全球范围内的产品和服务 (Shutterstock)

报道

e-works领航企业评选要素

评选专家阵容

主任委员:李培根院士 中国工程院院士
评选委员:李伯虎院士 中国工程院院士
谭建荣院士 中国工程院院士
王建民教授 清华大学教授、博导
李 斌教授 华中科技大学教授、博导
黄 培博士 e-works CEO

2021“中国工业数字化转型领航企业”画像

50家“中国工业数字化转型领航企业”基本情况

2021工业数字化转型领航企业数字化建设投资与其他制造企业投资对比

领航企业数字化技术应用情况

领航企业工业软件投资及应用情况

2021“中国工业数字化转型领航企业”观察

领航企业的转型模式主要方向

领航企业六种转型模式的典型应用实例

制造模式转型

· 基于机器学习的X光集中评片应用
· 机加工艺的智能闭环质量调整
· 基于激光二维码技术应用的产品追溯体系
· 基于产品数据库的多批定制产品柔性制造
· AI用于智能质量分析
· 边缘侧智能实时控制
· 基于工业视觉的设备运行状态采集
· 云化AGV和无人立库实现自动化出入库
· 基于数字化标签的生产防错
· 基于5G的生产设备远程控制
· 利用高级分析优化生产规划
· 利用强化学习创建自动交易机器人 3D仿真模拟物流运输
· AR辅助生产
· 通过3D视觉检测辅助生产
……

运营模式转型

· 销售端到采购端价格的全业务链管控
· 端对端的生产流程再造
· 建立全流程质量预防系统实现工厂全流程闭环
· 全面应用工业软件实现核心业务数字化
· 数据资产管理平台建设
· 以中台的思路构建整个财务体系
· 人工智能赋能的销售线索挖掘
· 端到端供应链协同和可视化管理
· 区块链技术支持的报价数据安全
· 多维度的产量预测和销售预测
· 5G和人工智能应用于园区安全监控预警
· 利用高级分析生成市场洞见
· 基于数据驱动的智能运营平台
· 信息系统的纵向打通和横向集成
……

研发模式转型

· 基于数字技术应用的按服务绩效付费
· 基于实时交易和互动设计系统的在线服务平台
· 基于AR/VR的远程运维服务
· 通过物联网为产品提供智能服务
· 基于数字李生的电站设备后运维服务
· 通过大数据分析实现预测性维护
· 基于5G和AR技术的汽车远程诊断维修
· 基于物联网平台的产品预防性运维
· 智能服务付费
· 基于loT系统的产品数据服务平合
· VR用于产品远程操控
· 设备施工过程中的远程诊断运维
· AI和大数据用于智能运维云平台
· AR用于远程作业指导
……

服务模式转型

· 基于数字技术应用的按服务绩效付费
· 基于实时交易和互动设计系统的在线服务平台
· 基于AR/VR的远程运维服务
· 通过物联网为产品提供智能服务
· 基于数字李生的电站设备后运维服务
· 通过大数据分析实现预测性维护
· 基于5G和AR技术的汽车远程诊断维修
……

决策模式转型

· 海量的异构数据治理及分析
· 数字化互联互通系统实现互联工厂智能决策
· 基于大数据的决策支持
· 用于决策支持的驾驶舱
· 通过管理看板及报表实现商务智能
· 基于工业大数据的数字指挥中心
· 管理驾驶舱用于智能决策
……

商业模式转型

· 工业互联网平台赋能产业转型
· 大规模定制和B2C在线订购
· 推出基于工业互联网标识应用的平台产品
· 拓展企业上云服务业务
· 由产品售卖转变为开始对外提供IT服务支持
……