|
|
51CTO旗下网站
|
|
移步端
  • 大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

    分布式强化学习是智能体在围棋、星云争霸等娱乐中用到的技艺,但 DeepMind 的一项研究表明,这种学习方法也为大脑中的奖励机制提供了一种新的解释,即大脑也采用了这种做法。

    笔者:刘少奇 来源:机械的心| 2020-01-16 15:57

    分布式强化学习是智能体在围棋、星云争霸等娱乐中用到的技艺,但 DeepMind 的一项研究表明,这种学习方法也为大脑中的奖励机制提供了一种新的解释,即大脑也采用了这种做法。这一发现视察了分布式强化学习之威力,同时也使得 DeepMind 的研讨人员越发坚信,「如今的 AI 研讨正走在不利的征程上」。

    多巴胺是人人所熟悉的大脑快乐信号。如果工作的开展好于预期,大脑释放的多巴胺也会增加。

    在人口脑中生存奖励路径,该署路径控制我们对愉悦事件的反馈,并通过自由多巴胺的神经元进行介导。例如,在著名的巴布洛夫之鸡实验中,顶狗听到铃声便开始分泌口水时,这一反应并非已经拥有了奖励,而是大脑中的多巴胺细胞对即将来临的嘉奖产生之一种预测。

    先前的研讨认为,该署多巴胺神经元对奖励的预测应当是相同的。

    大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

    但近年来,DeepMind 的研讨人员通过使用分布式强化学习算法发现,每个多巴胺神经元对奖励的预测很不相同,它们会把调节到不同程度的「想不开」和「开展」状态。研究者希望通过这套算法研究并说明多巴胺细胞对大脑的所作所为、情绪等方面的影响。这份研究收获昨日登上了《Nature》。

    大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

    Nature 舆论链接:https://www.nature.com/articles/s41586-019-1924-6

    深化学习算法和多巴胺奖惩机制研究

    深化学习算是神经科学与 AI 外貌衔接的最早也是最有感染力的研讨之一。上世纪 80 年代后期,计算机科学研究者试图开发一种书法,这种做法仅依靠奖惩反馈作为训练信号,就足以单独学会如何实施复杂的所作所为。该署奖励会增强使他受益的其他行为。

    消灭奖励预测问题的要害突破是时序差分算法(TD),TD 不会扮演计算未来的完全回报,他尝试预测当前奖励和前途时刻预期奖励之和。那时一个时刻到来时,名将新的预测结果与预期中的相比,如果有出入,书法会计算二者之间的差别,合同此「时序差分」名将旧本子的预测调整为新的预测。

    不断训练之后,「预期」和「具体」会逐渐变得更加匹配,任何预测链条也会变得越来越准确。

    下半时,有的是跨学科研究者们,瞩目于多巴胺神经元的所作所为研究。顶面对即将来临的嘉奖时,多巴胺神经元会将「展望」和「推断」的值发送给广大大脑区域。

    该署神经元的「发送」作为与奖励的大小有稳定关系,但这些反应常常依靠的是外部感性信息输入,并且在给定任务中的表现也会随着生物体经验的增长而改变。例如,对于特定的刺激产生之嘉奖预测变少了,因为大脑已经习惯了。

    一部分研究者注意到,少数多巴胺神经元的反馈揭示了奖励预测的尾巴:相比之下于把教练应该生成的某种「预期」,它们实际发送的预料总是或多或少,和教练的预料不太一样。

    于是乎这些研究者建议大脑使用 TD 书法去计算奖励预测的误区,交通过多巴胺信号发送给大脑各个部位,这个来驱动学习行为。副当时起,多巴胺的嘉奖预测理论逐渐在数以万计的试验中得到证实,并已经化为政治经济学领域最成功之日产量理论之一。

    自 TD 把应用于多巴胺奖惩机制研究以来,微机科学家在不断优化从奖惩机制中学习之作法。自从 2013 年以来,深度强化学习开始受到关注:在加深学习中采用深度神经网络来学习更强的表示,使强化学习算法解决了精美性和备用度等问题。

    分布式强化学习是一种能让神经网络更好地展开强化学习之作法之一。在诸多之情况下,尤其是许多具体状态中,前途奖励的结果实际上是根据某个特定的所作所为而不是一番完全已知的计量进行的预测,他具有固定的盲目性。

    希冀 1 是一番示例,一度由计算机控制的小人正在通过障碍物,无法得知他是会掉落还是跨越到另一面。故此在此间,展望奖励就有两种,一种代表坠落的可能,一种代表成功抵达另一面的可能。

    大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

    希冀 1:顶未来不确定时,可以用概率分布的措施去描述未来奖励。前途的某一部分可能会是「好的(浅绿色)」,其它则代表「不好(革命)」。凭借各种 TD 书法,分布式强化学习可以学学关于这个奖励预期的分布情况。

    在这种情况下,专业 TD 书法学习预测将来的平均奖励,而不能拥有潜在回报的双峰分布(two-peaked distribution)。但是分布式强化学习算法则能够学习预测将来的全套奖励。上图 1 叙述了由分布式智能体学习到的嘉奖预测。

    故此,分布式强化学习算法在多巴胺研究中的应用就进来了研究者们的视野。

    分布式 TD:性能更好的加剧学习算法

    新的研究采用了一种分布式强化学习算法,与专业 TD 异常类似,把称为分布式 TD。专业 TD 读书单个预测(平均期望预测),而分布式 TD 读书一系列不同之预测。而分布式 TD 读书预测的主意与专业 TD 相同,即计算能够描述连续预测之间差异的嘉奖预测误差,但是每个预测器对于每个奖励预测误差都使用不同之更换。

    例如,顶奖励预测误差为正时(如下图 2A 所示),一部分预测器会有针对性地「扩增」或「增持」奖励预测误差。这使得预测器学习更乐观的嘉奖预测,故而对应奖励分布中的更高部分。但同时,另一部分预测器扩增它们的负奖励预测误差(如下图 2A 所示),故此学习更悲观的嘉奖预测。故此具有不同悲观和开展权重的系列预测器构成了下图 2B 和 2C 的总体奖励分布图。

    希冀 2:分布式 TD 读书对奖励分布不同一些的均值估计。

    除了简洁性之外,分布式强化学习还有另一项优势,顶他与深度神经网络构成时会突出强大。过去五年,基于原始深度强化学习 DQN 智能体的作法有了众多进展,并且这些算法经常在 Atari 2600 游戏中的 Atari-57 基准测试集上开展评估,证明了分布式强化学习算法的性质优势。

    多巴胺研究中的分布式 TD

    出于分布式 TD 在人工神经网络中具有很好的性质,故此本研究考虑采取分布式 TD,尝试研究大脑的奖惩机制。

    在研讨中,研究者联合哈佛大学,对老鼠多巴胺细胞的记录进行分析。在任务中,该署老鼠获得数量未知的嘉奖(如下图 4 所示)。研究者之目的是评估多巴胺神经元的宣传是否与专业 TD 或分布式 TD 更为一致。

    旧时的研讨表明,多巴胺细胞改变它们的发放率(firing rate)来阐明存在的预测误差,即一个动物是否接受了比预期更多或更少的嘉奖。咱们掌握,顶奖励被吸收时,展望误差应为零,也就是奖励大小应与多巴胺细胞预测的一样,故此对应的发放率也不应该改变。

    对于每个多巴胺细胞,如果研究者确定了他规范发放率没有改变,则其奖励大小也得以把确认。其一关系被称之为细胞的「逆转点」。研究者想要弄清楚不同细胞之间的恶化点是否也存在差异。

    如下图 4C 所示,细胞之间存在着鲜明差距,一部分细胞会预测非常大的嘉奖,而另一部分只预测出独特小的嘉奖。外貌较于从记录中固有随机变化率所能预期的差别,细胞之间的现实性差异要大得多。

    大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

    大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

    希冀 4:在这项任务中,老鼠获得的川奖励(water reward)穿过随机方法确定,并可以调整,规模是 0.1-20 UL。

    在分布式 TD 官方,奖励预测中的这些差异是由正或负奖励预测误差的深刻性扩增引起的。扩增正奖励预测可以获得更乐观的嘉奖预测,而扩增负奖励可以获得更悲观的预测。故此,研究者接下来测量了不同多巴胺细胞对正或负期望的扩增程度,并发现了细胞之间存在着噪声也未能解释的保险多样性。并且关键的少数是,她们发现扩增正奖励预测误差的同一些细胞也显示出了更高的恶化点(上图 4C 朔下图),具体地说,该署细胞期望获得更高的嘉奖。

    说到底,分布式 TD 辩论预测,有着不同之恶化点(reversal point)的细胞应该共同编码学到的嘉奖分配。因此研究人员企盼能够探究:只是可以下多巴胺细胞的发放率解码出奖励分配到不同细胞的分布。

    如图 5 所示,研讨人员发现,只利用多巴胺细胞的发射速率,活生生有可能重建奖励的分布(蓝色线条),这与老鼠执行任务时奖励的现实性分布(灰色区域)异常接近。

    大脑也在用分布式强化学习?DeepMind新研究登上《Nature》

    希冀 5:多巴胺细胞群编码了学到的嘉奖分布的模样。

    总结

    研讨人员发现,大脑中的多巴胺神经元被调节到不同程度的「想不开」和「开展」。如果它们是一番代表团,这就是说所有的神经元不会唱同一个音域,而是彼此配合——每个神经元都有友好之区段,如男高音或女低音。在人工强化学习系统中,这种多样化的调节创造了更加丰富的教练信号,大幅度地加快了神经网络的读书。研讨人员推测,大脑可能出于同样的由来使用这套机制。

    大脑中分布式强化学习之生活可以为 AI 和伦理学的上进提供特别有趣的启蒙。第一,这一发现视察了分布式强化学习之威力——大脑已经采取了这套算法。

    从,他为考古学提出了新的问题。如果大脑边缘地「听取」开展/想不开多巴胺神经元会怎么样呢?会导致冲动或抑郁吗?大脑有强大的特点能力,该署特色是如何由分布式学习训练出的呢?例如,一旦某个动物协会了分配奖励的公有制,在他的上游任务会如何使用这种特点?多巴胺细胞之间的开阔情绪可变性与大脑中其他已知的变性形式存在什么关系?该署题材都要求继续研究进一步说明。

    说到底,DeepMind 的研讨人员企盼通过这些题材的提出和解答来促进神经科学的上进,进而为必发娱乐手机版研究带来好处,形成一个良性循环。

    【编纂推荐】

    1. 四个全新维度,多极化你的HTTP性能到极致
    2. 多师AI商店HR/面试官爆料:咱们是怎样招机器学习工程师的
    3. 每秒几十亿实时处理,阿里巴巴超大规模 Flink 集群运维揭秘_IT艺术周刊第611为期
    4. OMA必发娱乐手机版魅族年度影像大赛:大师评委阵容,创作高度好评
    5. 谷歌公布Chrome使用淘汰时间表:2021年6月停止支持
    【义务编辑: 张燕妮 TEL:(010)68476606】

    点赞 0
  • AI   数量  必发娱乐手机版
  • 分享:
    大家都在看
    猜你喜欢
  • 订阅专栏+更多

    Python使用场景实战手册

    Python使用场景实战手册

    Python使用场景实战手册
    共3章 | KaliArch

    118人口订阅学习

    一步到位玩儿透Ansible

    一步到位玩儿透Ansible

    Ansible
    共17章 | 骏马金龙1

    190人口订阅学习

    云架构师修炼手册

    云架构师修炼手册

    云架构师之必不可少技能
    共3章 | Allen在路上

    132人口订阅学习

    读 书 +更多

    贯通SOA:基于服务热线的Struts+EJB+Web Service

    Java的出现,贯彻了跨操作系统平台的顺序开发,以Java为基础的J2EE艺术已经化为因特网服务技能之激流。然而,以J2EE为基础的SOA架构技术必...

    订阅51CTO邮刊

    点击这里查看样刊

    订阅51CTO邮刊

    51CTO劳务号

    51CTO官微

    
       

    
       
       
       
       
       
    <menu id="e588cff9"></menu>