2000亿次训练,只为能让AI“自学”新游戏
据外媒报道,Open-Ended Learning Team(开放式学习小组)在 Deepmind 的 Blog 上发表了一篇关于训练一个无需与人类交互数据就能玩不同游戏的 AI 智能体(AI agents)的文章。
一般来说,需要先给智能体提供一部分新游戏的数据,再让它自我进行游戏训练,从而在该游戏中取得更好的成绩。但目前的智能体,如果不从头开始学习,它就无法完成新游戏或新任务。团队的目的是省略前面的步骤,创造出的智能体能直接在新游戏中自我探索,并在复杂的游戏环境中取得好成绩。
AI agents
团队希望该文章能提供给其他研究人员另一条新思路,以创造更具适应性(more adaptive)、普遍能力(generally capable)更强的 AI 智能体。同时,他们邀请感兴趣的人士一同加入研究。
一、专门为训练 AI 造了个游戏场地
当 AI 智能体在训练游戏时,缺乏数据(每个游戏的数据都是单独的)是导致强化学习(reinforcement learning,RL) 效果不佳的主要原因。这就意味着如果想让智能体可以完成所有任务,就需要让它把每一款游戏(任务)都训练了,否则它们在遇到新游戏的时候就只能“干瞪眼”。
团队创建了一个 3D 游戏环境,称之为“XLand”,该环境能够容纳多位玩家共同游戏。这种环境使得团队能够制定新的学习算法,而这种算法能动态地控制一个智能体进行游戏训练。
Xland
因为 XLand 可以通过编程指定(programmatically specified),所以该游戏空间能够以自动和算法(automated and algorithmic)的方式生成数据(该数据可以训练智能体)。同时,XLand 中的任务涉及多个玩家,其他玩家的行为会加大 AI 智能体所面临的挑战。这些复杂的非线性交互(随机性)为训练提供了理想的数据源,因为有时训练环境中的微小变化可能会给智能体带来不一样的挑战。
二、任务难度要“刚刚好”
团队研究的核心是深度强化学习在神经网络中的作用(尤其是在智能体的训练中)。团队使用的神经网络结构(neural network architecture)提供了一种关注智能体内部循环状态(internal recurrent state)的机制,通过预测智能体所玩游戏的子目标(subgoals)来帮助引导智能体的注意力(预测游戏任务并引导智能体前往)。团队发现这个目标关注智能体 (goal-attentive agent,GOAT) 有学习了一般能力的政策的能力(GOAT 方案使得智能体更具适应性)。
预测智能体的子目标
团队还预测任务训练的难度会影响智能体的总体能力。因此,他们使用动态任务生成(dynamic task generation)对智能体的训练任务分配进行更改,并不断优化,生成的每个任务既不是太难也不是太容易,而是刚好适合训练。在这之后,他们使用基于群体的训练 (population based training,PBT) 来调整动态任务的生成参数,以提高智能体的总体能力。最后,团队将多个训练运行串联在一起,这样每一代智能体都可以从上一代智能体中启动(智能体迭代)。
三、智能体有启发式行为?
团队在对智能体进行了五代训练后,发现其学习能力和性能都在持续提升。在 XLand 的 4,000 个世界中玩过大约 700,000 个游戏后,最后一代的每个智能体都经历了 2000 亿次(200 billion)训练步骤,得到了 340 万(3.4 million)个任务的结果。
目前,团队的智能体已经能够顺利完成每次程序生成的测试任务,而且测试数据显示,智能体的能力(相比于上一代)有了整体的提高。
除此之外,团队还发现智能体表现出一般的启发式行为(heuristic behaviours),如实验(experimentation),该行为出现在于许多任务中,而不是专门针对单个任务的行为。团队有观察到智能体在游戏中使用不同的工具,包括利用障碍物来遮挡自己、利用物品创建坡道。随着训练的进展,智能体还偶尔会出现与其他玩家合作的行为,但目前团队还不能确认这是否是有意识的行为。
结语:“自学”让 AI 更智能
Open-Ended Learning Team 正在训练一个新的智能体,它不需要从头开始训练数据,就能适应新的游戏。这个智能体将比仅使用强化学习方法的智能体更加“智能”。
大量的数据训练一直以来是人工智能发展绕不开的难题,此次如果能大量减少训练数据,并使其获得跨领域的自主学习能力,那么人工智能的能力将能得到进一步的提升。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
版权声明:凡注明“来源:“生活消费网”的所有作品,版权归生活消费网 | 专注于国内外今日生活资讯网站所有。任何媒体转载、摘编、引用,须注明来源生活消费网 | 专注于国内外今日生活资讯网站和署著作者名,否则将追究相关法律责任。
-
鸿星尔克之后:“端水大师”雷军第七次晒鞋今天穿361°前不久,河南暴雨引发洪灾让全国各地十分牵挂,各地除了赶来许多救援队帮助之外,还有许多民众和企业都纷纷捐献了自己的物资或金钱上的帮助,希望帮助河南尽快渡过难关。其中,本就濒临破产的鸿星尔克一口气捐献50......2021-08-01 18:17
-
分析机构:华为P50/Pro系列采用京东方屏幕,6.5/6.6英寸2K柔IT之家7月30日消息7月29日晚上,华为余承东上台发布了华为P50系列,号称万象新生。华为正式发布P50系列,为华为首款出厂预装鸿蒙系统的手机。其中,华为P50采用6.5英寸纯直屏,华为P50Pro......2021-08-01 18:15
-
雷军:为米粉打造小米直面会一大波新品来袭8月1日,小米官方宣布上线一档官方视频直播栏目ldquo;小米直面会rdquo;,第一期将于8月2日晚上8点在小米社区、小米商城和小米官方新媒体平台直播。小米直面会是专门为米粉朋友们打造的一档官方视频......2021-08-01 18:13
-
丐板、大雷DIY装机高频黑词科普DIY装机有不少专业的词语,其中被玩家最常用的就是包含rdquo;丐ldquo;、rdquo;矿ldquo;、rdquo;雷ldquo;、这些字的词,那么它们都是什么意思,有哪些硬件会被这么叫,接下来......2021-08-01 18:12
-
郎平赛后哽咽向全国球迷道歉华为余承东打气:永不言败、女排精神一直在7月31日晚,中国女排3:0力克劲敌意大利队,取得了东京奥运会小组赛的首胜。不过遗憾的是,根据当前的胜负关系和积分情况,即便中国女排最后一场小组赛再次击败阿根廷队,也没有了出线进入8强的机会。尽管创造......2021-08-01 18:12