数亿年的进化为我们的星球带来了各种各样的生命体,每个生命体都有自己的智能。每个物种都进化出了与生俱来的技能、学习能力和身体形态,以确保其在环境中的生存。

但是,尽管受到自然和进化的启发,人工智能领域在很大程度上侧重于单独创造智能的元素,并在开发后将其融合在一起。虽然这种方法产生了巨大的成果,但它也限制了人工智能代理在一些基本技能方面的灵活性,这些技能甚至在最简单的生命体中都可以找到。
请在6月16日和17日的日历上做好标记

在科学杂志《自然》上发表的一篇新论文中,斯坦福大学的人工智能研究人员提出了一项新技术,可以帮助采取措施克服其中的一些限制。题为 "深度进化强化学习 "的新技术使用复杂的虚拟环境和强化学习来创建虚拟代理,这些代理可以在其物理结构和学习能力方面进行进化。这些发现可能对未来的人工智能和机器人研究产生重要影响。

进化是很难模拟的



在自然界中,身体和大脑一起进化。在许多世代中,每个动物物种都经历了无数次的突变周期,以长出四肢、器官和神经系统,支持它在环境中所需要的功能。蚊子有热视力来发现体温。蝙蝠有翅膀来飞行,有回声定位装置来导航黑暗的地方。海龟有脚蹼来游泳,有磁场探测系统来走很远的路。人类有一种直立的姿势,可以解放他们的手臂,让他们看到遥远的地平线,有可以操纵物体的手和灵活的手指,还有一个使他们成为地球上最好的社会生物和问题解决者的大脑。

有趣的是,所有这些物种都是几十亿年前出现在地球上的第一个生命体的后代。基于环境造成的选择压力,这些第一批生命体的后代向许多不同的方向进化。

研究生命和智慧的进化是很有趣的。但复制它是非常困难的。一个想要以进化的方式重新创造智能生命的人工智能系统将不得不搜索一个非常大的可能形态的空间,这在计算上是非常昂贵的。它将需要大量的平行和顺序的试错循环。

人工智能研究人员使用一些捷径和预先设计的功能来克服其中的一些挑战。例如,他们固定人工智能或机器人系统的架构或物理设计,并专注于优化可学习参数。另一个捷径是使用拉马克而不是达尔文式的进化,在这种情况下,人工智能代理将他们学到的参数传给他们的后代。还有一种方法是分别训练不同的人工智能子系统(视觉、运动、语言等),然后在最终的人工智能或机器人系统中把它们粘在一起。虽然这些方法加快了进程,降低了训练和进化人工智能代理的成本,但它们也限制了可以实现的灵活性和结果的多样性。
深度进化强化学习

深度进化强化学习结构

在他们的新工作中,斯坦福大学的研究人员旨在使人工智能研究离真正的进化过程更近一步,同时保持尽可能低的成本。"他们在论文中写道:"我们的目标是阐明环境复杂性、进化形态和智能控制的可学习性之间关系的一些原则。

他们的框架被称为深度进化强化学习。在DERL中,每个代理使用深度强化学习来获得在其生命周期内最大化其目标所需的技能。DERL使用达尔文进化论来搜索最佳解决方案的形态空间,这意味着当新一代人工智能代理被催生出来时,它们只继承了其父母的物理和架构特征(以及轻微的突变)。任何学习到的参数都不会被跨代传递。



"研究人员写道:"DERL打开了进行大规模硅基实验的大门,以产生对学习和进化如何合作创造环境复杂性、形态智能和控制任务的可学习性之间的复杂关系的科学见解。
模拟进化

对于他们的框架,研究人员使用了MuJoCo,一个提供高度精确的刚体物理模拟的虚拟环境。他们的设计空间被称为UNIversal aniMAL(UNIMAL),其目标是创造能在各种地形中学习运动和物体操纵任务的形态。

环境中的每个代理人都由定义其四肢和关节的基因型组成。每个代理的直系后代继承父代的基因型,并经历突变,可以创造新的肢体,去除现有的肢体,或对自由度或肢体的大小等特征进行小的修改。

每个代理人都接受强化学习的训练,以便在各种环境中获得最大的回报。最基本的任务是运动,代理在一个事件中的旅行距离会得到奖励。物理结构更适合穿越地形的代理人会更快地学会使用他们的四肢来移动。

为了测试该系统的结果,研究人员在三种类型的地形中生成了代理:平坦(FT)、可变(VT)和带有可修改物体的可变地形(MVT)。平坦的地形对代理的形态学造成的选择压力最小。另一方面,可变地形迫使代理开发出更多的物理结构,可以爬坡和绕过障碍物。MVT变体有一个额外的挑战,即要求代理人操纵物体以实现其目标。

DERL的一个有趣的发现是结果的多样性。其他进化人工智能的方法往往会收敛在一个解决方案上,因为新的代理直接继承了他们父母的体质和学习方法。但在DERL中,只有形态学数据被传递给后代,系统最终创造出多样化的成功形态,包括两足动物、三足动物和有无手臂的四足动物。

同时,该系统显示出鲍德温效应的特征,这表明学习速度快的代理人更有可能繁殖并将其基因传给下一代。根据斯坦福大学的论文,DERL显示进化 "在没有任何直接选择压力的情况下选择更快的学习者"。

"研究人员写道:"有趣的是,这种形态上的鲍德温效应的存在可以在未来的研究中被利用,以创造出具有较低样本复杂性和较高概括能力的具身代理。
在DERL中训练的代理在各种任务中得到了评估在DERL中训练的代理在各种任务中得到了评估

最后,DERL框架还验证了这样一个假设,即更复杂的环境将产生更多的智能代理。研究人员在八个不同的任务中测试了进化后的代理,包括巡逻、逃跑、操纵物体和探索。他们的研究结果表明,一般来说,在可变地形中进化的代理人比只经历过平坦地形的人工智能代理人学习得更快,表现得更好。

他们的发现似乎与DeepMind研究人员的另一个假设相一致,即复杂的环境、合适的奖励结构和强化学习最终可以导致各种智能行为的出现。

人工智能和机器人学研究

DERL环境只有现实世界复杂程度的一小部分。"研究人员写道:"尽管DERL使我们在扩展进化环境的复杂性方面迈出了重要的一步,但未来的一项重要工作将涉及设计更多的开放式、物理上现实的和多代理的进化环境。

在未来,研究人员将扩大评估任务的范围,以更好地评估代理人如何增强其学习人类相关行为的能力。

这项工作可以对人工智能和机器人的未来产生重要影响,并推动研究人员使用与自然进化更相似的探索方法。

"研究人员写道:"我们希望我们的工作鼓励在其他背景下对学习和进化进行进一步的大规模探索,以产生对快速可学习的智能行为的出现的新的科学见解,以及我们在机器中实例化它们的能力方面的新的工程进展。