AI自己写代码让智能体进化！OpenAI的大模型有“人类思想”那味了( 二 )

文章图片
commit描述配合上提交前后代码对比的diff数据，就是AI绝佳的学习材料。

文章图片
研究人员筛选出一些描述意图明确、修改的代码量不大的提交数据来训练一个GPT-3架构的AI模型。
相当于让AI向人类程序员学习了如何有目的的修改一段代码。
这篇论文所用的模型也不需要完全版GPT-3的1750亿参数那么大，最高7.5亿参数就足以。

文章图片
由此得到了基础的AI模型，将在遗传算法中扮演变异算子的角色。
接下来让AI自己设计新机器人的流程总共分三步。

文章图片
第一步，先用经典的MAP-Elites算法生成一组初始机器人。

文章图片
这是一种QD（质量多样性）算法，可以保证机器人行为不同且质量都很高。

文章图片
第二步，用第一步产生的初始数据做预训练，让AI先学会设计出训练数据分布内的机器人。
也就是开头处那张在网上惊艳了众人的动图，展示了AI如何一步步把无法移动的“方块”改造成双腿交替弹跳移动机器人。

文章图片
第三步，再结合上强化学习算法做微调，让AI能根据不同地形条件生成能适应环境的机器人。

文章图片

文章图片
最终，研究人员选取了从最初的三个种子进化而来的机器人做效果展示。
可以看出它们的结构和移动方式都完全不同。

文章图片
网友惊呼“思路清奇”这项研究一经公布，可谓是一石激起千层浪。
许多网友都惊叹于这种“大模型+演进算法”结合的新奇方式：

文章图片
做过与之相关工作的研究人员也表示，从未想过能用大模型以diffs的形式来学习突变：

文章图片
【AI自己写代码让智能体进化！OpenAI的大模型有“人类思想”那味了】而除了对研究形式和本身的讨论之外，也有网友配上了这样图：

文章图片
Emmm……是有点那种味了。
团队介绍这项研究的团队成员均来自OpenAI 。
论文一作是JoelLehman ，是一位机器学习科学家。其聚焦的领域包括人工智能安全、强化学习和开放式搜索算法。

文章图片
与此同时， JoelLehman此前基于对人工智能发展的思考合写过一本科学读物《为什么伟大不能被计划出来：客观的秘密》：

文章图片
而对于这项研究的下一步， JoelLehman本人表示：
还有一个重要问题，就是模型能够多大程度上应用到其它环境中。
GP中的突变功效现在可以通过ELM大幅提高，这将激发出一系列广泛的新应用和研究方向。